> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/science-and-research/alphafold2.md).

# AlphaFold2 प्रोटीन प्रेडिक्शन

> **नोबल पुरस्कार विजेता AI के साथ प्रोटीन संरचनाओं की भविष्यवाणी करें — Clore.ai पर GPU त्वरक द्वारा संचालित**

DeepMind द्वारा विकसित AlphaFold2 ने परमाणु सटीकता के साथ प्रोटीन की 3D संरचनाओं की भविष्यवाणी करके संरचनात्मक जीवविज्ञान में क्रांति ला दी। इसे 200 मिलियन से अधिक प्रोटीन अनुक्रमों पर लागू किया गया है और इसे 2024 का रसायन विज्ञान का नोबल पुरस्कार मिला है। AlphaFold2 चलाने के लिए महत्वपूर्ण GPU मेमोरी और गणना की आवश्यकता होती है — Clore.ai आवश्यक उच्च-स्तरीय GPUs तक सस्ती पहुँच प्रदान करता है।

**GitHub:** [google-deepmind/alphafold](https://github.com/google-deepmind/alphafold) — 13K+ ⭐

***

## पूर्व-आवश्यकताएँ

* पर्याप्त बैलेंस वाले Clore.ai खाता
* Linux कमांड लाइन का बुनियादी परिचय
* आपके लक्षित प्रोटीन अनुक्रम(ओं) का FASTA प्रारूप में फ़ाइल
* पूर्ण आनुवंशिक डेटाबेस के लिए \~2.5TB डिस्क स्थान (या परीक्षण के लिए कम किए गए डेटाबेस का उपयोग करें)

***

## Clore.ai पर AlphaFold2 क्यों चलाएँ?

AlphaFold2 को GPU त्वरक से अत्यधिक लाभ होता है:

| हार्डवेयर       | प्रीडिक्शन समय (आम प्रोटीन \~400aa) |
| --------------- | ----------------------------------- |
| केवल CPU        | 6–24+ घंटे                          |
| सिंगल A100 80GB | 15–45 मिनट                          |
| सिंगल RTX 4090  | 20–60 मिनट                          |
| सिंगल RTX 3090  | 30–90 मिनट                          |

Clore.ai A100, RTX 4090, और RTX 3090 नोड्स क्लाउड प्रदाता की लागत के एक अंश पर प्रदान करता है, जिससे बड़े पैमाने पर प्रोटीओमिक्स अध्ययन सुलभ होते हैं।

***

## स्टेप 1 — Clore.ai पर अपना GPU रेंटल चुनें

{% hint style="info" %}
**AlphaFold2 के लिए सुझाए गए GPUs:**

* **A100 80GB** — बड़े प्रोटीन्स (>700 aa) और मल्टीमर प्रेडिक्शन के लिए सर्वश्रेष्ठ
* **RTX 4090 24GB** — मानक मोनोमर्स (<500 aa) के लिए शानदार
* **RTX 3090 24GB** — छोटे प्रोटीन्स के लिए लागत-प्रभावी

मल्टीमर प्रेडिक्शन के लिए 40GB+ VRAM की दृढ़ सिफारिश की जाती है।
{% endhint %}

1. लॉग इन करें [clore.ai](https://clore.ai) और जाएँ पर **मार्केटप्लेस**
2. GPU मॉडल द्वारा फ़िल्टर करें (A100 या RTX 4090 की सिफारिश)
3. सुनिश्चित करें कि सर्वर में है **कम से कम 100GB डिस्क स्थान** (या पूर्ण डेटाबेस के लिए 2.5TB)
4. एक सर्वर चुनें और क्लिक करें **किराए पर लें**

***

## स्टेप 2 — अपनी डिप्लॉयमेंट कॉन्फ़िगर करें

अपना रेंटल ऑर्डर सेट करते समय निम्न कॉन्फ़िगरेशन का उपयोग करें:

**Docker इमेज:**

```
nvidia/cuda:11.8.0-cudnn8-runtime-ubuntu20.04
```

{% hint style="warning" %}
AlphaFold2 को एक कस्टम Docker सेटअप की आवश्यकता होती है। हम कंटेनर के अंदर इसे स्रोत से इंस्टॉल करेंगे। वैकल्पिक रूप से, सामुदायिक इमेज का उपयोग करें `catgumag/alphafold` इमेज जेनरेट करें `merteroglu/alphafold2` जो पहले से वातावरण पैकेज करता है।
{% endhint %}

**खुलने वाले पोर्ट्स:**

```
22
```

**पर्यावरण चर:**

```
NVIDIA_VISIBLE_DEVICES=all
NVIDIA_DRIVER_CAPABILITIES=compute,utility
```

**न्यूनतम संसाधन:**

* CPU: 8 कोर
* RAM: 32GB (बड़े प्रोटीन्स के लिए 64GB की सिफारिश)
* डिस्क: न्यूनतम 100GB (पूर्ण डेटाबेस के लिए 2.5TB)

***

## स्टेप 3 — SSH के जरिए कनेक्ट करें

एक बार आपका इंस्टेंस चलने लगे:

```bash
ssh root@<server-ip> -p <ssh-port>
```

सत्यापित करें कि GPU दिखाई दे रहा है:

```bash
nvidia-smi
```

अपेक्षित आउटपुट में आपका GPU दिखना चाहिए (उदा., A100 80GB SXM4)।

***

## स्टेप 4 — AlphaFold2 इंस्टॉल करें

### विकल्प A: आधिकारिक इंस्टॉलर स्क्रिप्ट का उपयोग

```bash
# सिस्टम पैकेज अपडेट करें
apt-get update && apt-get install -y \
    wget \
    git \
    python3-pip \
    python3-dev \
    aria2 \
    hmmer \
    kalign \
    hhsuite

# Miniconda इंस्टॉल करें
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
bash miniconda.sh -b -p /opt/conda
export PATH="/opt/conda/bin:$PATH"

# AlphaFold2 क्लोन करें
git clone https://github.com/google-deepmind/alphafold.git /opt/alphafold
cd /opt/alphafold

# conda वातावरण बनाएं
conda env create -f environment.yml
conda activate alphafold
```

### विकल्प B: pip का उपयोग करके (तेज़ सेटअप)

```bash
# सिस्टम निर्भरताएँ इंस्टॉल करें
apt-get update && apt-get install -y \
    wget curl git aria2 hmmer kalign

# hhsuite इंस्टॉल करें
conda install -c bioconda hhsuite

# AlphaFold2 क्लोन और इंस्टॉल करें
git clone https://github.com/google-deepmind/alphafold.git /opt/alphafold
cd /opt/alphafold

pip install -r requirements.txt
pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

# AlphaFold स्वयं इंस्टॉल करें
python3 setup.py install
```

***

## स्टेप 5 — आनुवंशिक डेटाबेस डाउनलोड करें

{% hint style="warning" %}
**पूर्ण डेटाबेस डाउनलोड के लिए \~2.5TB डिस्क स्थान चाहिए और इसमें 6–24 घंटे लग सकते हैं।** प्रारंभिक परीक्षण के लिए, कम किए गए डेटाबेस का उपयोग करें (नीचे Reduced DB सेक्शन देखें)।
{% endhint %}

### पूर्ण डेटाबेस (प्रोडक्शन उपयोग)

```bash
cd /opt/alphafold

# दिए गए स्क्रिप्ट का उपयोग कर सभी डेटाबेस डाउनलोड करें
bash scripts/download_all_data.sh /data/alphafold_databases
```

यह डाउनलोड करता है:

* **BFD** (\~270GB) — Big Fantastic Database
* **UniRef90** (\~58GB) — UniProt संदर्भ क्लस्टर्स
* **MGnify** (\~64GB) — मेटाजेनोमिक अनुक्रम
* **PDB70** (\~56GB) — प्रोटीन डेटा बैंक प्रतिनिधि संरचनाएँ
* **PDB seqres** (\~0.2GB)
* **UniClust30** (\~86GB)
* **Small BFD** (\~17GB) — कम किया गया संस्करण

### कम किए गए डेटाबेस (परीक्षण/विकास)

सीमित डिस्क पर परीक्षण के लिए:

```bash
# केवल small_bfd और आवश्यक डेटाबेस डाउनलोड करें
bash scripts/download_small_bfd.sh /data/alphafold_databases
bash scripts/download_pdb70.sh /data/alphafold_databases
bash scripts/download_uniclust30.sh /data/alphafold_databases
bash scripts/download_uniref90.sh /data/alphafold_databases
bash scripts/download_mgnify.sh /data/alphafold_databases
bash scripts/download_pdb_seqres.sh /data/alphafold_databases
bash scripts/download_uniprot.sh /data/alphafold_databases
```

***

## स्टेप 6 — AlphaFold मॉडल वेट्स डाउनलोड करें

```bash
# मॉडल पैरामीटर्स के लिए डायरेक्टरी बनाएं
mkdir -p /data/alphafold_databases/params

# मॉडल पैरामीटर्स डाउनलोड करें (~3.5GB)
wget -q -P /data/alphafold_databases/params \
    https://storage.googleapis.com/alphafold/alphafold_params_2022-12-06.tar

# निकालें
tar -xf /data/alphafold_databases/params/alphafold_params_2022-12-06.tar \
    -C /data/alphafold_databases/params
```

***

## स्टेप 7 — अपना इनपुट अनुक्रम तैयार करें

अपने लक्षित प्रोटीन अनुक्रम के साथ एक FASTA फ़ाइल बनाएं:

```bash
cat > /tmp/target_protein.fasta << 'EOF'
>my_protein
MKTLLLTLVVVTIVCLDLGAVGNGSGLKCRQTGSCVHFPKDLQALPKDDTASDLNRSLDAEAFKAFQRLAENFNATEYRDIQNFNNKIQHSLEELAKKLDEKLAKLKEKLKQLEN
EOF
```

{% hint style="info" %}
**FASTA प्रारूप सुझाव:**

* हेडर लाइन की शुरुआत होती है `>`
* अनुक्रम में केवल मानक अमीनो अम्ल अक्षर होना चाहिए (ACDEFGHIKLMNPQRSTVWY)
* किसी भी गैप या गैर-मानक अक्षर हटा दें
* मल्टीमर प्रेडिक्शन के लिए, अलग-अलग हेडरों के साथ सभी चैन शामिल करें
  {% endhint %}

***

## स्टेप 8 — AlphaFold2 चलाएँ

### मोनोमर प्रेडिक्शन (सिंगल चैन)

```bash
cd /opt/alphafold

python3 run_alphafold.py \
    --fasta_paths=/tmp/target_protein.fasta \
    --max_template_date=2022-01-01 \
    --model_preset=monomer \
    --db_preset=full_dbs \
    --data_dir=/data/alphafold_databases \
    --output_dir=/tmp/alphafold_output \
    --uniref90_database_path=/data/alphafold_databases/uniref90/uniref90.fasta \
    --mgnify_database_path=/data/alphafold_databases/mgnify/mgy_clusters_2022_05.fa \
    --template_mmcif_dir=/data/alphafold_databases/pdb_mmcif/mmcif_files \
    --obsolete_pdbs_path=/data/alphafold_databases/pdb_mmcif/obsolete.dat \
    --pdb70_database_path=/data/alphafold_databases/pdb70/pdb70 \
    --bfd_database_path=/data/alphafold_databases/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
    --uniclust30_database_path=/data/alphafold_databases/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \
    --use_gpu_relax=True
```

### मल्टीमर प्रेडिक्शन (प्रोटीन कॉम्प्लेक्स)

```bash
python3 run_alphafold.py \
    --fasta_paths=/tmp/complex.fasta \
    --max_template_date=2022-01-01 \
    --model_preset=multimer \
    --db_preset=full_dbs \
    --data_dir=/data/alphafold_databases \
    --output_dir=/tmp/alphafold_output \
    --uniref90_database_path=/data/alphafold_databases/uniref90/uniref90.fasta \
    --mgnify_database_path=/data/alphafold_databases/mgnify/mgy_clusters_2022_05.fa \
    --template_mmcif_dir=/data/alphafold_databases/pdb_mmcif/mmcif_files \
    --obsolete_pdbs_path=/data/alphafold_databases/pdb_mmcif/obsolete.dat \
    --uniprot_database_path=/data/alphafold_databases/uniprot/uniprot.fasta \
    --pdb_seqres_database_path=/data/alphafold_databases/pdb_seqres/pdb_seqres.txt \
    --use_gpu_relax=True
```

***

## स्टेप 9 — आउटपुट फ़ाइलों को समझना

AlphaFold2 प्रत्येक प्रेडिक्शन के लिए कई आउटपुट फ़ाइलें उत्पन्न करता है:

```
/tmp/alphafold_output/my_protein/
├── ranked_0.pdb          # सर्वश्रेष्ठ भविष्यवाणी संरचना
├── ranked_1.pdb          # दूसरी-श्रेष्ठ भविष्यवाणी
├── ranked_2.pdb
├── ranked_3.pdb
├── ranked_4.pdb
├── result_model_1.pkl    # पूर्ण भविष्यवाणी डेटा (pickle)
├── result_model_2.pkl
├── ...
├── msas/                 # मल्टीपल सिक्वेंस अलाइनमेंट्स
│   ├── bfd_uniclust_hits.a3m
│   ├── mgnify_hits.sto
│   └── uniref90_hits.sto
└── timings.json          # रनटाइम ब्रेकडाउन
```

{% hint style="info" %}
**परिणामों की व्याख्या:**

* **ranked\_0.pdb** आपकी सबसे अच्छी संरचना है — इसे PyMOL, ChimeraX, या UCSF Chimera में खोलें
* **pLDDT स्कोर** (0–100): प्रति-रेसिड्यू विश्वास। >90 = बहुत उच्च, 70–90 = अच्छा, 50–70 = निम्न, <50 = अव्यवस्थित
* **PAE (Predicted Aligned Error)** प्लॉट्स इंटर-डोमेन विश्वास दिखाते हैं
  {% endhint %}

***

## स्टेप 10 — परिणामों का विज़ुअलाइज़ेशन

### PDB फ़ाइलें अपनी लोकल मशीन पर डाउनलोड करें

```bash
# अपनी लोकल मशीन से:
scp -P <ssh-port> root@<server-ip>:/tmp/alphafold_output/my_protein/ranked_0.pdb ./

# या पूरे आउटपुट डायरेक्टरी के लिए rsync का उपयोग करें:
rsync -avz -e "ssh -p <ssh-port>" \
    root@<server-ip>:/tmp/alphafold_output/ \
    ./alphafold_results/
```

### लोकल रूप से PyMOL में विज़ुअलाइज़ करें

```python
# PyMOL में:
load ranked_0.pdb
spectrum b, blue_white_red, minimum=0, maximum=100
# pLDDT स्कोर से रंग करें (B-factor कॉलम में संग्रहीत)
```

### त्वरित pLDDT विश्लेषण

```python
import numpy as np

# PDB से B-factor (pLDDT) पार्स करें
plddt_scores = []
with open('ranked_0.pdb', 'r') as f:
    for line in f:
        if line.startswith('ATOM'):
            plddt = float(line[60:66].strip())
            plddt_scores.append(plddt)

print(f"Mean pLDDT: {np.mean(plddt_scores):.1f}")
print(f"Residues >90 pLDDT: {sum(s > 90 for s in plddt_scores)}/{len(plddt_scores)}")
```

***

## ColabFold का उपयोग करते समय (तेज़ विकल्प)

ColabFold MSA जनरेशन के लिए MMseqs2 का उपयोग करके AlphaFold2 का तेज़ी से कार्यान्वित संस्करण है:

```bash
pip install colabfold[alphafold]

# प्रेडिक्शन चलाएँ (MSA चरण बहुत तेज़)
colabfold_batch /tmp/target_protein.fasta /tmp/colabfold_output \
    --num-recycle 3 \
    --use-gpu-relax
```

{% hint style="success" %}
**ColabFold सामान्यतः 10–40x तेज़ होता है** मूल AlphaFold2 पाइपलाइन की तुलना में MMseqs2 MSA सर्वर के कारण। यह पुनरावृत्त अनुसंधान कार्यप्रवाहों के लिए आदर्श है।
{% endhint %}

***

## समस्या निवारण

### CUDA मेमोरी खत्म (Out of Memory)

```bash
# मॉडल जटिलता कम करें या यूनिफाइड मेमोरी का उपयोग करें
export XLA_PYTHON_CLIENT_ALLOCATOR=platform
export XLA_PYTHON_CLIENT_MEM_FRACTION=0.85

# या कम रीसाइक्लिंग के साथ चलाएँ
--num_multimer_predictions_per_model 1
```

### HHblits / Jackhmmer त्रुटियाँ

```bash
# सुनिश्चित करें कि hhsuite सही तरीके से इंस्टॉल है
which hhblits
hhblits --version

# आवश्यकता होने पर पुनः इंस्टॉल करें
conda install -c bioconda hhsuite -y
```

### डेटाबेस डाउनलोड विफलताएँ

```bash
# aria2 के साथ बीच में रुके डाउनलोड फिर से जारी रखें
aria2c -c -x 16 -s 16 <database-url> -d /data/alphafold_databases/
```

### JAX/CUDA संगतता मुद्दे

```bash
# जाँचें कि JAX GPU देख सकता है
python3 -c "import jax; print(jax.devices())"

# सही CUDA संस्करण के साथ JAX पुनः इंस्टॉल करें
pip install --upgrade "jax[cuda11_pip]" \
    -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
```

***

## प्रदर्शन सुझाव

{% hint style="success" %}
**अपने AlphaFold2 रन को अनुकूलित करें:**

1. **ColabFold का उपयोग करें** तेज़ MSA जनरेशन के लिए (10–40x स्पीडअप)
2. **सेट करें `--num-recycle 1`** त्वरित स्क्रीनिंग के लिए, अंतिम भविष्यवाणियों के लिए 3 का उपयोग करें
3. **उपयोग करें `--db_preset=reduced_dbs`** अन्वेषणात्मक कार्य के लिए
4. **कई अनुक्रमों को बैच करें** कुशल पाइपलाइन रन के लिए एक FASTA फ़ाइल में
5. **GPU रिलैक्सेशन सक्षम करें** (`--use_gpu_relax=True`) — CPU रिलैक्सेशन की तुलना में बहुत तेज़
   {% endhint %}

***

## Clore.ai पर लागत अनुमान

| दृश्य                             | GPU       | अनुमानित समय | अनुमानित लागत |
| --------------------------------- | --------- | ------------ | ------------- |
| एकल प्रोटीन (\~300aa)             | RTX 3090  | 1–2h         | \~$0.30–0.60  |
| एकल प्रोटीन (\~500aa)             | RTX 4090  | 45–90min     | \~$0.40–0.80  |
| मल्टीमर कॉम्प्लेक्स               | A100 80GB | 2–4h         | \~$1.50–3.00  |
| प्रोटीओम स्क्रीनिंग (100 प्रोटीन) | A100 80GB | 8–12h        | \~$6–10       |

*लागत अनुमानित हैं और वर्तमान मार्केटप्लेस मूल्य निर्धारण पर निर्भर करते हैं।*

***

## अतिरिक्त संसाधन

* [AlphaFold2 GitHub](https://github.com/google-deepmind/alphafold)
* [AlphaFold डेटाबेस](https://alphafold.ebi.ac.uk/) — 200M+ प्रोटीन के लिए पहले से गणना की गई संरचनाएँ
* [ColabFold GitHub](https://github.com/sokrypton/ColabFold)
* [DeepMind AlphaFold ब्लॉग](https://www.deepmind.com/research/highlighted-research/alphafold)
* [OpenFold](https://github.com/aqlaboratory/openfold) — ट्रेन करने योग्य PyTorch पुनः-कार्यान्वयन
* [AlphaFold2](https://github.com/facebookresearch/esm) — Meta का तेज़ विकल्प

***

*यह गाइड Clore.ai GPU रेंटल्स पर AlphaFold2 डिप्लॉयमेंट को कवर करता है। नवीनतम AlphaFold3 के लिए, अलग AlphaFold3 गाइड देखें।*

***

## Clore.ai GPU सिफारिशें

| उपयोग केस          | सिफारिश की गई GPU | Clore.ai पर अनुमानित लागत |
| ------------------ | ----------------- | ------------------------- |
| डेवलपमेंट/टेस्टिंग | RTX 3090 (24GB)   | \~$0.12/gpu/hr            |
| मानक प्रोटीन       | RTX 4090 (24GB)   | \~$0.70/gpu/hr            |
| बड़े अणु / मल्टीमर | A100 80GB         | \~$1.20/gpu/hr            |

> 💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं [Clore.ai](https://clore.ai/marketplace) GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/science-and-research/alphafold2.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
