# AlphaFold2 प्रोटीन पूर्वानुमान

> **नोबल पुरस्कार विजेता AI के साथ प्रोटीन संरचनाओं की भविष्यवाणी करें — Clore.ai पर GPU त्वरक द्वारा संचालित**

DeepMind द्वारा विकसित AlphaFold2 ने परमाणु सटीकता के साथ प्रोटीन की 3D संरचनाओं की भविष्यवाणी करके संरचनात्मक जीवविज्ञान में क्रांति ला दी। इसे 200 मिलियन से अधिक प्रोटीन अनुक्रमों पर लागू किया गया है और इसे 2024 का रसायन विज्ञान का नोबल पुरस्कार मिला है। AlphaFold2 चलाने के लिए महत्वपूर्ण GPU मेमोरी और गणना की आवश्यकता होती है — Clore.ai आवश्यक उच्च-स्तरीय GPUs तक सस्ती पहुँच प्रदान करता है।

**GitHub:** [google-deepmind/alphafold](https://github.com/google-deepmind/alphafold) — 13K+ ⭐

***

## पूर्व-आवश्यकताएँ

* पर्याप्त बैलेंस वाले Clore.ai खाता
* Linux कमांड लाइन का बुनियादी परिचय
* आपके लक्षित प्रोटीन अनुक्रम(ओं) का FASTA प्रारूप में फ़ाइल
* पूर्ण आनुवंशिक डेटाबेस के लिए \~2.5TB डिस्क स्थान (या परीक्षण के लिए कम किए गए डेटाबेस का उपयोग करें)

***

## Clore.ai पर AlphaFold2 क्यों चलाएँ?

AlphaFold2 को GPU त्वरक से अत्यधिक लाभ होता है:

| हार्डवेयर       | प्रीडिक्शन समय (आम प्रोटीन \~400aa) |
| --------------- | ----------------------------------- |
| केवल CPU        | 6–24+ घंटे                          |
| सिंगल A100 80GB | 15–45 मिनट                          |
| सिंगल RTX 4090  | 20–60 मिनट                          |
| सिंगल RTX 3090  | 30–90 मिनट                          |

Clore.ai A100, RTX 4090, और RTX 3090 नोड्स क्लाउड प्रदाता की लागत के एक अंश पर प्रदान करता है, जिससे बड़े पैमाने पर प्रोटीओमिक्स अध्ययन सुलभ होते हैं।

***

## स्टेप 1 — Clore.ai पर अपना GPU रेंटल चुनें

{% hint style="info" %}
**AlphaFold2 के लिए सुझाए गए GPUs:**

* **A100 80GB** — बड़े प्रोटीन्स (>700 aa) और मल्टीमर प्रेडिक्शन के लिए सर्वश्रेष्ठ
* **RTX 4090 24GB** — मानक मोनोमर्स (<500 aa) के लिए शानदार
* **RTX 3090 24GB** — छोटे प्रोटीन्स के लिए लागत-प्रभावी

मल्टीमर प्रेडिक्शन के लिए 40GB+ VRAM की दृढ़ सिफारिश की जाती है।
{% endhint %}

1. लॉग इन करें [clore.ai](https://clore.ai) और जाएँ पर **मार्केटप्लेस**
2. GPU मॉडल द्वारा फ़िल्टर करें (A100 या RTX 4090 की सिफारिश)
3. सुनिश्चित करें कि सर्वर में है **कम से कम 100GB डिस्क स्थान** (या पूर्ण डेटाबेस के लिए 2.5TB)
4. एक सर्वर चुनें और क्लिक करें **किराए पर लें**

***

## स्टेप 2 — अपनी डिप्लॉयमेंट कॉन्फ़िगर करें

अपना रेंटल ऑर्डर सेट करते समय निम्न कॉन्फ़िगरेशन का उपयोग करें:

**Docker इमेज:**

```
nvidia/cuda:11.8.0-cudnn8-runtime-ubuntu20.04
```

{% hint style="warning" %}
AlphaFold2 को एक कस्टम Docker सेटअप की आवश्यकता होती है। हम कंटेनर के अंदर इसे स्रोत से इंस्टॉल करेंगे। वैकल्पिक रूप से, सामुदायिक इमेज का उपयोग करें `catgumag/alphafold` इमेज जेनरेट करें `merteroglu/alphafold2` जो पहले से वातावरण पैकेज करता है।
{% endhint %}

**खुलने वाले पोर्ट्स:**

```
22
```

**पर्यावरण चर:**

```
NVIDIA_VISIBLE_DEVICES=all
NVIDIA_DRIVER_CAPABILITIES=compute,utility
```

**न्यूनतम संसाधन:**

* CPU: 8 कोर
* RAM: 32GB (बड़े प्रोटीन्स के लिए 64GB की सिफारिश)
* डिस्क: न्यूनतम 100GB (पूर्ण डेटाबेस के लिए 2.5TB)

***

## स्टेप 3 — SSH के जरिए कनेक्ट करें

एक बार आपका इंस्टेंस चलने लगे:

```bash
ssh root@<server-ip> -p <ssh-port>
```

सत्यापित करें कि GPU दिखाई दे रहा है:

```bash
nvidia-smi
```

अपेक्षित आउटपुट में आपका GPU दिखना चाहिए (उदा., A100 80GB SXM4)।

***

## स्टेप 4 — AlphaFold2 इंस्टॉल करें

### विकल्प A: आधिकारिक इंस्टॉलर स्क्रिप्ट का उपयोग

```bash
# सिस्टम पैकेज अपडेट करें
apt-get update && apt-get install -y \
    wget \
    git \
    python3-pip \
    python3-dev \
    aria2 \
    hmmer \
    kalign \
    hhsuite

# Miniconda इंस्टॉल करें
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
bash miniconda.sh -b -p /opt/conda
export PATH="/opt/conda/bin:$PATH"

# AlphaFold2 क्लोन करें
git clone https://github.com/google-deepmind/alphafold.git /opt/alphafold
cd /opt/alphafold

# conda वातावरण बनाएं
conda env create -f environment.yml
conda activate alphafold
```

### विकल्प B: pip का उपयोग करके (तेज़ सेटअप)

```bash
# सिस्टम निर्भरताएँ इंस्टॉल करें
apt-get update && apt-get install -y \
    wget curl git aria2 hmmer kalign

# hhsuite इंस्टॉल करें
conda install -c bioconda hhsuite

# AlphaFold2 क्लोन और इंस्टॉल करें
git clone https://github.com/google-deepmind/alphafold.git /opt/alphafold
cd /opt/alphafold

pip install -r requirements.txt
pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

# AlphaFold स्वयं इंस्टॉल करें
python3 setup.py install
```

***

## स्टेप 5 — आनुवंशिक डेटाबेस डाउनलोड करें

{% hint style="warning" %}
**पूर्ण डेटाबेस डाउनलोड के लिए \~2.5TB डिस्क स्थान चाहिए और इसमें 6–24 घंटे लग सकते हैं।** प्रारंभिक परीक्षण के लिए, कम किए गए डेटाबेस का उपयोग करें (नीचे Reduced DB सेक्शन देखें)।
{% endhint %}

### पूर्ण डेटाबेस (प्रोडक्शन उपयोग)

```bash
cd /opt/alphafold

# दिए गए स्क्रिप्ट का उपयोग कर सभी डेटाबेस डाउनलोड करें
bash scripts/download_all_data.sh /data/alphafold_databases
```

यह डाउनलोड करता है:

* **BFD** (\~270GB) — Big Fantastic Database
* **UniRef90** (\~58GB) — UniProt संदर्भ क्लस्टर्स
* **MGnify** (\~64GB) — मेटाजेनोमिक अनुक्रम
* **PDB70** (\~56GB) — प्रोटीन डेटा बैंक प्रतिनिधि संरचनाएँ
* **PDB seqres** (\~0.2GB)
* **UniClust30** (\~86GB)
* **Small BFD** (\~17GB) — कम किया गया संस्करण

### कम किए गए डेटाबेस (परीक्षण/विकास)

सीमित डिस्क पर परीक्षण के लिए:

```bash
# केवल small_bfd और आवश्यक डेटाबेस डाउनलोड करें
bash scripts/download_small_bfd.sh /data/alphafold_databases
bash scripts/download_pdb70.sh /data/alphafold_databases
bash scripts/download_uniclust30.sh /data/alphafold_databases
bash scripts/download_uniref90.sh /data/alphafold_databases
bash scripts/download_mgnify.sh /data/alphafold_databases
bash scripts/download_pdb_seqres.sh /data/alphafold_databases
bash scripts/download_uniprot.sh /data/alphafold_databases
```

***

## स्टेप 6 — AlphaFold मॉडल वेट्स डाउनलोड करें

```bash
# मॉडल पैरामीटर्स के लिए डायरेक्टरी बनाएं
mkdir -p /data/alphafold_databases/params

# मॉडल पैरामीटर्स डाउनलोड करें (~3.5GB)
wget -q -P /data/alphafold_databases/params \
    https://storage.googleapis.com/alphafold/alphafold_params_2022-12-06.tar

# निकालें
tar -xf /data/alphafold_databases/params/alphafold_params_2022-12-06.tar \
    -C /data/alphafold_databases/params
```

***

## स्टेप 7 — अपना इनपुट अनुक्रम तैयार करें

अपने लक्षित प्रोटीन अनुक्रम के साथ एक FASTA फ़ाइल बनाएं:

```bash
cat > /tmp/target_protein.fasta << 'EOF'
>my_protein
MKTLLLTLVVVTIVCLDLGAVGNGSGLKCRQTGSCVHFPKDLQALPKDDTASDLNRSLDAEAFKAFQRLAENFNATEYRDIQNFNNKIQHSLEELAKKLDEKLAKLKEKLKQLEN
EOF
```

{% hint style="info" %}
**FASTA प्रारूप सुझाव:**

* हेडर लाइन की शुरुआत होती है `>`
* अनुक्रम में केवल मानक अमीनो अम्ल अक्षर होना चाहिए (ACDEFGHIKLMNPQRSTVWY)
* किसी भी गैप या गैर-मानक अक्षर हटा दें
* मल्टीमर प्रेडिक्शन के लिए, अलग-अलग हेडरों के साथ सभी चैन शामिल करें
  {% endhint %}

***

## स्टेप 8 — AlphaFold2 चलाएँ

### मोनोमर प्रेडिक्शन (सिंगल चैन)

```bash
cd /opt/alphafold

python3 run_alphafold.py \
    --fasta_paths=/tmp/target_protein.fasta \
    --max_template_date=2022-01-01 \
    --model_preset=monomer \
    --db_preset=full_dbs \
    --data_dir=/data/alphafold_databases \
    --output_dir=/tmp/alphafold_output \
    --uniref90_database_path=/data/alphafold_databases/uniref90/uniref90.fasta \
    --mgnify_database_path=/data/alphafold_databases/mgnify/mgy_clusters_2022_05.fa \
    --template_mmcif_dir=/data/alphafold_databases/pdb_mmcif/mmcif_files \
    --obsolete_pdbs_path=/data/alphafold_databases/pdb_mmcif/obsolete.dat \
    --pdb70_database_path=/data/alphafold_databases/pdb70/pdb70 \
    --bfd_database_path=/data/alphafold_databases/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
    --uniclust30_database_path=/data/alphafold_databases/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \
    --use_gpu_relax=True
```

### मल्टीमर प्रेडिक्शन (प्रोटीन कॉम्प्लेक्स)

```bash
python3 run_alphafold.py \
    --fasta_paths=/tmp/complex.fasta \
    --max_template_date=2022-01-01 \
    --model_preset=multimer \
    --db_preset=full_dbs \
    --data_dir=/data/alphafold_databases \
    --output_dir=/tmp/alphafold_output \
    --uniref90_database_path=/data/alphafold_databases/uniref90/uniref90.fasta \
    --mgnify_database_path=/data/alphafold_databases/mgnify/mgy_clusters_2022_05.fa \
    --template_mmcif_dir=/data/alphafold_databases/pdb_mmcif/mmcif_files \
    --obsolete_pdbs_path=/data/alphafold_databases/pdb_mmcif/obsolete.dat \
    --uniprot_database_path=/data/alphafold_databases/uniprot/uniprot.fasta \
    --pdb_seqres_database_path=/data/alphafold_databases/pdb_seqres/pdb_seqres.txt \
    --use_gpu_relax=True
```

***

## स्टेप 9 — आउटपुट फ़ाइलों को समझना

AlphaFold2 प्रत्येक प्रेडिक्शन के लिए कई आउटपुट फ़ाइलें उत्पन्न करता है:

```
/tmp/alphafold_output/my_protein/
├── ranked_0.pdb          # सर्वश्रेष्ठ भविष्यवाणी संरचना
├── ranked_1.pdb          # दूसरी-श्रेष्ठ भविष्यवाणी
├── ranked_2.pdb
├── ranked_3.pdb
├── ranked_4.pdb
├── result_model_1.pkl    # पूर्ण भविष्यवाणी डेटा (pickle)
├── result_model_2.pkl
├── ...
├── msas/                 # मल्टीपल सिक्वेंस अलाइनमेंट्स
│   ├── bfd_uniclust_hits.a3m
│   ├── mgnify_hits.sto
│   └── uniref90_hits.sto
└── timings.json          # रनटाइम ब्रेकडाउन
```

{% hint style="info" %}
**परिणामों की व्याख्या:**

* **ranked\_0.pdb** आपकी सबसे अच्छी संरचना है — इसे PyMOL, ChimeraX, या UCSF Chimera में खोलें
* **pLDDT स्कोर** (0–100): प्रति-रेसिड्यू विश्वास। >90 = बहुत उच्च, 70–90 = अच्छा, 50–70 = निम्न, <50 = अव्यवस्थित
* **PAE (Predicted Aligned Error)** प्लॉट्स इंटर-डोमेन विश्वास दिखाते हैं
  {% endhint %}

***

## स्टेप 10 — परिणामों का विज़ुअलाइज़ेशन

### PDB फ़ाइलें अपनी लोकल मशीन पर डाउनलोड करें

```bash
# अपनी लोकल मशीन से:
scp -P <ssh-port> root@<server-ip>:/tmp/alphafold_output/my_protein/ranked_0.pdb ./

# या पूरे आउटपुट डायरेक्टरी के लिए rsync का उपयोग करें:
rsync -avz -e "ssh -p <ssh-port>" \
    root@<server-ip>:/tmp/alphafold_output/ \
    ./alphafold_results/
```

### लोकल रूप से PyMOL में विज़ुअलाइज़ करें

```python
# PyMOL में:
load ranked_0.pdb
spectrum b, blue_white_red, minimum=0, maximum=100
# pLDDT स्कोर से रंग करें (B-factor कॉलम में संग्रहीत)
```

### त्वरित pLDDT विश्लेषण

```python
import numpy as np

# PDB से B-factor (pLDDT) पार्स करें
plddt_scores = []
with open('ranked_0.pdb', 'r') as f:
    for line in f:
        if line.startswith('ATOM'):
            plddt = float(line[60:66].strip())
            plddt_scores.append(plddt)

print(f"Mean pLDDT: {np.mean(plddt_scores):.1f}")
print(f"Residues >90 pLDDT: {sum(s > 90 for s in plddt_scores)}/{len(plddt_scores)}")
```

***

## ColabFold का उपयोग करते समय (तेज़ विकल्प)

ColabFold MSA जनरेशन के लिए MMseqs2 का उपयोग करके AlphaFold2 का तेज़ी से कार्यान्वित संस्करण है:

```bash
pip install colabfold[alphafold]

# प्रेडिक्शन चलाएँ (MSA चरण बहुत तेज़)
colabfold_batch /tmp/target_protein.fasta /tmp/colabfold_output \
    --num-recycle 3 \
    --use-gpu-relax
```

{% hint style="success" %}
**ColabFold सामान्यतः 10–40x तेज़ होता है** मूल AlphaFold2 पाइपलाइन की तुलना में MMseqs2 MSA सर्वर के कारण। यह पुनरावृत्त अनुसंधान कार्यप्रवाहों के लिए आदर्श है।
{% endhint %}

***

## समस्या निवारण

### CUDA मेमोरी खत्म (Out of Memory)

```bash
# मॉडल जटिलता कम करें या यूनिफाइड मेमोरी का उपयोग करें
export XLA_PYTHON_CLIENT_ALLOCATOR=platform
export XLA_PYTHON_CLIENT_MEM_FRACTION=0.85

# या कम रीसाइक्लिंग के साथ चलाएँ
--num_multimer_predictions_per_model 1
```

### HHblits / Jackhmmer त्रुटियाँ

```bash
# सुनिश्चित करें कि hhsuite सही तरीके से इंस्टॉल है
which hhblits
hhblits --version

# आवश्यकता होने पर पुनः इंस्टॉल करें
conda install -c bioconda hhsuite -y
```

### डेटाबेस डाउनलोड विफलताएँ

```bash
# aria2 के साथ बीच में रुके डाउनलोड फिर से जारी रखें
aria2c -c -x 16 -s 16 <database-url> -d /data/alphafold_databases/
```

### JAX/CUDA संगतता मुद्दे

```bash
# जाँचें कि JAX GPU देख सकता है
python3 -c "import jax; print(jax.devices())"

# सही CUDA संस्करण के साथ JAX पुनः इंस्टॉल करें
pip install --upgrade "jax[cuda11_pip]" \
    -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
```

***

## प्रदर्शन सुझाव

{% hint style="success" %}
**अपने AlphaFold2 रन को अनुकूलित करें:**

1. **ColabFold का उपयोग करें** तेज़ MSA जनरेशन के लिए (10–40x स्पीडअप)
2. **सेट करें `--num-recycle 1`** त्वरित स्क्रीनिंग के लिए, अंतिम भविष्यवाणियों के लिए 3 का उपयोग करें
3. **उपयोग करें `--db_preset=reduced_dbs`** अन्वेषणात्मक कार्य के लिए
4. **कई अनुक्रमों को बैच करें** कुशल पाइपलाइन रन के लिए एक FASTA फ़ाइल में
5. **GPU रिलैक्सेशन सक्षम करें** (`--use_gpu_relax=True`) — CPU रिलैक्सेशन की तुलना में बहुत तेज़
   {% endhint %}

***

## Clore.ai पर लागत अनुमान

| दृश्य                             | GPU       | अनुमानित समय | अनुमानित लागत |
| --------------------------------- | --------- | ------------ | ------------- |
| एकल प्रोटीन (\~300aa)             | RTX 3090  | 1–2h         | \~$0.30–0.60  |
| एकल प्रोटीन (\~500aa)             | RTX 4090  | 45–90min     | \~$0.40–0.80  |
| मल्टीमर कॉम्प्लेक्स               | A100 80GB | 2–4h         | \~$1.50–3.00  |
| प्रोटीओम स्क्रीनिंग (100 प्रोटीन) | A100 80GB | 8–12h        | \~$6–10       |

*लागत अनुमानित हैं और वर्तमान मार्केटप्लेस मूल्य निर्धारण पर निर्भर करते हैं।*

***

## अतिरिक्त संसाधन

* [AlphaFold2 GitHub](https://github.com/google-deepmind/alphafold)
* [AlphaFold डेटाबेस](https://alphafold.ebi.ac.uk/) — 200M+ प्रोटीन के लिए पहले से गणना की गई संरचनाएँ
* [ColabFold GitHub](https://github.com/sokrypton/ColabFold)
* [DeepMind AlphaFold ब्लॉग](https://www.deepmind.com/research/highlighted-research/alphafold)
* [OpenFold](https://github.com/aqlaboratory/openfold) — ट्रेन करने योग्य PyTorch पुनः-कार्यान्वयन
* [AlphaFold2](https://github.com/facebookresearch/esm) — Meta का तेज़ विकल्प

***

*यह गाइड Clore.ai GPU रेंटल्स पर AlphaFold2 डिप्लॉयमेंट को कवर करता है। नवीनतम AlphaFold3 के लिए, अलग AlphaFold3 गाइड देखें।*

***

## Clore.ai GPU सिफारिशें

| उपयोग केस          | सिफारिश की गई GPU | Clore.ai पर अनुमानित लागत |
| ------------------ | ----------------- | ------------------------- |
| डेवलपमेंट/टेस्टिंग | RTX 3090 (24GB)   | \~$0.12/gpu/hr            |
| मानक प्रोटीन       | RTX 4090 (24GB)   | \~$0.70/gpu/hr            |
| बड़े अणु / मल्टीमर | A100 80GB         | \~$1.20/gpu/hr            |

> 💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं [Clore.ai](https://clore.ai/marketplace) GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।
