> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/nauka-i-issledovaniya/alphafold2.md).

# Предсказание белковых структур AlphaFold2

> **Предсказывайте структуры белков с помощью ИИ-решения, удостоенного Нобелевской премии — с аппаратным ускорением на GPU на Clore.ai**

AlphaFold2, разработанный DeepMind, произвел революцию в структурной биологии, предсказывая трехмерные структуры белков с атомной точностью. Он был применен к более чем 200 миллионам белковых последовательностей и стал причиной вручения Нобелевской премии по химии 2024 года. Запуск AlphaFold2 требует значительной памяти GPU и вычислительных ресурсов — Clore.ai предоставляет доступ к высокопроизводительным GPU по доступной цене.

**GitHub:** [google-deepmind/alphafold](https://github.com/google-deepmind/alphafold) — 13K+ ⭐

***

## Требования

* Учетная запись Clore.ai с достаточным балансом
* Базовое знакомство с командной строкой Linux
* Ваша целевая белковая последовательность(и) в формате FASTA
* \~2,5 ТБ дискового пространства для полных генетических баз данных (или используйте сокращенные базы для тестирования)

***

## Почему запускать AlphaFold2 на Clore.ai?

AlphaFold2 значительно выигрывает от ускорения на GPU:

| Оборудование   | Время предсказания (типичный белок \~400 аминокислот) |
| -------------- | ----------------------------------------------------- |
| Только CPU     | 6–24+ часов                                           |
| Один A100 80GB | 15–45 минут                                           |
| Один RTX 4090  | 20–60 минут                                           |
| Один RTX 3090  | 30–90 минут                                           |

Clore.ai предлагает узлы A100, RTX 4090 и RTX 3090 по цене, значительно ниже стоимости у облачных провайдеров, что делает масштабные протеомные исследования доступными.

***

## Шаг 1 — Выберите аренду GPU на Clore.ai

{% hint style="info" %}
**Рекомендуемые GPU для AlphaFold2:**

* **A100 80GB** — Лучший вариант для крупных белков (>700 аминокислот) и предсказания мультимеров
* **RTX 4090 24GB** — Отлично подходит для стандартных мономеров (<500 аминокислот)
* **RTX 3090 24GB** — Экономичный вариант для более мелких белков

Для предсказания мультимеров настоятельно рекомендуется 40 ГБ и более видеопамяти.
{% endhint %}

1. Войдите в [clore.ai](https://clore.ai) и перейдите на **Маркетплейс**
2. Отфильтруйте по модели GPU (рекомендуются A100 или RTX 4090)
3. Убедитесь, что сервер имеет **как минимум 100 ГБ дискового пространства** (или 2,5 ТБ для полных баз данных)
4. Выберите сервер и нажмите **Арендовать**

***

## Шаг 2 — Настройте деплоймент

При оформлении аренды используйте следующую конфигурацию:

**Docker-образ:**

```
nvidia/cuda:11.8.0-cudnn8-runtime-ubuntu20.04
```

{% hint style="warning" %}
AlphaFold2 требует кастомной Docker-сборки. Мы установим его из исходников внутри контейнера. В качестве альтернативы используйте образ сообщества `catgumag/alphafold` или `merteroglu/alphafold2` который уже содержит преднастроенную среду.
{% endhint %}

**Порты для открытия:**

```
22
```

**Переменные окружения:**

```
NVIDIA_VISIBLE_DEVICES=all
NVIDIA_DRIVER_CAPABILITIES=compute,utility
```

**Минимальные ресурсы:**

* CPU: 8 ядер
* ОЗУ: 32 ГБ (рекомендуется 64 ГБ для больших белков)
* Диск: минимум 100 ГБ (2,5 ТБ для полных баз данных)

***

## Шаг 3 — Подключитесь по SSH

После запуска вашего инстанса:

```bash
ssh root@<server-ip> -p <ssh-port>
```

Проверьте видимость GPU:

```bash
nvidia-smi
```

Ожидаемый вывод должен показать ваш GPU (например, A100 80GB SXM4).

***

## Шаг 4 — Установите AlphaFold2

### Вариант A: Использование официального скрипта установки

```bash
# Обновите системные пакеты
apt-get update && apt-get install -y \
    wget \
    git \
    python3-pip \
    python3-dev \
    aria2 \
    hmmer \
    kalign \
    hhsuite

# Установите Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
bash miniconda.sh -b -p /opt/conda
export PATH="/opt/conda/bin:$PATH"

# Клонируйте AlphaFold
git clone https://github.com/google-deepmind/alphafold.git /opt/alphafold
cd /opt/alphafold

# Создайте окружение conda
conda env create -f environment.yml
conda activate alphafold
```

### Вариант B: Использование pip (быстрая настройка)

```bash
# Установите системные зависимости
apt-get update && apt-get install -y \
    wget curl git aria2 hmmer kalign

# Установите hhsuite
conda install -c bioconda hhsuite

# Клонируйте и установите AlphaFold2
git clone https://github.com/google-deepmind/alphafold.git /opt/alphafold
cd /opt/alphafold

pip install -r requirements.txt
pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

# Установите сам AlphaFold
python3 setup.py install
```

***

## Шаг 5 — Скачайте генетические базы данных

{% hint style="warning" %}
**Скачивание полных баз данных требует \~2,5 ТБ дискового пространства и может занять 6–24 часа.** Для первоначального тестирования используйте сокращенные базы данных (см. раздел «Reduced DB» ниже).
{% endhint %}

### Полные базы данных (для продакшена)

```bash
cd /opt/alphafold

# Скачайте все базы данных с помощью предоставленного скрипта
bash scripts/download_all_data.sh /data/alphafold_databases
```

Это скачивает:

* **BFD** (\~270 ГБ) — Big Fantastic Database
* **UniRef90** (\~58 ГБ) — кластеры ссылок UniProt
* **MGnify** (\~64 ГБ) — последовательности метагеномики
* **PDB70** (\~56 ГБ) — представительские структуры из Protein Data Bank
* **PDB seqres** (\~0,2 ГБ)
* **UniClust30** (\~86 ГБ)
* **Small BFD** (\~17 ГБ) — сокращенная версия

### Сокращенные базы данных (тестирование/разработка)

Для тестирования при ограниченном диске:

```bash
# Скачайте только small_bfd и необходимые базы
bash scripts/download_small_bfd.sh /data/alphafold_databases
bash scripts/download_pdb70.sh /data/alphafold_databases
bash scripts/download_uniclust30.sh /data/alphafold_databases
bash scripts/download_uniref90.sh /data/alphafold_databases
bash scripts/download_mgnify.sh /data/alphafold_databases
bash scripts/download_pdb_seqres.sh /data/alphafold_databases
bash scripts/download_uniprot.sh /data/alphafold_databases
```

***

## Шаг 6 — Скачайте веса моделей AlphaFold

```bash
# Создайте каталог для параметров модели
mkdir -p /data/alphafold_databases/params

# Скачайте параметры модели (~3,5 ГБ)
wget -q -P /data/alphafold_databases/params \
    https://storage.googleapis.com/alphafold/alphafold_params_2022-12-06.tar

# Распакуйте
tar -xf /data/alphafold_databases/params/alphafold_params_2022-12-06.tar \
    -C /data/alphafold_databases/params
```

***

## Шаг 7 — Подготовьте входную последовательность

Создайте FASTA-файл с вашей целевой белковой последовательностью:

```bash
cat > /tmp/target_protein.fasta << 'EOF'
>my_protein
MKTLLLTLVVVTIVCLDLGAVGNGSGLKCRQTGSCVHFPKDLQALPKDDTASDLNRSLDAEAFKAFQRLAENFNATEYRDIQNFNNKIQHSLEELAKKLDEKLAKLKEKLKQLEN
EOF
```

{% hint style="info" %}
**Советы по формату FASTA:**

* Строка заголовка начинается с `>`
* Последовательность должна содержать только стандартные буквы аминокислот (ACDEFGHIKLMNPQRSTVWY)
* Удалите любые разрывы или нестандартные символы
* Для предсказания мультимеров включите все цепи с отдельными заголовками
  {% endhint %}

***

## Шаг 8 — Запуск AlphaFold2

### Предсказание мономера (одна цепь)

```bash
cd /opt/alphafold

python3 run_alphafold.py \
    --fasta_paths=/tmp/target_protein.fasta \
    --max_template_date=2022-01-01 \
    --model_preset=monomer \
    --db_preset=full_dbs \
    --data_dir=/data/alphafold_databases \
    --output_dir=/tmp/alphafold_output \
    --uniref90_database_path=/data/alphafold_databases/uniref90/uniref90.fasta \
    --mgnify_database_path=/data/alphafold_databases/mgnify/mgy_clusters_2022_05.fa \
    --template_mmcif_dir=/data/alphafold_databases/pdb_mmcif/mmcif_files \
    --obsolete_pdbs_path=/data/alphafold_databases/pdb_mmcif/obsolete.dat \
    --pdb70_database_path=/data/alphafold_databases/pdb70/pdb70 \
    --bfd_database_path=/data/alphafold_databases/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
    --uniclust30_database_path=/data/alphafold_databases/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \
    --use_gpu_relax=True
```

### Предсказание мультимеров (белковый комплекс)

```bash
python3 run_alphafold.py \
    --fasta_paths=/tmp/complex.fasta \
    --max_template_date=2022-01-01 \
    --model_preset=multimer \
    --db_preset=full_dbs \
    --data_dir=/data/alphafold_databases \
    --output_dir=/tmp/alphafold_output \
    --uniref90_database_path=/data/alphafold_databases/uniref90/uniref90.fasta \
    --mgnify_database_path=/data/alphafold_databases/mgnify/mgy_clusters_2022_05.fa \
    --template_mmcif_dir=/data/alphafold_databases/pdb_mmcif/mmcif_files \
    --obsolete_pdbs_path=/data/alphafold_databases/pdb_mmcif/obsolete.dat \
    --uniprot_database_path=/data/alphafold_databases/uniprot/uniprot.fasta \
    --pdb_seqres_database_path=/data/alphafold_databases/pdb_seqres/pdb_seqres.txt \
    --use_gpu_relax=True
```

***

## Шаг 9 — Понимание выходных файлов

AlphaFold2 генерирует несколько файлов вывода для каждого предсказания:

```
/tmp/alphafold_output/my_protein/
├── ranked_0.pdb          # Лучшая предсказанная структура
├── ranked_1.pdb          # Второе по качеству предсказание
├── ranked_2.pdb
├── ranked_3.pdb
├── ranked_4.pdb
├── result_model_1.pkl    # Полные данные предсказания (pickle)
├── result_model_2.pkl
├── ...
├── msas/                 # Множественные выравнивания последовательностей
│   ├── bfd_uniclust_hits.a3m
│   ├── mgnify_hits.sto
│   └── uniref90_hits.sto
└── timings.json          # Разбивка времени выполнения
```

{% hint style="info" %}
**Интерпретация результатов:**

* **ranked\_0.pdb** — ваша лучшая структура — откройте ее в PyMOL, ChimeraX или UCSF Chimera
* **pLDDT score** (0–100): доверие по каждому остатку. >90 = очень высокое, 70–90 = хорошее, 50–70 = низкое, <50 = беспорядочное
* **PAE (Predicted Aligned Error)** графики показывают доверие между доменами
  {% endhint %}

***

## Шаг 10 — Визуализация результатов

### Скачайте PDB-файлы на вашу локальную машину

```bash
# С вашей локальной машины:
scp -P <ssh-port> root@<server-ip>:/tmp/alphafold_output/my_protein/ranked_0.pdb ./

# Или используйте rsync для полной директории вывода:
rsync -avz -e "ssh -p <ssh-port>" \
    root@<server-ip>:/tmp/alphafold_output/ \
    ./alphafold_results/
```

### Визуализация в PyMOL (локально)

```python
# В PyMOL:
load ranked_0.pdb
spectrum b, blue_white_red, minimum=0, maximum=100
# Окраска по pLDDT (сохранено в колонке B-factor)
```

### Быстрая аналитика pLDDT

```python
import numpy as np

# Разбор B-factor (pLDDT) из PDB
plddt_scores = []
with open('ranked_0.pdb', 'r') as f:
    for line in f:
        if line.startswith('ATOM'):
            plddt = float(line[60:66].strip())
            plddt_scores.append(plddt)

print(f"Mean pLDDT: {np.mean(plddt_scores):.1f}")
print(f"Residues >90 pLDDT: {sum(s > 90 for s in plddt_scores)}/{len(plddt_scores)}")
```

***

## Использование ColabFold (быстрая альтернатива)

ColabFold — более быстрая реализация AlphaFold2, использующая MMseqs2 для генерации MSA:

```bash
pip install colabfold[alphafold]

# Запустите предсказание (намного более быстрый шаг MSA)
colabfold_batch /tmp/target_protein.fasta /tmp/colabfold_output \
    --num-recycle 3 \
    --use-gpu-relax
```

{% hint style="success" %}
**ColabFold обычно в 10–40 раз быстрее** оригинального конвейера AlphaFold2 благодаря серверу MMseqs2 для MSA. Идеален для итеративных исследовательских рабочих процессов.
{% endhint %}

***

## Устранение неполадок

### CUDA: недостаточно памяти

```bash
# Уменьшите сложность модели или используйте унифицированную память
export XLA_PYTHON_CLIENT_ALLOCATOR=platform
export XLA_PYTHON_CLIENT_MEM_FRACTION=0.85

# Или запустите с уменьшенным числом циклов переработки
--num_multimer_predictions_per_model 1
```

### Ошибки HHblits / Jackhmmer

```bash
# Убедитесь, что hhsuite установлен правильно
which hhblits
hhblits --version

# Переустановите при необходимости
conda install -c bioconda hhsuite -y
```

### Сбой при загрузке баз данных

```bash
# Возобновите прерванные загрузки с aria2
aria2c -c -x 16 -s 16 <database-url> -d /data/alphafold_databases/
```

### Проблемы совместимости JAX/CUDA

```bash
# Проверьте, видит ли JAX GPU
python3 -c "import jax; print(jax.devices())"

# Переустановите JAX с правильной версией CUDA
pip install --upgrade "jax[cuda11_pip]" \
    -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
```

***

## Советы по производительности

{% hint style="success" %}
**Оптимизация запусков AlphaFold2:**

1. **Используйте ColabFold** для более быстрой генерации MSA (ускорение 10–40x)
2. **Установите `--num-recycle 1`** для быстрого скрининга, используйте 3 для окончательных предсказаний
3. **Используйте `--db_preset=reduced_dbs`** для исследовательской работы
4. **Пакетируйте несколько последовательностей** в одном FASTA-файле для эффективных прогонов конвейера
5. **Включите GPU-релакс** (`--use_gpu_relax=True`) — намного быстрее, чем релакс на CPU
   {% endhint %}

***

## Оценка стоимости на Clore.ai

| Сценарий                       | GPU       | Примерное время | Примерная стоимость |
| ------------------------------ | --------- | --------------- | ------------------- |
| Один белок (\~300 аминокислот) | RTX 3090  | 1–2 ч           | \~$0.30–0.60        |
| Один белок (\~500 аминокислот) | RTX 4090  | 45–90 мин       | \~$0.40–0.80        |
| Мультимерный комплекс          | A100 80GB | 2–4 ч           | \~$1.50–3.00        |
| Скрининг протеома (100 белков) | A100 80GB | 8–12 ч          | \~$6–10             |

*Стоимость приблизительна и зависит от текущих цен на маркете.*

***

## Дополнительные ресурсы

* [AlphaFold2 GitHub](https://github.com/google-deepmind/alphafold)
* [AlphaFold Database](https://alphafold.ebi.ac.uk/) — Предвычисленные структуры для более чем 200M белков
* [ColabFold GitHub](https://github.com/sokrypton/ColabFold)
* [Блог DeepMind про AlphaFold](https://www.deepmind.com/research/highlighted-research/alphafold)
* [OpenFold](https://github.com/aqlaboratory/openfold) — Тренируемая реализация на PyTorch
* [ESMFold](https://github.com/facebookresearch/esm) — Более быстрая альтернатива от Meta

***

*Это руководство охватывает развертывание AlphaFold2 на аренде GPU в Clore.ai. Для последней версии AlphaFold3 смотрите отдельное руководство по AlphaFold3.*

***

## Рекомендации Clore.ai по GPU

| Сценарий использования        | Рекомендуемый GPU | Примерная стоимость на Clore.ai |
| ----------------------------- | ----------------- | ------------------------------- |
| Разработка/Тестирование       | RTX 3090 (24GB)   | \~$0.12/gpu/hr                  |
| Стандартные белки             | RTX 4090 (24GB)   | \~$0.70/gpu/hr                  |
| Крупные молекулы / мультимеры | A100 80GB         | \~$1.20/gpu/hr                  |

> 💡 Все примеры в этом руководстве можно развернуть на [Clore.ai](https://clore.ai/marketplace) GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/nauka-i-issledovaniya/alphafold2.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.