

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在截止日期雲端上使用 ESMFold 預測蛋白質結構
<a name="examples-jb-esmfold"></a>

[esmfold\_predict](https://github.com/aws-deadline/deadline-cloud-samples/tree/mainline/job_bundles/esmfold_predict) 任務套件會使用 ESMFold (Meta 的 `facebook/esmfold_v1`、MIT 授權） 執行蛋白質結構預測。套件採用 FASTA 檔案做為輸入，並產生每個序列`.pdb`的檔案做為輸出，以及可信度指標和針對實驗參考結構的選用驗證報告。

任務執行四個步驟：

1. 剖析輸入 FASTA、驗證序列 （最多 1024 個氨基酸、標準殘差加 X)，以及跨工作者任務分割記錄。

1. 在 GPU 上的每一批次序列上執行 ESMFold 推論。

1. 轉譯每個預測結構的骨幹追蹤影像，依每個剩餘 pLDDT 可信度著色。

1. 選用：當您提供實驗參考 PDBs運算 TM 分數、RMSD 和每個殘差 pLDDT/錯誤校正圖的目錄時。

套件需要具有 NVIDIA GPU 服務受管機群 (A10G、L4 或 A100；至少 16 GB VRAM 和 16 GB 系統 RAM) 的陣列，以及具有消耗 `CondaPackages`和 `CondaChannels`任務參數之 conda 佇列環境的佇列。最快的設定是 [cuda\_farm](https://github.com/aws-deadline/deadline-cloud-samples/tree/mainline/cloudformation/farm_templates/cuda_farm) AWS CloudFormation (CloudFormation) 範本。Amazon Elastic Compute Cloud (Amazon EC2) GPU 執行個體是由每個區域 vCPU 配額控制；如果您的機群未向上擴展，請在 Service Quotas 主控台中請求增加*執行隨需 G 和 VT 執行個體*。

提交 示範，該示範會摺疊三個簡短的基準測試蛋白質 (Trp-cage 變體 1L2Y 和 2JOF，以及 villin 頭戴式 1VII)：

```
deadline bundle submit ./job_bundles/esmfold_predict/ \
  -p InputFasta=./job_bundles/esmfold_predict/sample_inputs/demo.fasta
```

新工作者的第一個折疊會將 5.2 GB 權`facebook/esmfold_v1`重下載到 `<OutputDir>/.hf_cache/`（在 上約三分鐘`g5.2xlarge`)。相同任務中的後續折疊任務會重複使用快取。

若要驗證實驗參考的預測，請將`<seq_id>.pdb`檔案放在目錄中，並以 的形式傳遞`ReferencePdbDir`。`Validate` 步驟寫入`validation.csv`和每個序列的 `calibration.png`。