View a markdown version of this page

Deadline Cloud에서 ESMFold를 사용하여 단백질 구조 예측 - 기한 클라우드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Deadline Cloud에서 ESMFold를 사용하여 단백질 구조 예측

esmfold_predict 작업 번들은 ESMFold(Meta의 facebook/esmfold_v1, MIT 라이선스)를 사용하여 단백질 구조 예측을 실행합니다. 번들은 FASTA 파일을 입력으로 받아 시퀀스당 .pdb 파일을 출력으로 생성하고, 신뢰도 지표 및 실험 참조 구조에 대한 선택적 검증 보고서를 생성합니다.

작업은 다음 4단계를 실행합니다.

  1. 입력 FASTA를 구문 분석하고, 시퀀스(최대 1,024개의 라미노타리아, 표준 바위 + X)를 검증하고, 작업자 작업 간에 레코드를 분할합니다.

  2. GPU의 각 시퀀스 배치에서 ESMFold 추론을 실행합니다.

  3. 잔고별 pLDDT 신뢰도로 색상이 지정된 각 예측 구조의 백본 트레이스 이미지를 렌더링합니다.

  4. 선택 사항: 실험 참조 PDBs의 디렉터리를 제공하는 경우 컴퓨팅 TM 점수, RMSD 및 잔고당 pLDDT/오류 보정 플롯.

번들에는 NVIDIA GPU 서비스 관리형 플릿(A10G, L4 또는 A100, 최소 16GB VRAM 및 16GB 시스템 RAM)이 있는 팜과 CondaPackagesCondaChannels 작업 파라미터를 사용하는 conda 대기열 환경이 있는 대기열이 필요합니다. 가장 빠른 설정은 cuda_farm AWS CloudFormation (CloudFormation) 템플릿입니다. Amazon Elastic Compute Cloud(Amazon EC2) GPU 인스턴스는 리전별 vCPU 할당량에 의해 게이트됩니다. 플릿이 확장되지 않는 경우 Service Quotas 콘솔에서 온디맨드 G 및 VT 인스턴스 실행에 대한 증가를 요청합니다.

세 개의 짧은 벤치마크(Trp-cage 변형 1L2Y 및 2JOF, villin 헤드피스 1VII)를 접는 데모를 제출합니다.

deadline bundle submit ./job_bundles/esmfold_predict/ \ -p InputFasta=./job_bundles/esmfold_predict/sample_inputs/demo.fasta

새 작업자의 첫 번째 폴드는 5.2GB facebook/esmfold_v1 가중치를 로 다운로드합니다<OutputDir>/.hf_cache/(의 경우 약 3분g5.2xlarge). 동일한 작업의 후속 폴드 작업은 캐시를 재사용합니다.

실험 참조에 대해 예측을 검증하려면 디렉터리에 <seq_id>.pdb 파일을 배치하고 로 전달합니다ReferencePdbDir. Validate 단계는 시퀀스별 validation.csv 및를 작성합니다calibration.png.