View a markdown version of this page

Prédisez les structures des protéines avec ESMfold sur Deadline Cloud - Deadline Cloud

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Prédisez les structures des protéines avec ESMfold sur Deadline Cloud

Le bundle de tâches esmfold_predict exécute la prédiction de la structure des protéines avec ESMfold (Meta's, licence MIT). facebook/esmfold_v1 Le bundle prend un fichier FASTA en entrée et produit un .pdb fichier par séquence en sortie, ainsi que des métriques de confiance et un rapport de validation facultatif par rapport à des structures de référence expérimentales.

La tâche se déroule en quatre étapes :

  1. Analysez le FASTA d'entrée, validez les séquences (jusqu'à 1024 acides aminés, résidus standard plus X) et répartissez les enregistrements entre les tâches du travailleur.

  2. Exécutez l'inférence ESMFold sur chaque lot de séquences sur le GPU.

  3. Afficher une image de trace de base de chaque structure prédite, colorée selon le niveau de confiance PLDDT par résidu.

  4. Facultatif : lorsque vous fournissez un répertoire de PDB de référence expérimentales, du calcul TM-score, du RMSD et un diagramme d'étalonnage par pLDDT/error résidu.

Le bundle nécessite une batterie de serveurs dotée d'un parc géré par le service GPU NVIDIA (A10G, L4 ou A100 ; au moins 16 Go de VRAM et 16 Go de RAM système) et une file d'attente avec un environnement de file d'attente conda qui consomme les paramètres et de la tâche. CondaPackages CondaChannels La configuration la plus rapide est le modèle cuda_farm AWS CloudFormation ()CloudFormation. Les instances de GPU Amazon Elastic Compute Cloud (Amazon EC2) sont limitées par des quotas de vCPU par région ; si votre flotte n'augmente pas, demandez une augmentation pour les instances On-Demand Running G et VT dans la console Service Quotas.

Soumettez la démo, qui regroupe trois courtes protéines de référence (les Trp-cage variantes 1L2Y et 2JOF, et le casque de villin 1VII) :

deadline bundle submit ./job_bundles/esmfold_predict/ \ -p InputFasta=./job_bundles/esmfold_predict/sample_inputs/demo.fasta

Le premier pli d'un nouveau travailleur télécharge les facebook/esmfold_v1 poids de 5,2 Go dans <OutputDir>/.hf_cache/ (environ trois minutes sur ung5.2xlarge). Les tâches de pliage suivantes dans le même travail réutilisent le cache.

Pour valider les prédictions par rapport à des références expérimentales, placez <seq_id>.pdb les fichiers dans un répertoire et passez-les sous le nom deReferencePdbDir. L'Validateétape écrit validation.csv et une par séquencecalibration.png.