Création de tâches d'importation pour les magasins HealthOmics d'annotations - AWS HealthOmics

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création de tâches d'importation pour les magasins HealthOmics d'annotations

Création d'une tâche d'importation d'annotations à l'aide de l'API

L'exemple suivant montre comment utiliser le AWS CLI pour démarrer une tâche d'importation d'annotations.

aws omics start-annotation-import-job \ --destination-name myannostore \ --version-name myannostore \ --role-arn arn:aws:iam::123456789012:role/roleName \ --items source=s3://my-omics-bucket/sample.vcf.gz --annotation-fields '{"VEP": "CSQ"}'

Les magasins d'annotations créés avant le 15 mai 2023 renvoient un message d'erreur si les champs d'annotation sont inclus. Ils ne renvoient aucun résultat pour les opérations d'API impliquées dans les tâches d'importation de magasins d'annotations.

Vous pouvez ensuite utiliser l'opération get-annotation-import-jobd'API et le job ID paramètre pour en savoir plus sur la tâche d'importation d'annotations.

aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

Vous recevez la réponse suivante, y compris les champs d'annotation.

{ "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "items": [ { "jobStatus": "COMPLETED", "source": "s3://my-omics-bucket/sample.vep.vcf" } ], "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} }

Pour afficher toutes les tâches d'importation du magasin d'annotations, utilisez list-annotation-import-jobs.

aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

La réponse inclut les détails et les statuts des tâches d'importation de votre magasin d'annotations.

{ "annotationImportJobs": [ { "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} } ] }

Paramètres supplémentaires pour les formats TSV et VCF

Pour les formats TSV et VCF, des paramètres supplémentaires indiquent à l'API comment analyser votre entrée.

Important

Les données d'annotation CSV exportées à l'aide de moteurs de requête renvoient directement les informations issues de l'importation du jeu de données. Si les données importées contiennent des formules ou des commandes, le fichier peut être soumis à une injection CSV. Par conséquent, les fichiers exportés à l'aide de moteurs de requête peuvent provoquer des avertissements de sécurité. Pour éviter toute activité malveillante, désactivez les liens et les macros lors de la lecture des fichiers d'exportation.

L'analyseur TSV effectue également des opérations bioinformatiques de base, telles que la normalisation à gauche et la standardisation des coordonnées génomiques, répertoriées dans le tableau suivant.

Type de format Description
Générique Fichier texte générique. Aucune information génomique.
CHR_POS Position de départ - 1, ajouter une position de fin, identique àPOS.
CHR_POS_REF_ALT Contient des informations sur les allèles contig, 1 base, ref et alt.
CHR_START_END_REF_ALT_ONE_BASE Contient des informations sur les allèles contig, start, end, ref et alt. Les coordonnées sont basées sur 1.
CHR_START_END_ZERO_BASE Contient les positions contig, de début et de fin. Les coordonnées sont basées sur 0.
CHR_START_END_ONE_BASE Contient les positions contig, de début et de fin. Les coordonnées sont basées sur 1.
CHR_START_END_REF_ALT_ZERO_BASE Contient des informations sur les allèles contig, start, end, ref et alt. Les coordonnées sont basées sur 0.

Une demande de magasin d'annotations d'importation TSV ressemble à l'exemple suivant.

aws omics start-annotation-import-job \ --destination-name tsv_anno_example \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/genomic_data.bed.gz \ --format-options '{ "tsvOptions": { "readOptions": { "header": false, "sep": "\t" } } }'

Création de magasins d'annotations au format TSV

L'exemple suivant crée un magasin d'annotations à l'aide d'un fichier limité à onglets contenant un en-tête, des lignes et des commentaires. Les coordonnées sontCHR_START_END_ONE_BASED, et elle contient la carte HG19 génétique tirée du synopsis de la carte des gènes humains de l'OMIM.

aws omics create-annotation-store --name mimgenemap \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ONE_BASE, formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end}, schema=[ {chromosome=STRING}, {genomic_position_start=LONG}, {genomic_position_end=LONG}, {cyto_location=STRING}, {computed_cyto_location=STRING}, {mim_number=STRING}, {gene_symbols=STRING}, {gene_name=STRING}, {approved_gene_name=STRING}, {entrez_gene_id=STRING}, {ensembl_gene_id=STRING}, {comments=STRING}, {phenotypes=STRING}, {mouse_gene_symbol=STRING}]}'

Vous pouvez importer des fichiers avec ou sans en-tête. Pour l'indiquer dans une demande CLI, utilisezheader=false, comme indiqué dans l'exemple de tâche d'importation suivant.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \ --destination-name output-bucket \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

L'exemple suivant crée un magasin d'annotations pour un fichier bed. Un fichier bed est un simple fichier délimité par des tabulations. Dans cet exemple, les colonnes sont le chromosome, le début, la fin et le nom de la région. Les coordonnées sont basées sur zéro et les données n'ont pas d'en-tête.

aws omics create-annotation-store \ --name cexbed --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ZERO_BASE, formatToHeader={CHR=chromosome, START=start, END=end}, schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

Vous pouvez ensuite importer le fichier bed dans le magasin d'annotations à l'aide de la commande CLI suivante.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ --destination-name cexbed \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

L'exemple suivant crée un magasin d'annotations pour un fichier délimité par des tabulations qui contient les premières colonnes d'un fichier VCF, suivies de colonnes contenant des informations d'annotation. Il contient les positions du génome ainsi que des informations sur le chromosome, les allèles de départ, de référence et alternatifs, et il contient un en-tête.

aws omics create-annotation-store --name gnomadchrx --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_POS_REF_ALT, formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, schema=[ {chromosome=STRING}, {start=LONG}, {ref=STRING}, {alt=STRING}, {filters=STRING}, {ac_hom=STRING}, {ac_het=STRING}, {af_hom=STRING}, {af_het=STRING}, {an=STRING}, {max_observed_heteroplasmy=STRING}]}'

Vous devez ensuite importer le fichier dans le magasin d'annotations à l'aide de la commande CLI suivante.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \ --destination-name gnomadchrx \ --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

L'exemple suivant montre comment un client peut créer un magasin d'annotations pour un fichier mim2gene. Un fichier mim2gene fournit les liens entre les gènes d'OMIM et un autre identifiant de gène. Il est délimité par des tabulations et contient des commentaires.

aws omics create-annotation-store \ --name mim2gene \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions=' {annotationType=GENERIC, formatToHeader={}, schema=[ {mim_gene_id=STRING}, {mim_type=STRING}, {entrez_id=STRING}, {hgnc=STRING}, {ensembl=STRING}]}'

Vous pouvez ensuite importer des données dans votre boutique comme suit.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \ --destination-name mim2gene \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

Démarrage de tâches d'importation au format VCF

Pour les fichiers VCF, il existe deux entrées supplémentaires qui ignorent ou incluent ces paramètresignoreFilterField, comme indiqué. ignoreQualField

aws omics start-annotation-import-job --destination-name annotation_example\ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/example.garvan.vcf \ --format-options '{ "vcfOptions": { "ignoreQualField": false, "ignoreFilterField": false } }'

Vous pouvez également annuler l'importation d'un magasin d'annotations, comme indiqué. Si l'annulation aboutit, vous ne recevrez pas de réponse à cet AWS CLI appel. Toutefois, si l'ID de la tâche d'importation est introuvable ou si la tâche d'importation est terminée, vous recevez un message d'erreur.

aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508
Note

L'historique de vos tâches d'importation de métadonnées pour get-annotation-import-jobget-variant-import-job, list-annotation-import-jobs, et list-variant-import-jobsest automatiquement supprimé au bout de deux ans. Les données de variante et d'annotation importées ne sont pas supprimées automatiquement et restent dans vos magasins de données.