Creación de trabajos de importación para HealthOmics almacenes de anotaciones - AWS HealthOmics

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de trabajos de importación para HealthOmics almacenes de anotaciones

Crear un trabajo de importación de anotaciones mediante la API

En el siguiente ejemplo, se muestra cómo utilizarla AWS CLI para iniciar un trabajo de importación de anotaciones.

aws omics start-annotation-import-job \ --destination-name myannostore \ --version-name myannostore \ --role-arn arn:aws:iam::123456789012:role/roleName \ --items source=s3://my-omics-bucket/sample.vcf.gz --annotation-fields '{"VEP": "CSQ"}'

Los almacenes de anotaciones creados antes del 15 de mayo de 2023 devuelven un mensaje de error si se incluyen los campos de anotación. No devuelven el resultado de ninguna operación de API relacionada con los trabajos de importación del almacén de anotaciones.

A continuación, puede utilizar la operación de get-annotation-import-jobAPI y el job ID parámetro para obtener más información sobre el trabajo de importación de anotaciones.

aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

Recibirá la siguiente respuesta, incluidos los campos de anotación.

{ "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "items": [ { "jobStatus": "COMPLETED", "source": "s3://my-omics-bucket/sample.vep.vcf" } ], "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} }

Para ver todos los trabajos de importación del almacén de anotaciones, utilice. list-annotation-import-jobs

aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

La respuesta incluye los detalles y los estados de los trabajos de importación del almacén de anotaciones.

{ "annotationImportJobs": [ { "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} } ] }

Parámetros adicionales para los formatos TSV y VCF

Para los formatos TSV y VCF, hay parámetros adicionales que indican a la API cómo analizar la entrada.

importante

Los datos de anotación CSV que se exportan con los motores de consulta devuelven directamente la información de la importación del conjunto de datos. Si los datos importados contienen fórmulas o comandos, es posible que el archivo esté sujeto a una inyección de CSV. Por lo tanto, los archivos exportados con motores de consultas pueden generar advertencias de seguridad. Para evitar actividades malintencionadas, desactive los enlaces y las macros al leer los archivos de exportación.

El analizador TSV también realiza operaciones bioinformáticas básicas, como la normalización a la izquierda y la estandarización de las coordenadas genómicas, que se enumeran en la siguiente tabla.

Tipo de formato Descripción
Genérico Archivo de texto genérico. No hay información genómica.
CHR_POS Posición inicial: 1, agrega la posición final, que es la misma POS que.
CHR_POS_REF_ALT Contiene información sobre los alelos contig, posición de 1 base e información sobre los alelos ref y alt.
CHR_START_END_REF_ALT_ONE_BASE Contiene información sobre los alelos contig, start, end, ref y alt. Las coordenadas se basan en 1.
CHR_START_END_ZERO_BASE Contiene las posiciones contigua, inicial y final. Las coordenadas se basan en 0.
CHR_START_END_ONE_BASE Contiene las posiciones contigua, inicial y final. Las coordenadas se basan en 1.
CHR_START_END_REF_ALT_ZERO_BASE Contiene información sobre los alelos contig, start, end, ref y alt. Las coordenadas se basan en 0.

Una solicitud de almacén de anotaciones de importación de TSV tiene el siguiente aspecto.

aws omics start-annotation-import-job \ --destination-name tsv_anno_example \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/genomic_data.bed.gz \ --format-options '{ "tsvOptions": { "readOptions": { "header": false, "sep": "\t" } } }'

Creación de almacenes de anotaciones con formato TSV

En el siguiente ejemplo, se crea un almacén de anotaciones con un archivo limitado por tabulaciones que contiene un encabezado, filas y comentarios. Las coordenadas son CHR_START_END_ONE_BASED y contiene el mapa HG19 genético de la sinopsis del mapa genético humano de la OMIM.

aws omics create-annotation-store --name mimgenemap \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ONE_BASE, formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end}, schema=[ {chromosome=STRING}, {genomic_position_start=LONG}, {genomic_position_end=LONG}, {cyto_location=STRING}, {computed_cyto_location=STRING}, {mim_number=STRING}, {gene_symbols=STRING}, {gene_name=STRING}, {approved_gene_name=STRING}, {entrez_gene_id=STRING}, {ensembl_gene_id=STRING}, {comments=STRING}, {phenotypes=STRING}, {mouse_gene_symbol=STRING}]}'

Puede importar archivos con o sin encabezado. Para indicar esto en una solicitud de CLIheader=false, utilice lo que se muestra en el siguiente ejemplo de trabajo de importación.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \ --destination-name output-bucket \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

El siguiente ejemplo crea un almacén de anotaciones para un archivo bed. Una lima de cama es un archivo simple delimitado por tabulaciones. En este ejemplo, las columnas son el cromosoma, el inicio, el final y el nombre de la región. Las coordenadas se basan en cero y los datos no tienen encabezado.

aws omics create-annotation-store \ --name cexbed --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ZERO_BASE, formatToHeader={CHR=chromosome, START=start, END=end}, schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

A continuación, puede importar el archivo bed al almacén de anotaciones mediante el siguiente comando CLI.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ --destination-name cexbed \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

El siguiente ejemplo crea un almacén de anotaciones para un archivo delimitado por tabulaciones que contiene las primeras columnas de un archivo VCF, seguidas de las columnas con información de anotación. Contiene las posiciones del genoma con información sobre el cromosoma, el inicio, los alelos de referencia y los alelos alternativos, y contiene un encabezado.

aws omics create-annotation-store --name gnomadchrx --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_POS_REF_ALT, formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, schema=[ {chromosome=STRING}, {start=LONG}, {ref=STRING}, {alt=STRING}, {filters=STRING}, {ac_hom=STRING}, {ac_het=STRING}, {af_hom=STRING}, {af_het=STRING}, {an=STRING}, {max_observed_heteroplasmy=STRING}]}'

A continuación, importaría el archivo al almacén de anotaciones mediante el siguiente comando CLI.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \ --destination-name gnomadchrx \ --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

El siguiente ejemplo muestra cómo un cliente puede crear un almacén de anotaciones para un archivo mim2gene. Un archivo mim2gene proporciona los vínculos entre los genes de OMIM y otro identificador de genes. Está delimitado por tabulaciones y contiene comentarios.

aws omics create-annotation-store \ --name mim2gene \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions=' {annotationType=GENERIC, formatToHeader={}, schema=[ {mim_gene_id=STRING}, {mim_type=STRING}, {entrez_id=STRING}, {hgnc=STRING}, {ensembl=STRING}]}'

A continuación, puedes importar los datos a tu tienda de la siguiente manera.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \ --destination-name mim2gene \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

Inicio de trabajos de importación con formato VCF

Para los archivos VCF, hay dos entradas adicionales que ignoran o incluyen esos parámetrosignoreFilterField, como se muestra. ignoreQualField

aws omics start-annotation-import-job --destination-name annotation_example\ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/example.garvan.vcf \ --format-options '{ "vcfOptions": { "ignoreQualField": false, "ignoreFilterField": false } }'

También puede cancelar la importación de un almacén de anotaciones, como se muestra. Si la cancelación se realiza correctamente, no recibirá respuesta a esta AWS CLI llamada. Sin embargo, si no se encuentra el identificador del trabajo de importación o el trabajo de importación se ha completado, recibirá un mensaje de error.

aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508
nota

Sus metadatos importan el historial de trabajos de get-annotation-import-job, get-variant-import-joblist-annotation-import-jobs, y list-variant-import-jobsse eliminan automáticamente al cabo de dos años. Los datos de variantes y anotaciones que se importan no se eliminan automáticamente y permanecen en los almacenes de datos.