Crear un trabajo de importación de anotaciones mediante la API Parámetros adicionales para los formatos TSV y VCF Creación de almacenes de anotaciones con formato TSV Inicio de trabajos de importación con formato VCF

Creación de trabajos de importación para HealthOmics almacenes de anotaciones

Temas

Crear un trabajo de importación de anotaciones mediante la API
Parámetros adicionales para los formatos TSV y VCF
Creación de almacenes de anotaciones con formato TSV
Inicio de trabajos de importación con formato VCF

Crear un trabajo de importación de anotaciones mediante la API

En el siguiente ejemplo, se muestra cómo utilizarla AWS CLI para iniciar un trabajo de importación de anotaciones.


aws omics start-annotation-import-job \
           --destination-name myannostore \
           --version-name myannostore \
           --role-arn arn:aws:iam::123456789012:role/roleName \
           --items source=s3://my-omics-bucket/sample.vcf.gz
           --annotation-fields '{"VEP": "CSQ"}'

Los almacenes de anotaciones creados antes del 15 de mayo de 2023 devuelven un mensaje de error si se incluyen los campos de anotación. No devuelven el resultado de ninguna operación de API relacionada con los trabajos de importación del almacén de anotaciones.

A continuación, puede utilizar la operación de get-annotation-import-jobAPI y el job ID parámetro para obtener más información sobre el trabajo de importación de anotaciones.


aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

Recibirá la siguiente respuesta, incluidos los campos de anotación.


{
          "creationTime": "2023-04-11T19:09:25.049767+00:00",
          "destinationName": "parsingannotationstore",
          "versionName": "parsingannotationstore",
          "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
          "items": [
              {
                  "jobStatus": "COMPLETED",
                  "source": "s3://my-omics-bucket/sample.vep.vcf"
              }
          ],
          "roleArn": "arn:aws:iam::55555555555:role/roleName",
          "runLeftNormalization": false,
          "status": "COMPLETED",
          "updateTime": "2023-04-11T19:13:09.110130+00:00",
          "annotationFields" : {"VEP": "CSQ"}
       }

Para ver todos los trabajos de importación del almacén de anotaciones, utilice. list-annotation-import-jobs


aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

La respuesta incluye los detalles y los estados de los trabajos de importación del almacén de anotaciones.


{
          "annotationImportJobs": [
          {
              "creationTime": "2023-04-11T19:09:25.049767+00:00",
              "destinationName": "parsingannotationstore",
              "versionName": "parsingannotationstore",
              "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
              "roleArn": "arn:aws:iam::55555555555:role/roleName",
              "runLeftNormalization": false,
              "status": "COMPLETED",
              "updateTime": "2023-04-11T19:13:09.110130+00:00",
              "annotationFields" : {"VEP": "CSQ"}
          }
          ]
      }

Parámetros adicionales para los formatos TSV y VCF

Para los formatos TSV y VCF, hay parámetros adicionales que indican a la API cómo analizar la entrada.

importante

Los datos de anotación CSV que se exportan con los motores de consulta devuelven directamente la información de la importación del conjunto de datos. Si los datos importados contienen fórmulas o comandos, es posible que el archivo esté sujeto a una inyección de CSV. Por lo tanto, los archivos exportados con motores de consultas pueden generar advertencias de seguridad. Para evitar actividades malintencionadas, desactive los enlaces y las macros al leer los archivos de exportación.

El analizador TSV también realiza operaciones bioinformáticas básicas, como la normalización a la izquierda y la estandarización de las coordenadas genómicas, que se enumeran en la siguiente tabla.

Tipo de formato	Descripción
Genérico	Archivo de texto genérico. No hay información genómica.
`CHR_POS`	Posición inicial: 1, agrega la posición final, que es la misma `POS` que.
`CHR_POS_REF_ALT`	Contiene información sobre los alelos contig, posición de 1 base e información sobre los alelos ref y alt.
`CHR_START_END_REF_ALT_ONE_BASE`	Contiene información sobre los alelos contig, start, end, ref y alt. Las coordenadas se basan en 1.
`CHR_START_END_ZERO_BASE`	Contiene las posiciones contigua, inicial y final. Las coordenadas se basan en 0.
`CHR_START_END_ONE_BASE`	Contiene las posiciones contigua, inicial y final. Las coordenadas se basan en 1.
`CHR_START_END_REF_ALT_ZERO_BASE`	Contiene información sobre los alelos contig, start, end, ref y alt. Las coordenadas se basan en 0.

Una solicitud de almacén de anotaciones de importación de TSV tiene el siguiente aspecto.



aws omics start-annotation-import-job \
--destination-name tsv_anno_example \
--role-arn arn:aws:iam::555555555555:role/demoRole \
--items source=s3://demodata/genomic_data.bed.gz \
--format-options '{ "tsvOptions": {
        "readOptions": {
            "header": false,
            "sep": "\t"
        }
    }
}'

Creación de almacenes de anotaciones con formato TSV

En el siguiente ejemplo, se crea un almacén de anotaciones con un archivo limitado por tabulaciones que contiene un encabezado, filas y comentarios. Las coordenadas son CHR_START_END_ONE_BASED y contiene el mapa HG19 genético de la sinopsis del mapa genético humano de la OMIM.


aws omics create-annotation-store --name mimgenemap \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='{
    annotationType=CHR_START_END_ONE_BASE,  
    formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end},
    schema=[
      {chromosome=STRING}, 
      {genomic_position_start=LONG}, 
      {genomic_position_end=LONG}, 
      {cyto_location=STRING}, 
      {computed_cyto_location=STRING}, 
      {mim_number=STRING}, 
      {gene_symbols=STRING}, 
      {gene_name=STRING}, 
      {approved_gene_name=STRING}, 
      {entrez_gene_id=STRING}, 
      {ensembl_gene_id=STRING}, 
      {comments=STRING}, 
      {phenotypes=STRING}, 
      {mouse_gene_symbol=STRING}]}'

Puede importar archivos con o sin encabezado. Para indicar esto en una solicitud de CLIheader=false, utilice lo que se muestra en el siguiente ejemplo de trabajo de importación.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \
   --destination-name output-bucket \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

El siguiente ejemplo crea un almacén de anotaciones para un archivo bed. Una lima de cama es un archivo simple delimitado por tabulaciones. En este ejemplo, las columnas son el cromosoma, el inicio, el final y el nombre de la región. Las coordenadas se basan en cero y los datos no tienen encabezado.


aws omics create-annotation-store \
   --name cexbed --store-format TSV \
   --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
   --store-options=tsvStoreOptions='{
   annotationType=CHR_START_END_ZERO_BASE,  
   formatToHeader={CHR=chromosome, START=start, END=end}, 
   schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

A continuación, puede importar el archivo bed al almacén de anotaciones mediante el siguiente comando CLI.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ 
   --destination-name cexbed \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

El siguiente ejemplo crea un almacén de anotaciones para un archivo delimitado por tabulaciones que contiene las primeras columnas de un archivo VCF, seguidas de las columnas con información de anotación. Contiene las posiciones del genoma con información sobre el cromosoma, el inicio, los alelos de referencia y los alelos alternativos, y contiene un encabezado.


aws omics create-annotation-store --name gnomadchrx --store-format TSV \
--reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
--store-options=tsvStoreOptions='{
    annotationType=CHR_POS_REF_ALT, 
    formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, 
    schema=[
        {chromosome=STRING}, 
        {start=LONG}, 
        {ref=STRING}, 
        {alt=STRING}, 
        {filters=STRING}, 
        {ac_hom=STRING}, 
        {ac_het=STRING},
        {af_hom=STRING}, 
        {af_het=STRING}, 
        {an=STRING}, 
        {max_observed_heteroplasmy=STRING}]}'

A continuación, importaría el archivo al almacén de anotaciones mediante el siguiente comando CLI.


aws omics start-annotation-import-job \
  --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \
   --destination-name gnomadchrx \
   --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

El siguiente ejemplo muestra cómo un cliente puede crear un almacén de anotaciones para un archivo mim2gene. Un archivo mim2gene proporciona los vínculos entre los genes de OMIM y otro identificador de genes. Está delimitado por tabulaciones y contiene comentarios.


aws omics create-annotation-store \
  --name mim2gene \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='
    {annotationType=GENERIC,      
    formatToHeader={}, 
    schema=[
        {mim_gene_id=STRING}, 
        {mim_type=STRING}, 
        {entrez_id=STRING}, 
        {hgnc=STRING}, 
        {ensembl=STRING}]}'

A continuación, puedes importar los datos a tu tienda de la siguiente manera.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \
   --destination-name mim2gene \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

Inicio de trabajos de importación con formato VCF

Para los archivos VCF, hay dos entradas adicionales que ignoran o incluyen esos parámetrosignoreFilterField, como se muestra. ignoreQualField


aws omics start-annotation-import-job --destination-name annotation_example\
  --role-arn arn:aws:iam::555555555555:role/demoRole \
  --items source=s3://demodata/example.garvan.vcf \
  --format-options '{ "vcfOptions": {
    "ignoreQualField": false,
    "ignoreFilterField": false         
    }
   }'

También puede cancelar la importación de un almacén de anotaciones, como se muestra. Si la cancelación se realiza correctamente, no recibirá respuesta a esta AWS CLI llamada. Sin embargo, si no se encuentra el identificador del trabajo de importación o el trabajo de importación se ha completado, recibirá un mensaje de error.


aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508

nota

Sus metadatos importan el historial de trabajos de get-annotation-import-job, get-variant-import-joblist-annotation-import-jobs, y list-variant-import-jobsse eliminan automáticamente al cabo de dos años. Los datos de variantes y anotaciones que se importan no se eliminan automáticamente y permanecen en los almacenes de datos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Creación de almacenes de anotaciones

Creación de nuevas versiones de almacenes de HealthOmics anotaciones