Criação de um trabalho de importação de anotações usando a API Parâmetros adicionais para formatos TSV e VCF Criação de armazenamentos de anotações formatados em TSV Iniciando trabalhos de importação formatados em VCF

Criação de trabalhos de importação para lojas de HealthOmics anotações

Tópicos

Criação de um trabalho de importação de anotações usando a API
Parâmetros adicionais para formatos TSV e VCF
Criação de armazenamentos de anotações formatados em TSV
Iniciando trabalhos de importação formatados em VCF

Criação de um trabalho de importação de anotações usando a API

O exemplo a seguir mostra como usar o AWS CLI para iniciar um trabalho de importação de anotações.


aws omics start-annotation-import-job \
           --destination-name myannostore \
           --version-name myannostore \
           --role-arn arn:aws:iam::123456789012:role/roleName \
           --items source=s3://my-omics-bucket/sample.vcf.gz
           --annotation-fields '{"VEP": "CSQ"}'

Os repositórios de anotações criados antes de 15 de maio de 2023 retornarão uma mensagem de erro se os campos de anotação forem incluídos. Eles não retornam a saída de nenhuma operação de API envolvida com trabalhos de importação do armazenamento de anotações.

Em seguida, você pode usar a operação da get-annotation-import-jobAPI e o job ID parâmetro para saber mais detalhes sobre o trabalho de importação de anotações.


aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

Você recebe a seguinte resposta, incluindo os campos de anotação.


{
          "creationTime": "2023-04-11T19:09:25.049767+00:00",
          "destinationName": "parsingannotationstore",
          "versionName": "parsingannotationstore",
          "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
          "items": [
              {
                  "jobStatus": "COMPLETED",
                  "source": "s3://my-omics-bucket/sample.vep.vcf"
              }
          ],
          "roleArn": "arn:aws:iam::55555555555:role/roleName",
          "runLeftNormalization": false,
          "status": "COMPLETED",
          "updateTime": "2023-04-11T19:13:09.110130+00:00",
          "annotationFields" : {"VEP": "CSQ"}
       }

Para ver todos os trabalhos de importação do repositório de anotações, use. list-annotation-import-jobs


aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

A resposta inclui os detalhes e os status dos trabalhos de importação da loja de anotações.


{
          "annotationImportJobs": [
          {
              "creationTime": "2023-04-11T19:09:25.049767+00:00",
              "destinationName": "parsingannotationstore",
              "versionName": "parsingannotationstore",
              "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
              "roleArn": "arn:aws:iam::55555555555:role/roleName",
              "runLeftNormalization": false,
              "status": "COMPLETED",
              "updateTime": "2023-04-11T19:13:09.110130+00:00",
              "annotationFields" : {"VEP": "CSQ"}
          }
          ]
      }

Parâmetros adicionais para formatos TSV e VCF

Para os formatos TSV e VCF, há parâmetros adicionais que informam a API sobre como analisar sua entrada.

Importante

Os dados de anotação CSV exportados com mecanismos de consulta retornam diretamente as informações da importação do conjunto de dados. Se os dados importados contiverem fórmulas ou comandos, o arquivo poderá estar sujeito à injeção de CSV. Portanto, arquivos exportados com mecanismos de consulta podem solicitar avisos de segurança. Para evitar atividades maliciosas, desative links e macros ao ler arquivos de exportação.

O analisador TSV também realiza operações básicas de bioinformática, como normalização à esquerda e padronização das coordenadas genômicas, listadas na tabela a seguir.

Tipo de formato	Descrição
Genérico	Arquivo de texto genérico. Sem informações genômicas.
`CHR_POS`	Posição inicial - 1, Adicione a posição final, que é igual `POS` a.
`CHR_POS_REF_ALT`	Contém informações de contagem, posição de 1 base, alelos ref e alt.
`CHR_START_END_REF_ALT_ONE_BASE`	Contém informações dos alelos contig, start, end, ref e alt. As coordenadas são baseadas em 1.
`CHR_START_END_ZERO_BASE`	Contém as posições inicial, inicial e final. As coordenadas são baseadas em 0.
`CHR_START_END_ONE_BASE`	Contém as posições inicial, inicial e final. As coordenadas são baseadas em 1.
`CHR_START_END_REF_ALT_ZERO_BASE`	Contém informações dos alelos contig, start, end, ref e alt. As coordenadas são baseadas em 0.

Uma solicitação de armazenamento de anotações de importação de TSV se parece com o exemplo a seguir.



aws omics start-annotation-import-job \
--destination-name tsv_anno_example \
--role-arn arn:aws:iam::555555555555:role/demoRole \
--items source=s3://demodata/genomic_data.bed.gz \
--format-options '{ "tsvOptions": {
        "readOptions": {
            "header": false,
            "sep": "\t"
        }
    }
}'

Criação de armazenamentos de anotações formatados em TSV

O exemplo a seguir cria um armazenamento de anotações usando um arquivo limitado por abas que contém um cabeçalho, linhas e comentários. As coordenadas são CHR_START_END_ONE_BASED e contêm o mapa HG19 genético da Sinopse do Mapa do Gene Humano do OMIM.


aws omics create-annotation-store --name mimgenemap \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='{
    annotationType=CHR_START_END_ONE_BASE,  
    formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end},
    schema=[
      {chromosome=STRING}, 
      {genomic_position_start=LONG}, 
      {genomic_position_end=LONG}, 
      {cyto_location=STRING}, 
      {computed_cyto_location=STRING}, 
      {mim_number=STRING}, 
      {gene_symbols=STRING}, 
      {gene_name=STRING}, 
      {approved_gene_name=STRING}, 
      {entrez_gene_id=STRING}, 
      {ensembl_gene_id=STRING}, 
      {comments=STRING}, 
      {phenotypes=STRING}, 
      {mouse_gene_symbol=STRING}]}'

Você pode importar arquivos com ou sem cabeçalho. Para indicar isso em uma solicitação de CLI, useheader=false, conforme mostrado no exemplo de tarefa de importação a seguir.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \
   --destination-name output-bucket \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

O exemplo a seguir cria um armazenamento de anotações para um arquivo de cama. Um arquivo bed é um arquivo simples delimitado por tabulações. Neste exemplo, as colunas são cromossomo, início, fim e nome da região. As coordenadas são baseadas em zero e os dados não têm um cabeçalho.


aws omics create-annotation-store \
   --name cexbed --store-format TSV \
   --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
   --store-options=tsvStoreOptions='{
   annotationType=CHR_START_END_ZERO_BASE,  
   formatToHeader={CHR=chromosome, START=start, END=end}, 
   schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

Em seguida, você pode importar o arquivo bed para o armazenamento de anotações usando o seguinte comando da CLI.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ 
   --destination-name cexbed \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

O exemplo a seguir cria um armazenamento de anotações para um arquivo delimitado por abas que contém as primeiras colunas de um arquivo VCF, seguidas por colunas com informações de anotação. Ele contém as posições do genoma com informações sobre o cromossomo, alelos iniciais, de referência e alternativos, e contém um cabeçalho.


aws omics create-annotation-store --name gnomadchrx --store-format TSV \
--reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
--store-options=tsvStoreOptions='{
    annotationType=CHR_POS_REF_ALT, 
    formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, 
    schema=[
        {chromosome=STRING}, 
        {start=LONG}, 
        {ref=STRING}, 
        {alt=STRING}, 
        {filters=STRING}, 
        {ac_hom=STRING}, 
        {ac_het=STRING},
        {af_hom=STRING}, 
        {af_het=STRING}, 
        {an=STRING}, 
        {max_observed_heteroplasmy=STRING}]}'

Em seguida, você importaria o arquivo para o armazenamento de anotações usando o seguinte comando da CLI.


aws omics start-annotation-import-job \
  --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \
   --destination-name gnomadchrx \
   --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

O exemplo a seguir mostra como um cliente pode criar um repositório de anotações para um arquivo mim2gene. Um arquivo mim2gene fornece os links entre os genes no OMIM e outro identificador de gene. É delimitado por abas e contém comentários.


aws omics create-annotation-store \
  --name mim2gene \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='
    {annotationType=GENERIC,      
    formatToHeader={}, 
    schema=[
        {mim_gene_id=STRING}, 
        {mim_type=STRING}, 
        {entrez_id=STRING}, 
        {hgnc=STRING}, 
        {ensembl=STRING}]}'

Em seguida, você pode importar dados para sua loja da seguinte maneira.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \
   --destination-name mim2gene \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

Iniciando trabalhos de importação formatados em VCF

Para arquivos VCF, há duas entradas adicionais ignoreQualField eignoreFilterField, que ignoram ou incluem esses parâmetros, conforme mostrado.


aws omics start-annotation-import-job --destination-name annotation_example\
  --role-arn arn:aws:iam::555555555555:role/demoRole \
  --items source=s3://demodata/example.garvan.vcf \
  --format-options '{ "vcfOptions": {
    "ignoreQualField": false,
    "ignoreFilterField": false         
    }
   }'

Você também pode cancelar a importação de um repositório de anotações, conforme mostrado. Se o cancelamento for bem-sucedido, você não receberá uma resposta para essa AWS CLI chamada. No entanto, se o ID do trabalho de importação não for encontrado ou o trabalho de importação for concluído, você receberá uma mensagem de erro.


aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508

nota

Seus metadados importam o histórico de trabalhos para get-annotation-import-job, get-variant-import-joblist-annotation-import-jobs, e list-variant-import-jobssão excluídos automaticamente após dois anos. Os dados da variante e da anotação importados não são excluídos automaticamente e permanecem nos seus armazenamentos de dados.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Criação de lojas de anotações

Criação de novas versões de lojas de HealthOmics anotações