Einen Job zum Importieren von Anmerkungen mithilfe der API erstellen Zusätzliche Parameter für die Formate TSV und VCF Annotationsspeicher im TSV-Format erstellen Importaufträge im VCF-Format werden gestartet

Importjobs für HealthOmics Annotationsspeicher erstellen

Themen

Einen Job zum Importieren von Anmerkungen mithilfe der API erstellen
Zusätzliche Parameter für die Formate TSV und VCF
Annotationsspeicher im TSV-Format erstellen
Importaufträge im VCF-Format werden gestartet

Einen Job zum Importieren von Anmerkungen mithilfe der API erstellen

Das folgende Beispiel zeigt, wie Sie den verwenden AWS CLI , um einen Importjob für Anmerkungen zu starten.


aws omics start-annotation-import-job \
           --destination-name myannostore \
           --version-name myannostore \
           --role-arn arn:aws:iam::123456789012:role/roleName \
           --items source=s3://my-omics-bucket/sample.vcf.gz
           --annotation-fields '{"VEP": "CSQ"}'

Annotationsspeicher, die vor dem 15. Mai 2023 erstellt wurden, geben eine Fehlermeldung zurück, wenn die Annotationsfelder enthalten sind. Sie geben keine Ausgabe für API-Operationen zurück, die mit Importaufträgen für Annotationsspeicher verbunden sind.

Sie können dann den get-annotation-import-jobAPI-Vorgang und den job ID Parameter verwenden, um weitere Informationen zum Importjob für Anmerkungen zu erhalten.


aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

Sie erhalten die folgende Antwort, einschließlich der Annotationsfelder.


{
          "creationTime": "2023-04-11T19:09:25.049767+00:00",
          "destinationName": "parsingannotationstore",
          "versionName": "parsingannotationstore",
          "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
          "items": [
              {
                  "jobStatus": "COMPLETED",
                  "source": "s3://my-omics-bucket/sample.vep.vcf"
              }
          ],
          "roleArn": "arn:aws:iam::55555555555:role/roleName",
          "runLeftNormalization": false,
          "status": "COMPLETED",
          "updateTime": "2023-04-11T19:13:09.110130+00:00",
          "annotationFields" : {"VEP": "CSQ"}
       }

Um alle Importaufträge für den Annotationsspeicher anzuzeigen, verwenden Sie list-annotation-import-jobs.


aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

Die Antwort enthält die Details und den Status Ihrer Importaufträge für den Annotationsspeicher.


{
          "annotationImportJobs": [
          {
              "creationTime": "2023-04-11T19:09:25.049767+00:00",
              "destinationName": "parsingannotationstore",
              "versionName": "parsingannotationstore",
              "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
              "roleArn": "arn:aws:iam::55555555555:role/roleName",
              "runLeftNormalization": false,
              "status": "COMPLETED",
              "updateTime": "2023-04-11T19:13:09.110130+00:00",
              "annotationFields" : {"VEP": "CSQ"}
          }
          ]
      }

Zusätzliche Parameter für die Formate TSV und VCF

Für die Formate TSV und VCF gibt es zusätzliche Parameter, die die API darüber informieren, wie Ihre Eingabe analysiert werden soll.

Wichtig

CSV-Annotationsdaten, die mit Abfrage-Engines exportiert werden, geben direkt Informationen aus dem Datensatzimport zurück. Wenn die importierten Daten Formeln oder Befehle enthalten, wird die Datei möglicherweise einer CSV-Injektion unterzogen. Daher können mit Abfrage-Engines exportierte Dateien zu Sicherheitswarnungen führen. Um böswillige Aktivitäten zu vermeiden, deaktivieren Sie Links und Makros beim Lesen von Exportdateien.

Der TSV-Parser führt auch grundlegende bioinformatische Operationen durch, wie die Normalisierung der linken Seite und die Standardisierung von genomischen Koordinaten, die in der folgenden Tabelle aufgeführt sind.

Typ des Formats	Beschreibung
Generisch	Generische Textdatei. Keine genomischen Informationen.
`CHR_POS`	Startposition - 1, Endposition hinzufügen, die identisch `POS` ist mit.
`CHR_POS_REF_ALT`	Enthält Informationen zu den Allelen Contig, 1-Basen-Position, Ref und Alt.
`CHR_START_END_REF_ALT_ONE_BASE`	Enthält Contig-, Start-, End-, Ref- und Alt-Allelinformationen. Die Koordinaten basieren auf Eins.
`CHR_START_END_ZERO_BASE`	Enthält Zähl-, Start- und Endpositionen. Die Koordinaten basieren auf 0.
`CHR_START_END_ONE_BASE`	Enthält Längs-, Start- und Endpositionen. Die Koordinaten basieren auf 1.
`CHR_START_END_REF_ALT_ZERO_BASE`	Enthält Contig-, Start-, End-, Ref- und Alt-Allelinformationen. Die Koordinaten basieren auf 0.

Eine Anforderung für den TSV-Import eines Annotationsspeichers sieht wie das folgende Beispiel aus.



aws omics start-annotation-import-job \
--destination-name tsv_anno_example \
--role-arn arn:aws:iam::555555555555:role/demoRole \
--items source=s3://demodata/genomic_data.bed.gz \
--format-options '{ "tsvOptions": {
        "readOptions": {
            "header": false,
            "sep": "\t"
        }
    }
}'

Annotationsspeicher im TSV-Format erstellen

Im folgenden Beispiel wird mithilfe einer tabulatorbeschränkten Datei, die eine Kopfzeile, Zeilen und Kommentare enthält, ein Annotationsspeicher erstellt. Die Koordinaten lautenCHR_START_END_ONE_BASED, und sie enthält die HG19 Genkarte aus der Synopsis of the Human Gene Map der OMIM.


aws omics create-annotation-store --name mimgenemap \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='{
    annotationType=CHR_START_END_ONE_BASE,  
    formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end},
    schema=[
      {chromosome=STRING}, 
      {genomic_position_start=LONG}, 
      {genomic_position_end=LONG}, 
      {cyto_location=STRING}, 
      {computed_cyto_location=STRING}, 
      {mim_number=STRING}, 
      {gene_symbols=STRING}, 
      {gene_name=STRING}, 
      {approved_gene_name=STRING}, 
      {entrez_gene_id=STRING}, 
      {ensembl_gene_id=STRING}, 
      {comments=STRING}, 
      {phenotypes=STRING}, 
      {mouse_gene_symbol=STRING}]}'

Sie können Dateien mit oder ohne Header importieren. Um dies in einer CLI-Anforderung anzugeben, verwenden Sieheader=false, wie im folgenden Beispiel für einen Importjob gezeigt.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \
   --destination-name output-bucket \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

Im folgenden Beispiel wird ein Speicher für Anmerkungen für eine BED-Datei erstellt. Eine Bettdatei ist eine einfache tabulatorgetrennte Datei. In diesem Beispiel lauten die Spalten Chromosom, Start, Ende und Regionsname. Die Koordinaten basieren auf Null, und die Daten haben keinen Header.


aws omics create-annotation-store \
   --name cexbed --store-format TSV \
   --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
   --store-options=tsvStoreOptions='{
   annotationType=CHR_START_END_ZERO_BASE,  
   formatToHeader={CHR=chromosome, START=start, END=end}, 
   schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

Anschließend können Sie die Bed-Datei mit dem folgenden CLI-Befehl in den Annotationsspeicher importieren.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ 
   --destination-name cexbed \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

Im folgenden Beispiel wird ein Annotationsspeicher für eine tabulatorgetrennte Datei erstellt, die die ersten Spalten einer VCF-Datei enthält, gefolgt von Spalten mit Annotationsinformationen. Es enthält Genompositionen mit Informationen zu den Chromosomen-, Start-, Referenz- und alternativen Allelen sowie eine Überschrift.


aws omics create-annotation-store --name gnomadchrx --store-format TSV \
--reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
--store-options=tsvStoreOptions='{
    annotationType=CHR_POS_REF_ALT, 
    formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, 
    schema=[
        {chromosome=STRING}, 
        {start=LONG}, 
        {ref=STRING}, 
        {alt=STRING}, 
        {filters=STRING}, 
        {ac_hom=STRING}, 
        {ac_het=STRING},
        {af_hom=STRING}, 
        {af_het=STRING}, 
        {an=STRING}, 
        {max_observed_heteroplasmy=STRING}]}'

Anschließend würden Sie die Datei mit dem folgenden CLI-Befehl in den Annotationsspeicher importieren.


aws omics start-annotation-import-job \
  --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \
   --destination-name gnomadchrx \
   --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

Das folgende Beispiel zeigt, wie ein Kunde einen Annotationsspeicher für eine mim2gene-Datei erstellen kann. Eine mim2Gene-Datei stellt die Verbindungen zwischen den Genen in OMIM und einem anderen Genidentifikator bereit. Sie ist tabulatorgetrennt und enthält Kommentare.


aws omics create-annotation-store \
  --name mim2gene \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='
    {annotationType=GENERIC,      
    formatToHeader={}, 
    schema=[
        {mim_gene_id=STRING}, 
        {mim_type=STRING}, 
        {entrez_id=STRING}, 
        {hgnc=STRING}, 
        {ensembl=STRING}]}'

Anschließend können Sie Daten wie folgt in Ihren Shop importieren.


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \
   --destination-name mim2gene \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

Importaufträge im VCF-Format werden gestartet

Für VCF-Dateien gibt es zwei zusätzliche Eingaben, ignoreQualField und, die diese Parameter ignorieren oder einschließenignoreFilterField, wie in der Abbildung gezeigt.


aws omics start-annotation-import-job --destination-name annotation_example\
  --role-arn arn:aws:iam::555555555555:role/demoRole \
  --items source=s3://demodata/example.garvan.vcf \
  --format-options '{ "vcfOptions": {
    "ignoreQualField": false,
    "ignoreFilterField": false         
    }
   }'

Sie können einen Import eines Annotationsspeichers auch abbrechen, wie hier gezeigt. Wenn die Stornierung erfolgreich ist, erhalten Sie keine Antwort auf diesen AWS CLI Anruf. Wenn die Importauftrags-ID jedoch nicht gefunden wird oder der Importauftrag abgeschlossen ist, erhalten Sie eine Fehlermeldung.


aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508

Anmerkung

Ihre Metadaten importieren den Jobverlauf für get-annotation-import-jobget-variant-import-job, list-annotation-import-jobs, und list-variant-import-jobswerden nach zwei Jahren automatisch gelöscht. Die importierten Varianten- und Annotationsdaten werden nicht automatisch gelöscht und verbleiben in Ihren Datenspeichern.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Annotationsspeicher erstellen

Neue Versionen von HealthOmics Annotationsspeichern erstellen