本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
為 HealthOmics 註釋存放區建立匯入任務
使用 API 建立註釋匯入任務
下列範例示範如何使用 AWS CLI 來啟動註釋匯入任務。
aws omics start-annotation-import-job \ --destination-name myannostore \ --version-name myannostore \ --role-arn arn:aws:iam::123456789012:role/roleName \ --items source=s3://my-omics-bucket/sample.vcf.gz --annotation-fields '{"VEP": "CSQ"}'
如果包含註釋欄位,則在 2023 年 5 月 15 日之前建立的註釋存放區會傳回錯誤訊息。它們不會針對涉及註釋存放區匯入任務的任何 API 操作傳回輸出。
然後,您可以使用 get-annotation-import-job API 操作和 job ID
參數來進一步了解註釋匯入任務的詳細資訊。
aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8
您會收到下列回應,包括註釋欄位。
{ "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "items": [ { "jobStatus": "COMPLETED", "source": "s3://my-omics-bucket/sample.vep.vcf" } ], "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} }
若要檢視所有註釋存放區匯入任務,請使用 list-annotation-import-jobs 。
aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8
回應包含註釋存放區匯入任務的詳細資訊和狀態。
{ "annotationImportJobs": [ { "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} } ] }
TSV 和 VCF 格式的其他參數
對於 TSV 和 VCF 格式,還有其他參數可通知 API 如何剖析您的輸入。
重要
使用查詢引擎匯出的 CSV 註釋資料會直接從資料集匯入傳回資訊。如果匯入的資料包含公式或命令,則檔案可能需要 CSV 插入。因此,使用查詢引擎匯出的檔案可能會提示安全性警告。若要避免惡意活動,請在讀取匯出檔案時關閉連結和巨集。
TSV 剖析器也會執行基本的生物資訊學操作,例如基因體座標的左側標準化和標準化,如下表所列。
格式類型 | 描述 |
---|---|
一般 | 一般文字檔案。沒有基因體資訊。 |
CHR_POS |
開始位置 - 1,新增結束位置,這與 相同POS 。 |
CHR_POS_REF_ALT |
包含 contig、1 基位置、ref 和 alt 等位基因資訊。 |
CHR_START_END_REF_ALT_ONE_BASE |
包含 contig、start、end、ref 和 alt 等位基因資訊。座標以 1 為基礎。 |
CHR_START_END_ZERO_BASE |
包含連續、開始和結束位置。座標以 0 為基礎。 |
CHR_START_END_ONE_BASE |
包含連續、開始和結束位置。座標以 1 為基礎。 |
CHR_START_END_REF_ALT_ZERO_BASE |
包含 contig、start、end、ref 和 alt 等位基因資訊。座標以 0 為基礎。 |
TSV 匯入註釋存放區請求如下所示。
aws omics start-annotation-import-job \ --destination-name tsv_anno_example \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/genomic_data.bed.gz \ --format-options '{ "tsvOptions": { "readOptions": { "header": false, "sep": "\t" } } }'
建立 TSV 格式的註釋存放區
下列範例使用包含標頭、資料列和註解的索引標籤限制檔案來建立註釋存放區。座標為 CHR_START_END_ONE_BASED
,其中包含來自 OMIM 人類基因貼圖摘要的 HG19 基因貼圖。 https://www.omim.org/downloads
aws omics create-annotation-store --name mimgenemap \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ONE_BASE, formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end}, schema=[ {chromosome=STRING}, {genomic_position_start=LONG}, {genomic_position_end=LONG}, {cyto_location=STRING}, {computed_cyto_location=STRING}, {mim_number=STRING}, {gene_symbols=STRING}, {gene_name=STRING}, {approved_gene_name=STRING}, {entrez_gene_id=STRING}, {ensembl_gene_id=STRING}, {comments=STRING}, {phenotypes=STRING}, {mouse_gene_symbol=STRING}]}'
您可以使用或不使用標頭匯入檔案。若要在 CLI 請求中指出這一點,請使用 header=false
,如下列匯入任務範例所示。
aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \ --destination-name output-bucket \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
下列範例會為床鋪檔案建立註釋存放區。床位檔案是簡單的標籤分隔檔案。在這個範例中,資料欄是「 」、「開始」、「結束」和「區域名稱」。座標為零,且資料沒有標頭。
aws omics create-annotation-store \ --name cexbed --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ZERO_BASE, formatToHeader={CHR=chromosome, START=start, END=end}, schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'
然後,您可以使用下列 CLI 命令,將床位檔案匯入註釋存放區。
aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ --destination-name cexbed \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
下列範例會為以標籤分隔的檔案建立註釋存放區,其中包含 VCF 檔案的前幾個資料欄,後面接著包含註釋資訊的資料欄。它包含具有有關 、啟動、參考和替代等位基因資訊的基因組位置,並且包含 標頭。
aws omics create-annotation-store --name gnomadchrx --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_POS_REF_ALT, formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, schema=[ {chromosome=STRING}, {start=LONG}, {ref=STRING}, {alt=STRING}, {filters=STRING}, {ac_hom=STRING}, {ac_het=STRING}, {af_hom=STRING}, {af_het=STRING}, {an=STRING}, {max_observed_heteroplasmy=STRING}]}'
然後,您可以使用下列 CLI 命令將檔案匯入註釋存放區。
aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \ --destination-name gnomadchrx \ --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'
下列範例顯示客戶如何為 mim2gene 檔案建立註釋存放區。mim2gene 檔案提供 OMIM 中的基因與另一個基因識別符之間的連結。它以標籤分隔,並包含註解。
aws omics create-annotation-store \ --name mim2gene \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions=' {annotationType=GENERIC, formatToHeader={}, schema=[ {mim_gene_id=STRING}, {mim_type=STRING}, {entrez_id=STRING}, {hgnc=STRING}, {ensembl=STRING}]}'
然後,您可以將資料匯入您的 存放區,如下所示。
aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \ --destination-name mim2gene \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
啟動 VCF 格式的匯入任務
對於 VCF 檔案,有兩個額外的輸入 ignoreQualField
和 ignoreFilterField
,可忽略或包含這些參數,如下所示。
aws omics start-annotation-import-job --destination-name annotation_example\ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/example.garvan.vcf \ --format-options '{ "vcfOptions": { "ignoreQualField": false, "ignoreFilterField": false } }'
您也可以取消註釋存放區匯入,如下所示。如果取消成功,您不會收到此 AWS CLI 呼叫的回應。不過,如果找不到匯入任務 ID 或匯入任務已完成,您會收到錯誤訊息。
aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508
注意
您的 get-annotation-import-job、get-variant-import-job、list-annotation-import-jobs 和 list-variant-import-jobs 中繼資料匯入任務歷史記錄會在兩年後自動刪除。匯入的變體和註釋資料不會自動刪除,並保留在您的資料存放區中。