使用 API 建立註釋匯入任務 TSV 和 VCF 格式的其他參數建立 TSV 格式的註釋存放區啟動 VCF 格式的匯入任務

為 HealthOmics 註釋存放區建立匯入任務

主題

使用 API 建立註釋匯入任務
TSV 和 VCF 格式的其他參數
建立 TSV 格式的註釋存放區
啟動 VCF 格式的匯入任務

使用 API 建立註釋匯入任務

下列範例示範如何使用 AWS CLI 來啟動註釋匯入任務。


aws omics start-annotation-import-job \
           --destination-name myannostore \
           --version-name myannostore \
           --role-arn arn:aws:iam::123456789012:role/roleName \
           --items source=s3://my-omics-bucket/sample.vcf.gz
           --annotation-fields '{"VEP": "CSQ"}'

如果包含註釋欄位，則在 2023 年 5 月 15 日之前建立的註釋存放區會傳回錯誤訊息。它們不會針對涉及註釋存放區匯入任務的任何 API 操作傳回輸出。

然後，您可以使用 get-annotation-import-job API 操作和 job ID 參數來進一步了解註釋匯入任務的詳細資訊。


aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

您會收到下列回應，包括註釋欄位。


{
          "creationTime": "2023-04-11T19:09:25.049767+00:00",
          "destinationName": "parsingannotationstore",
          "versionName": "parsingannotationstore",
          "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
          "items": [
              {
                  "jobStatus": "COMPLETED",
                  "source": "s3://my-omics-bucket/sample.vep.vcf"
              }
          ],
          "roleArn": "arn:aws:iam::55555555555:role/roleName",
          "runLeftNormalization": false,
          "status": "COMPLETED",
          "updateTime": "2023-04-11T19:13:09.110130+00:00",
          "annotationFields" : {"VEP": "CSQ"}
       }

若要檢視所有註釋存放區匯入任務，請使用 list-annotation-import-jobs 。


aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

回應包含註釋存放區匯入任務的詳細資訊和狀態。


{
          "annotationImportJobs": [
          {
              "creationTime": "2023-04-11T19:09:25.049767+00:00",
              "destinationName": "parsingannotationstore",
              "versionName": "parsingannotationstore",
              "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
              "roleArn": "arn:aws:iam::55555555555:role/roleName",
              "runLeftNormalization": false,
              "status": "COMPLETED",
              "updateTime": "2023-04-11T19:13:09.110130+00:00",
              "annotationFields" : {"VEP": "CSQ"}
          }
          ]
      }

TSV 和 VCF 格式的其他參數

對於 TSV 和 VCF 格式，還有其他參數可通知 API 如何剖析您的輸入。

重要

使用查詢引擎匯出的 CSV 註釋資料會直接從資料集匯入傳回資訊。如果匯入的資料包含公式或命令，則檔案可能需要 CSV 插入。因此，使用查詢引擎匯出的檔案可能會提示安全性警告。若要避免惡意活動，請在讀取匯出檔案時關閉連結和巨集。

TSV 剖析器也會執行基本的生物資訊學操作，例如基因體座標的左側標準化和標準化，如下表所列。

格式類型	描述
一般	一般文字檔案。沒有基因體資訊。
`CHR_POS`	開始位置 - 1，新增結束位置，這與相同`POS`。
`CHR_POS_REF_ALT`	包含 contig、1 基位置、ref 和 alt 等位基因資訊。
`CHR_START_END_REF_ALT_ONE_BASE`	包含 contig、start、end、ref 和 alt 等位基因資訊。座標以 1 為基礎。
`CHR_START_END_ZERO_BASE`	包含連續、開始和結束位置。座標以 0 為基礎。
`CHR_START_END_ONE_BASE`	包含連續、開始和結束位置。座標以 1 為基礎。
`CHR_START_END_REF_ALT_ZERO_BASE`	包含 contig、start、end、ref 和 alt 等位基因資訊。座標以 0 為基礎。

TSV 匯入註釋存放區請求如下所示。



aws omics start-annotation-import-job \
--destination-name tsv_anno_example \
--role-arn arn:aws:iam::555555555555:role/demoRole \
--items source=s3://demodata/genomic_data.bed.gz \
--format-options '{ "tsvOptions": {
        "readOptions": {
            "header": false,
            "sep": "\t"
        }
    }
}'

建立 TSV 格式的註釋存放區

下列範例使用包含標頭、資料列和註解的索引標籤限制檔案來建立註釋存放區。座標為 CHR_START_END_ONE_BASED，其中包含來自 OMIM 人類基因貼圖摘要的 HG19 基因貼圖。 https://www.omim.org/downloads


aws omics create-annotation-store --name mimgenemap \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='{
    annotationType=CHR_START_END_ONE_BASE,  
    formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end},
    schema=[
      {chromosome=STRING}, 
      {genomic_position_start=LONG}, 
      {genomic_position_end=LONG}, 
      {cyto_location=STRING}, 
      {computed_cyto_location=STRING}, 
      {mim_number=STRING}, 
      {gene_symbols=STRING}, 
      {gene_name=STRING}, 
      {approved_gene_name=STRING}, 
      {entrez_gene_id=STRING}, 
      {ensembl_gene_id=STRING}, 
      {comments=STRING}, 
      {phenotypes=STRING}, 
      {mouse_gene_symbol=STRING}]}'

您可以使用或不使用標頭匯入檔案。若要在 CLI 請求中指出這一點，請使用 header=false，如下列匯入任務範例所示。


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \
   --destination-name output-bucket \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

下列範例會為床鋪檔案建立註釋存放區。床位檔案是簡單的標籤分隔檔案。在這個範例中，資料欄是「」、「開始」、「結束」和「區域名稱」。座標為零，且資料沒有標頭。


aws omics create-annotation-store \
   --name cexbed --store-format TSV \
   --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
   --store-options=tsvStoreOptions='{
   annotationType=CHR_START_END_ZERO_BASE,  
   formatToHeader={CHR=chromosome, START=start, END=end}, 
   schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

然後，您可以使用下列 CLI 命令，將床位檔案匯入註釋存放區。


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ 
   --destination-name cexbed \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

下列範例會為以標籤分隔的檔案建立註釋存放區，其中包含 VCF 檔案的前幾個資料欄，後面接著包含註釋資訊的資料欄。它包含具有有關、啟動、參考和替代等位基因資訊的基因組位置，並且包含標頭。


aws omics create-annotation-store --name gnomadchrx --store-format TSV \
--reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
--store-options=tsvStoreOptions='{
    annotationType=CHR_POS_REF_ALT, 
    formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, 
    schema=[
        {chromosome=STRING}, 
        {start=LONG}, 
        {ref=STRING}, 
        {alt=STRING}, 
        {filters=STRING}, 
        {ac_hom=STRING}, 
        {ac_het=STRING},
        {af_hom=STRING}, 
        {af_het=STRING}, 
        {an=STRING}, 
        {max_observed_heteroplasmy=STRING}]}'

然後，您可以使用下列 CLI 命令將檔案匯入註釋存放區。


aws omics start-annotation-import-job \
  --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \
   --destination-name gnomadchrx \
   --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

下列範例顯示客戶如何為 mim2gene 檔案建立註釋存放區。mim2gene 檔案提供 OMIM 中的基因與另一個基因識別符之間的連結。它以標籤分隔，並包含註解。


aws omics create-annotation-store \
  --name mim2gene \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='
    {annotationType=GENERIC,      
    formatToHeader={}, 
    schema=[
        {mim_gene_id=STRING}, 
        {mim_type=STRING}, 
        {entrez_id=STRING}, 
        {hgnc=STRING}, 
        {ensembl=STRING}]}'

然後，您可以將資料匯入您的存放區，如下所示。


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \
   --destination-name mim2gene \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

啟動 VCF 格式的匯入任務

對於 VCF 檔案，有兩個額外的輸入 ignoreQualField和 ignoreFilterField，可忽略或包含這些參數，如下所示。


aws omics start-annotation-import-job --destination-name annotation_example\
  --role-arn arn:aws:iam::555555555555:role/demoRole \
  --items source=s3://demodata/example.garvan.vcf \
  --format-options '{ "vcfOptions": {
    "ignoreQualField": false,
    "ignoreFilterField": false         
    }
   }'

您也可以取消註釋存放區匯入，如下所示。如果取消成功，您不會收到此 AWS CLI 呼叫的回應。不過，如果找不到匯入任務 ID 或匯入任務已完成，您會收到錯誤訊息。


aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508

注意

您的 get-annotation-import-job、get-variant-import-job、list-annotation-import-jobs 和 list-variant-import-jobs 中繼資料匯入任務歷史記錄會在兩年後自動刪除。匯入的變體和註釋資料不會自動刪除，並保留在您的資料存放區中。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

建立註釋存放區

建立新的 HealthOmics 註釋存放區版本