建立 HealthOmics 變體存放區匯入任務 - AWS HealthOmics

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 HealthOmics 變體存放區匯入任務

下列範例示範如何使用 AWS CLI 為變體存放區建立匯入任務。

aws omics start-variant-import-job \ --destination-name myvariantstore \ --runLeftNormalization false \ --role-arn arn:aws:iam::55555555555:role/roleName \ --items source=s3://my-omics-bucket/sample.vcf.gz source=s3://my-omics-bucket/sample2.vcf.gz
{ "destinationName": "store_a", "roleArn": "....", "runLeftNormalization": false, "items": [ {"source": "s3://my-omics-bucket/sample.vcf.gz"}, {"source": "s3://my-omics-bucket/sample2.vcf.gz"} ] }

對於 2023 年 5 月 15 日之後建立的存放區,下列範例顯示如何新增 --annotation-fields 參數。註釋欄位是使用匯入來定義。

aws omics start-variant-import-job \ --destination-name annotationparsingvariantstore \ --role-arn arn:aws:iam::123456789012:role/<role_name> \ --items source=s3://pathToS3/sample.vcf --annotation-fields '{"VEP": "CSQ"}'
{ "jobId": "981e2286-e954-4391-8a97-09aefc343861" }

使用 get-variant-import-job 檢查狀態。

aws omics get-variant-import-job --job-id 08279950-a9e3-4cc3-9a3c-a574f9c9e229

您將會收到 JSON 回應,顯示匯入任務的狀態。VCF 中的 VEP 註釋會剖析為 ID/值對儲存在 INFO 欄中的資訊。Ensembl 變體效果預測器註釋 INFO 欄的預設 ID 為 CSQ,但您可以使用 --annotation-fields 參數來指示 INFO 欄中使用的自訂值。VEP 註釋目前支援剖析。

對於在 2023 年 5 月 15 日之前建立的存放區,或未包含 VEP 註釋的 VCF 檔案,回應不包含任何註釋欄位。

{ "creationTime": "2023-04-11T17:52:37.241958+00:00", "destinationName": "annotationparsingvariantstore", "id": "7a1c67e3-b7f9-434d-817b-9c571fd63bea", "items": [ { "jobStatus": "COMPLETED", "source": "s3://amzn-s3-demo-bucket/NA12878.2k.garvan.vcf" } ], "roleArn": "arn:aws:iam::555555555555:role/<role_name>", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T17:58:22.676043+00:00", }

屬於 VCF 檔案一部分的 VEP 註釋會儲存為具有下列結構的預先定義結構描述。額外欄位可用來存放預設結構描述中未包含的任何其他 VEP 欄位。

annotations struct< vep: array<struct< allele:string, consequence: array<string>, impact:string, symbol:string, gene:string, `feature_type`: string, feature: string, biotype: string, exon: struct<rank:string, total:string>, intron: struct<rank:string, total:string>, hgvsc: string, hgvsp: string, `cdna_position`: string, `cds_position`: string, `protein_position`: string, `amino_acids`: struct<reference:string, variant: string>, codons: struct<reference:string, variant: string>, `existing_variation`: array<string>, distance: string, strand: string, flags: array<string>, symbol_source: string, hgnc_id: string, `extras`: map<string, string> >> >

剖析是以盡最大努力的方法執行。如果 VEP 項目未遵循 VEP 標準規格,則不會剖析,且陣列中的資料列將為空白。

對於新的變體存放區,get-variant-import-job 的回應將包含註釋欄位,如下所示。

aws omics get-variant-import-job --job-id 08279950-a9e3-4cc3-9a3c-a574f9c9e229

您會收到 JSON 回應,顯示匯入任務的狀態。

{ "creationTime": "2023-04-11T17:52:37.241958+00:00", "destinationName": "annotationparsingvariantstore", "id": "7a1c67e3-b7f9-434d-817b-9c571fd63bea", "items": [ { "jobStatus": "COMPLETED", "source": "s3://amzn-s3-demo-bucket/NA12878.2k.garvan.vcf" } ], "roleArn": "arn:aws:iam::123456789012:role/<role_name>", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T17:58:22.676043+00:00", "annotationFields" : {"VEP": "CSQ"} } }

您可以使用 list-variant-import-jobs 來查看所有匯入任務及其狀態。

aws omics list-variant-import-jobs --ids 7a1c67e3-b7f9-434d-817b-9c571fd63bea

回應包含的資訊如下所示。

{ "variantImportJobs": [ { "creationTime": "2023-04-11T17:52:37.241958+00:00", "destinationName": "annotationparsingvariantstore", "id": "7a1c67e3-b7f9-434d-817b-9c571fd63bea", "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T17:58:22.676043+00:00", "annotationFields" : {"VEP": "CSQ"} } ] } }

如有必要,您可以使用下列命令取消匯入任務。

aws omics cancel-variant-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508