创建 HealthOmics 变体商店导入任务 - AWS HealthOmics

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建 HealthOmics 变体商店导入任务

以下示例说明如何使用 AWS CLI 为多属性商店创建导入任务。

aws omics start-variant-import-job \ --destination-name myvariantstore \ --runLeftNormalization false \ --role-arn arn:aws:iam::55555555555:role/roleName \ --items source=s3://my-omics-bucket/sample.vcf.gz source=s3://my-omics-bucket/sample2.vcf.gz
{ "destinationName": "store_a", "roleArn": "....", "runLeftNormalization": false, "items": [ {"source": "s3://my-omics-bucket/sample.vcf.gz"}, {"source": "s3://my-omics-bucket/sample2.vcf.gz"} ] }

对于 2023 年 5 月 15 日之后创建的商店,以下示例说明如何添加--annotation-fields参数。注释字段是在导入时定义的。

aws omics start-variant-import-job \ --destination-name annotationparsingvariantstore \ --role-arn arn:aws:iam::123456789012:role/<role_name> \ --items source=s3://pathToS3/sample.vcf --annotation-fields '{"VEP": "CSQ"}'
{ "jobId": "981e2286-e954-4391-8a97-09aefc343861" }

get-variant-import-job用于检查状态。

aws omics get-variant-import-job --job-id 08279950-a9e3-4cc3-9a3c-a574f9c9e229

您将收到一个 JSON 响应,其中显示了您的导入任务的状态。VCF 中的 VEP 注释会被解析为成对存储在 INFO 列中的信息。 ID/Value E nsembl Variant Effect Predictor 注释 INFO 列的默认 ID 是 CSQ,但您可以使用该--annotation-fields参数来指示 INFO 列中使用的自定义值。VEP 注释目前支持解析。

对于 2023 年 5 月 15 日之前创建的商店或不包含 VEP 注释的 VCF 文件,响应中不包含任何注释字段。

{ "creationTime": "2023-04-11T17:52:37.241958+00:00", "destinationName": "annotationparsingvariantstore", "id": "7a1c67e3-b7f9-434d-817b-9c571fd63bea", "items": [ { "jobStatus": "COMPLETED", "source": "s3://amzn-s3-demo-bucket/NA12878.2k.garvan.vcf" } ], "roleArn": "arn:aws:iam::555555555555:role/<role_name>", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T17:58:22.676043+00:00", }

作为 VCF 文件一部分的 VEP 注释存储为预定义架构,其结构如下。extras 字段可用于存储默认架构中未包含的任何其他 VEP 字段。

annotations struct< vep: array<struct< allele:string, consequence: array<string>, impact:string, symbol:string, gene:string, `feature_type`: string, feature: string, biotype: string, exon: struct<rank:string, total:string>, intron: struct<rank:string, total:string>, hgvsc: string, hgvsp: string, `cdna_position`: string, `cds_position`: string, `protein_position`: string, `amino_acids`: struct<reference:string, variant: string>, codons: struct<reference:string, variant: string>, `existing_variation`: array<string>, distance: string, strand: string, flags: array<string>, symbol_source: string, hgnc_id: string, `extras`: map<string, string> >> >

解析是以尽力而为的方法进行的。如果 VEP 条目不符合 VEP 标准规范,则不会对其进行解析,数组中的行将为空。

对于新的变体存储,的响应get-variant-import-job将包括注释字段,如图所示。

aws omics get-variant-import-job --job-id 08279950-a9e3-4cc3-9a3c-a574f9c9e229

您会收到一个 JSON 响应,其中显示了您的导入任务的状态。

{ "creationTime": "2023-04-11T17:52:37.241958+00:00", "destinationName": "annotationparsingvariantstore", "id": "7a1c67e3-b7f9-434d-817b-9c571fd63bea", "items": [ { "jobStatus": "COMPLETED", "source": "s3://amzn-s3-demo-bucket/NA12878.2k.garvan.vcf" } ], "roleArn": "arn:aws:iam::123456789012:role/<role_name>", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T17:58:22.676043+00:00", "annotationFields" : {"VEP": "CSQ"} } }

您可以使用list-variant-import-jobs查看所有导入任务及其状态。

aws omics list-variant-import-jobs --ids 7a1c67e3-b7f9-434d-817b-9c571fd63bea

该响应包含如下信息。

{ "variantImportJobs": [ { "creationTime": "2023-04-11T17:52:37.241958+00:00", "destinationName": "annotationparsingvariantstore", "id": "7a1c67e3-b7f9-434d-817b-9c571fd63bea", "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T17:58:22.676043+00:00", "annotationFields" : {"VEP": "CSQ"} } ] } }

如有必要,您可以使用以下命令取消导入任务。

aws omics cancel-variant-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508