本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为 HealthOmics 注释存储创建导入任务
使用 API 创建注释导入任务
以下示例说明如何使用启动注释导入作业。 AWS CLI
aws omics start-annotation-import-job \ --destination-name myannostore \ --version-name myannostore \ --role-arn arn:aws:iam::123456789012:role/roleName \ --items source=s3://my-omics-bucket/sample.vcf.gz --annotation-fields '{"VEP": "CSQ"}'
如果包含注释字段,则在 2023 年 5 月 15 日之前创建的注释存储库会返回一条错误消息。它们不会返回与注释存储导入任务相关的任何 API 操作的输出。
然后,您可以使用 get-annotation-import-jobAPI 操作和job ID
参数来了解有关注释导入任务的更多详细信息。
aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8
您会收到以下响应,包括注释字段。
{ "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "items": [ { "jobStatus": "COMPLETED", "source": "s3://my-omics-bucket/sample.vep.vcf" } ], "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} }
要查看所有注释存储导入任务,请使用list-annotation-import-jobs。
aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8
响应包括您的注释存储导入任务的详细信息和状态。
{ "annotationImportJobs": [ { "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} } ] }
TSV 和 VCF 格式的其他参数
对于 TSV 和 VCF 格式,还有其他参数可以告知 API 如何解析您的输入。
重要
使用查询引擎导出的 CSV 注释数据会直接返回数据集导入的信息。如果导入的数据包含公式或命令,则该文件可能会被注入 CSV。因此,使用查询引擎导出的文件可能会提示安全警告。为避免恶意活动,请在读取导出文件时关闭链接和宏。
TSV 解析器还执行基本的生物信息学操作,例如基因组学坐标的左归一化和标准化,如下表所示。
格式类型 | 描述 |
---|---|
通用 | 通用文本文件。没有基因组信息。 |
CHR_POS |
起始位置-1,添加结束位置,与POS 。 |
CHR_POS_REF_ALT |
包含 contig、1-base 位置、ref 和 alt 等位基因信息。 |
CHR_START_END_REF_ALT_ONE_BASE |
包含连续、开始、结束、参考和替代等位基因信息。坐标以 1 为基准。 |
CHR_START_END_ZERO_BASE |
包含连续位置、起始位置和结束位置。坐标以 0 为基准。 |
CHR_START_END_ONE_BASE |
包含连续位置、起始位置和结束位置。坐标以 1 为基准。 |
CHR_START_END_REF_ALT_ZERO_BASE |
包含连续、开始、结束、参考和替代等位基因信息。坐标以 0 为基准。 |
TSV 导入注解存储请求类似于以下示例。
aws omics start-annotation-import-job \ --destination-name tsv_anno_example \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/genomic_data.bed.gz \ --format-options '{ "tsvOptions": { "readOptions": { "header": false, "sep": "\t" } } }'
创建 TSV 格式的注释存储库
以下示例使用包含标题、行和注释的选项卡限制文件创建注释存储。坐标是CHR_START_END_ONE_BASED
,它包含 OMIM 的人类 HG19 基因图谱概要中的基因图谱
aws omics create-annotation-store --name mimgenemap \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ONE_BASE, formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end}, schema=[ {chromosome=STRING}, {genomic_position_start=LONG}, {genomic_position_end=LONG}, {cyto_location=STRING}, {computed_cyto_location=STRING}, {mim_number=STRING}, {gene_symbols=STRING}, {gene_name=STRING}, {approved_gene_name=STRING}, {entrez_gene_id=STRING}, {ensembl_gene_id=STRING}, {comments=STRING}, {phenotypes=STRING}, {mouse_gene_symbol=STRING}]}'
您可以导入带或不带标题的文件。要在 CLI 请求中指明这一点header=false
,请使用,如以下导入任务示例所示。
aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \ --destination-name output-bucket \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
以下示例为 bed 文件创建注释存储。bed 文件是一个简单的制表符分隔文件。在此示例中,列为染色体、起点、结束和区域名称。坐标从零开始,并且数据没有标题。
aws omics create-annotation-store \ --name cexbed --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ZERO_BASE, formatToHeader={CHR=chromosome, START=start, END=end}, schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'
然后,您可以使用以下 CLI 命令将 bed 文件导入注释存储区。
aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ --destination-name cexbed \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
以下示例为以制表符分隔的文件创建注释存储,该文件包含 VCF 文件的前几列,后面是带有注释信息的列。它包含基因组位置,以及有关染色体、起点、参考和备用等位基因的信息,并包含标题。
aws omics create-annotation-store --name gnomadchrx --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_POS_REF_ALT, formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, schema=[ {chromosome=STRING}, {start=LONG}, {ref=STRING}, {alt=STRING}, {filters=STRING}, {ac_hom=STRING}, {ac_het=STRING}, {af_hom=STRING}, {af_het=STRING}, {an=STRING}, {max_observed_heteroplasmy=STRING}]}'
然后,您可以使用以下 CLI 命令将文件导入注释存储区。
aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \ --destination-name gnomadchrx \ --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'
以下示例显示了客户如何为 mim2gene 文件创建注释存储库。mim2gene 文件提供了 OMIM 中的基因与其他基因标识符之间的链接。它是用制表符分隔的,包含注释。
aws omics create-annotation-store \ --name mim2gene \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions=' {annotationType=GENERIC, formatToHeader={}, schema=[ {mim_gene_id=STRING}, {mim_type=STRING}, {entrez_id=STRING}, {hgnc=STRING}, {ensembl=STRING}]}'
然后,您可以按如下方式将数据导入您的商店。
aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \ --destination-name mim2gene \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'
启动 VCF 格式化的导入作业
对于 VCF 文件,还有另外两个输入ignoreQualField
和ignoreFilterField
,它们会忽略或包含这些参数,如图所示。
aws omics start-annotation-import-job --destination-name annotation_example\ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/example.garvan.vcf \ --format-options '{ "vcfOptions": { "ignoreQualField": false, "ignoreFilterField": false } }'
您也可以取消注释存储库的导入,如图所示。如果取消成功,则您不会收到此 AWS CLI 呼叫的回复。但是,如果找不到导入任务 ID 或导入任务已完成,则会收到一条错误消息。
aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508
注意
您的元数据导入get-annotation-import-job、get-variant-import-joblist-annotation-import-jobs、和list-variant-import-jobs的任务历史记录将在两年后自动删除。导入的变体和注释数据不会自动删除,而是保留在您的数据存储中。