使用 API 创建注释导入任务 TSV 和 VCF 格式的其他参数创建 TSV 格式的注释存储库启动 VCF 格式化的导入作业

为 HealthOmics 注释存储创建导入任务

主题

使用 API 创建注释导入任务
TSV 和 VCF 格式的其他参数
创建 TSV 格式的注释存储库
启动 VCF 格式化的导入作业

使用 API 创建注释导入任务

以下示例说明如何使用启动注释导入作业。 AWS CLI


aws omics start-annotation-import-job \
           --destination-name myannostore \
           --version-name myannostore \
           --role-arn arn:aws:iam::123456789012:role/roleName \
           --items source=s3://my-omics-bucket/sample.vcf.gz
           --annotation-fields '{"VEP": "CSQ"}'

如果包含注释字段，则在 2023 年 5 月 15 日之前创建的注释存储库会返回一条错误消息。它们不会返回与注释存储导入任务相关的任何 API 操作的输出。

然后，您可以使用 get-annotation-import-jobAPI 操作和job ID参数来了解有关注释导入任务的更多详细信息。


aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

您会收到以下响应，包括注释字段。


{
          "creationTime": "2023-04-11T19:09:25.049767+00:00",
          "destinationName": "parsingannotationstore",
          "versionName": "parsingannotationstore",
          "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
          "items": [
              {
                  "jobStatus": "COMPLETED",
                  "source": "s3://my-omics-bucket/sample.vep.vcf"
              }
          ],
          "roleArn": "arn:aws:iam::55555555555:role/roleName",
          "runLeftNormalization": false,
          "status": "COMPLETED",
          "updateTime": "2023-04-11T19:13:09.110130+00:00",
          "annotationFields" : {"VEP": "CSQ"}
       }

要查看所有注释存储导入任务，请使用list-annotation-import-jobs。


aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

响应包括您的注释存储导入任务的详细信息和状态。


{
          "annotationImportJobs": [
          {
              "creationTime": "2023-04-11T19:09:25.049767+00:00",
              "destinationName": "parsingannotationstore",
              "versionName": "parsingannotationstore",
              "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8",
              "roleArn": "arn:aws:iam::55555555555:role/roleName",
              "runLeftNormalization": false,
              "status": "COMPLETED",
              "updateTime": "2023-04-11T19:13:09.110130+00:00",
              "annotationFields" : {"VEP": "CSQ"}
          }
          ]
      }

TSV 和 VCF 格式的其他参数

对于 TSV 和 VCF 格式，还有其他参数可以告知 API 如何解析您的输入。

重要

使用查询引擎导出的 CSV 注释数据会直接返回数据集导入的信息。如果导入的数据包含公式或命令，则该文件可能会被注入 CSV。因此，使用查询引擎导出的文件可能会提示安全警告。为避免恶意活动，请在读取导出文件时关闭链接和宏。

TSV 解析器还执行基本的生物信息学操作，例如基因组学坐标的左归一化和标准化，如下表所示。

格式类型	描述
通用	通用文本文件。没有基因组信息。
`CHR_POS`	起始位置-1，添加结束位置，与`POS`。
`CHR_POS_REF_ALT`	包含 contig、1-base 位置、ref 和 alt 等位基因信息。
`CHR_START_END_REF_ALT_ONE_BASE`	包含连续、开始、结束、参考和替代等位基因信息。坐标以 1 为基准。
`CHR_START_END_ZERO_BASE`	包含连续位置、起始位置和结束位置。坐标以 0 为基准。
`CHR_START_END_ONE_BASE`	包含连续位置、起始位置和结束位置。坐标以 1 为基准。
`CHR_START_END_REF_ALT_ZERO_BASE`	包含连续、开始、结束、参考和替代等位基因信息。坐标以 0 为基准。

TSV 导入注解存储请求类似于以下示例。



aws omics start-annotation-import-job \
--destination-name tsv_anno_example \
--role-arn arn:aws:iam::555555555555:role/demoRole \
--items source=s3://demodata/genomic_data.bed.gz \
--format-options '{ "tsvOptions": {
        "readOptions": {
            "header": false,
            "sep": "\t"
        }
    }
}'

创建 TSV 格式的注释存储库

以下示例使用包含标题、行和注释的选项卡限制文件创建注释存储。坐标是CHR_START_END_ONE_BASED，它包含 OMIM 的人类 HG19 基因图谱概要中的基因图谱。


aws omics create-annotation-store --name mimgenemap \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='{
    annotationType=CHR_START_END_ONE_BASE,  
    formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end},
    schema=[
      {chromosome=STRING}, 
      {genomic_position_start=LONG}, 
      {genomic_position_end=LONG}, 
      {cyto_location=STRING}, 
      {computed_cyto_location=STRING}, 
      {mim_number=STRING}, 
      {gene_symbols=STRING}, 
      {gene_name=STRING}, 
      {approved_gene_name=STRING}, 
      {entrez_gene_id=STRING}, 
      {ensembl_gene_id=STRING}, 
      {comments=STRING}, 
      {phenotypes=STRING}, 
      {mouse_gene_symbol=STRING}]}'

您可以导入带或不带标题的文件。要在 CLI 请求中指明这一点header=false，请使用，如以下导入任务示例所示。


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \
   --destination-name output-bucket \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

以下示例为 bed 文件创建注释存储。bed 文件是一个简单的制表符分隔文件。在此示例中，列为染色体、起点、结束和区域名称。坐标从零开始，并且数据没有标题。


aws omics create-annotation-store \
   --name cexbed --store-format TSV \
   --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
   --store-options=tsvStoreOptions='{
   annotationType=CHR_START_END_ZERO_BASE,  
   formatToHeader={CHR=chromosome, START=start, END=end}, 
   schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

然后，您可以使用以下 CLI 命令将 bed 文件导入注释存储区。


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ 
   --destination-name cexbed \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

以下示例为以制表符分隔的文件创建注释存储，该文件包含 VCF 文件的前几列，后面是带有注释信息的列。它包含基因组位置，以及有关染色体、起点、参考和备用等位基因的信息，并包含标题。


aws omics create-annotation-store --name gnomadchrx --store-format TSV \
--reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
--store-options=tsvStoreOptions='{
    annotationType=CHR_POS_REF_ALT, 
    formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, 
    schema=[
        {chromosome=STRING}, 
        {start=LONG}, 
        {ref=STRING}, 
        {alt=STRING}, 
        {filters=STRING}, 
        {ac_hom=STRING}, 
        {ac_het=STRING},
        {af_hom=STRING}, 
        {af_het=STRING}, 
        {an=STRING}, 
        {max_observed_heteroplasmy=STRING}]}'

然后，您可以使用以下 CLI 命令将文件导入注释存储区。


aws omics start-annotation-import-job \
  --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \
   --destination-name gnomadchrx \
   --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

以下示例显示了客户如何为 mim2gene 文件创建注释存储库。mim2gene 文件提供了 OMIM 中的基因与其他基因标识符之间的链接。它是用制表符分隔的，包含注释。


aws omics create-annotation-store \
  --name mim2gene \
  --store-format TSV \
  --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \
  --store-options=tsvStoreOptions='
    {annotationType=GENERIC,      
    formatToHeader={}, 
    schema=[
        {mim_gene_id=STRING}, 
        {mim_type=STRING}, 
        {entrez_id=STRING}, 
        {hgnc=STRING}, 
        {ensembl=STRING}]}'

然后，您可以按如下方式将数据导入您的商店。


aws omics start-annotation-import-job \
   --role-arn arn:aws:iam::555555555555:role/demoRole \
   --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \
   --destination-name mim2gene \
   --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

启动 VCF 格式化的导入作业

对于 VCF 文件，还有另外两个输入ignoreQualField和ignoreFilterField，它们会忽略或包含这些参数，如图所示。


aws omics start-annotation-import-job --destination-name annotation_example\
  --role-arn arn:aws:iam::555555555555:role/demoRole \
  --items source=s3://demodata/example.garvan.vcf \
  --format-options '{ "vcfOptions": {
    "ignoreQualField": false,
    "ignoreFilterField": false         
    }
   }'

您也可以取消注释存储库的导入，如图所示。如果取消成功，则您不会收到此 AWS CLI 呼叫的回复。但是，如果找不到导入任务 ID 或导入任务已完成，则会收到一条错误消息。


aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508

注意

您的元数据导入get-annotation-import-job、get-variant-import-joblist-annotation-import-jobs、和list-variant-import-jobs的任务历史记录将在两年后自动删除。导入的变体和注释数据不会自动删除，而是保留在您的数据存储中。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

创建注释存储库

创建 HealthOmics 注释存储库的新版本