HealthOmics 注釈ストアのインポートジョブの作成 - AWS HealthOmics

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HealthOmics 注釈ストアのインポートジョブの作成

API を使用した注釈インポートジョブの作成

次の例は、 を使用して注釈インポートジョブ AWS CLI を開始する方法を示しています。

aws omics start-annotation-import-job \ --destination-name myannostore \ --version-name myannostore \ --role-arn arn:aws:iam::123456789012:role/roleName \ --items source=s3://my-omics-bucket/sample.vcf.gz --annotation-fields '{"VEP": "CSQ"}'

2023 年 5 月 15 日より前に作成された注釈ストアは、注釈フィールドが含まれている場合、エラーメッセージを返します。注釈ストアのインポートジョブに関連する API オペレーションの出力は返されません。

その後、get-annotation-import-job API オペレーションと job IDパラメータを使用して、注釈のインポートジョブの詳細を確認できます。

aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

注釈フィールドを含む次のレスポンスを受け取ります。

{ "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "items": [ { "jobStatus": "COMPLETED", "source": "s3://my-omics-bucket/sample.vep.vcf" } ], "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} }

すべての注釈ストアのインポートジョブを表示するには、list-annotation-import-jobs を使用します。

aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

レスポンスには、注釈ストアのインポートジョブの詳細とステータスが含まれます。

{ "annotationImportJobs": [ { "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} } ] }

TSV 形式と VCF 形式の追加パラメータ

TSV 形式と VCF 形式の場合、入力を解析する方法を API に通知する追加のパラメータがあります。

重要

クエリエンジンでエクスポートされた CSV 注釈データは、データセットのインポートから直接情報を返します。インポートされたデータに数式またはコマンドが含まれている場合、ファイルは CSV インジェクションの対象となる可能性があります。したがって、クエリエンジンでエクスポートされたファイルは、セキュリティ警告を求められる可能性があります。悪意のあるアクティビティを回避するには、エクスポートファイルを読み取るときにリンクとマクロをオフにします。

TSV パーサーは、次の表に示す、ゲノム座標の左正規化や標準化などの基本的なバイオインフォマティクス操作も実行します。

形式タイプ 説明
ジェネリック 汎用テキストファイル。ゲノム情報がありません。
CHR_POS 開始位置 - 1、終了位置を追加します。これは と同じですPOS
CHR_POS_REF_ALT contig、1 ベース位置、ref および alt アレル情報が含まれます。
CHR_START_END_REF_ALT_ONE_BASE contig、start、end、ref、alt の各アレル情報が含まれます。座標は 1 ベースです。
CHR_START_END_ZERO_BASE 競合位置、開始位置、終了位置が含まれます。座標は 0 ベースです。
CHR_START_END_ONE_BASE 競合位置、開始位置、終了位置が含まれます。座標は 1 ベースです。
CHR_START_END_REF_ALT_ZERO_BASE contig、start、end、ref、alt の各アレル情報が含まれます。座標は 0 ベースです。

TSV インポート注釈ストアリクエストは次の例のようになります。

aws omics start-annotation-import-job \ --destination-name tsv_anno_example \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/genomic_data.bed.gz \ --format-options '{ "tsvOptions": { "readOptions": { "header": false, "sep": "\t" } } }'

TSV 形式の注釈ストアの作成

次の例では、ヘッダー、行、コメントを含むタブ制限ファイルを使用して注釈ストアを作成します。座標は でCHR_START_END_ONE_BASED、OMIM のヒューマンジーンマップの概要からの HG19 遺伝子マップが含まれています。 https://www.omim.org/downloads

aws omics create-annotation-store --name mimgenemap \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ONE_BASE, formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end}, schema=[ {chromosome=STRING}, {genomic_position_start=LONG}, {genomic_position_end=LONG}, {cyto_location=STRING}, {computed_cyto_location=STRING}, {mim_number=STRING}, {gene_symbols=STRING}, {gene_name=STRING}, {approved_gene_name=STRING}, {entrez_gene_id=STRING}, {ensembl_gene_id=STRING}, {comments=STRING}, {phenotypes=STRING}, {mouse_gene_symbol=STRING}]}'

ヘッダーの有無にかかわらず、ファイルをインポートできます。CLI リクエストでこれを指定するには、次のインポートジョブの例に示すようにheader=false、 を使用します。

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \ --destination-name output-bucket \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

次の の例では、ベッドファイルの注釈ストアを作成します。Bed ファイルは、タブで区切られたシンプルなファイルです。この例では、列は、Chromine、Start、End、およびリージョン名です。座標はゼロベースであり、データにはヘッダーがありません。

aws omics create-annotation-store \ --name cexbed --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ZERO_BASE, formatToHeader={CHR=chromosome, START=start, END=end}, schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

その後、次の CLI コマンドを使用して、ベッドファイルを注釈ストアにインポートできます。

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ --destination-name cexbed \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

次の例では、VPC ファイルの最初の数列と注釈情報を含む列を含むタブ区切りファイルの注釈ストアを作成します。これには、ゲノム位置と、ゲノム、開始、参照、および代替アレルに関する情報が含まれ、ヘッダーが含まれます。

aws omics create-annotation-store --name gnomadchrx --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_POS_REF_ALT, formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, schema=[ {chromosome=STRING}, {start=LONG}, {ref=STRING}, {alt=STRING}, {filters=STRING}, {ac_hom=STRING}, {ac_het=STRING}, {af_hom=STRING}, {af_het=STRING}, {an=STRING}, {max_observed_heteroplasmy=STRING}]}'

次に、次の CLI コマンドを使用して、ファイルを注釈ストアにインポートします。

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \ --destination-name gnomadchrx \ --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

次の例は、顧客が mim2gene ファイルの注釈ストアを作成する方法を示しています。mim2gene ファイルは、OMIM の遺伝子と別の遺伝子識別子の間のリンクを提供します。これはタブ区切りで、コメントが含まれています。

aws omics create-annotation-store \ --name mim2gene \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions=' {annotationType=GENERIC, formatToHeader={}, schema=[ {mim_gene_id=STRING}, {mim_type=STRING}, {entrez_id=STRING}, {hgnc=STRING}, {ensembl=STRING}]}'

その後、次のようにデータをストアにインポートできます。

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \ --destination-name mim2gene \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

VCF 形式のインポートジョブの開始

VCF ファイルには、次に示すようにignoreFilterField、これらのパラメータを無視または含める 2 つの追加入力 ignoreQualFieldと があります。

aws omics start-annotation-import-job --destination-name annotation_example\ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/example.garvan.vcf \ --format-options '{ "vcfOptions": { "ignoreQualField": false, "ignoreFilterField": false } }'

図に示すように、注釈ストアのインポートをキャンセルすることもできます。キャンセルが成功した場合、この AWS CLI 呼び出しに対するレスポンスは受信されません。ただし、インポートジョブ ID が見つからないか、インポートジョブが完了すると、エラーメッセージが表示されます。

aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508
注記

get-annotation-import-jobget-variant-import-joblist-annotation-import-jobslist-variant-import-jobs のメタデータインポートジョブ履歴は、2 年後に自動削除されます。インポートされたバリアントと注釈データは自動削除されず、データストアに残ります。