从工作流程定义中引用基因组文件 - AWS HealthOmics

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

从工作流程定义中引用基因组文件

可以使用如下所示的 URI 来引用 HealthOmics 参考存储对象。使用您自己的account IDreference store ID、和(reference ID如果有指示)。

omics://account ID.storage.us-west-2.amazonaws.com/reference store id/reference/id

有些工作流程需要同时使用SOURCEINDEX文件作为参考基因组。之前的 URI 是默认的简写形式,默认为源文件。要指定任一文件,您可以使用长 URI 格式,如下所示。

omics://account ID.storage.us-west-2.amazonaws.com/reference store id/reference/id/source omics://account ID.storage.us-west-2.amazonaws.com/reference store id/reference/id/index

如图所示,使用序列读取集将具有类似的模式。

aws omics create-workflow \ --name workflow name \ --main sample workflow.wdl \ --definition-uri omics://account ID.storage.us-west-2.amazonaws.com/sequence_store_id/readSet/id \ --parameter-template file://parameters_sample_description.json

某些读取集(例如基于 FASTQ 的读取集)可能包含配对读取。在以下示例中,它们被称为 SOURCE1 和 SOURCE2。诸如 BAM 和 CRAM 之类的格式只能有一个文件。 SOURCE1 某些读取集将包含索引文件,例如baicrai文件。前面的 URI 是默认的简写形式,默认为该 SOURCE1 文件。要指定确切的文件或索引,可以使用长 URI 格式,如下所示。

omics://123456789012.storage.us-west-2.amazonaws.com/<sequence_store_id>/readSet/<id>/source1 omics://123456789012.storage.us-west-2.amazonaws.com/<sequence_store_id>/readSet/<id>/source2 omics://123456789012.storage.us-west-2.amazonaws.com/<sequence_store_id>/readSet/<id>/index

以下是使用两个 Omics 存储空间 URIs的输入 JSON 文件的示例。

{ "input_fasta": "omics://123456789012.storage.us-west-2.amazonaws.com/<reference_store_id>/reference/<id>", "input_cram": "omics://123456789012.storage.us-west-2.amazonaws.com/<sequence_store_id>/readSet/<id>" }

AWS CLI 通过添加到--inputs file://<input_file.json>您的开始运行请求中引用输入 JSON 文件。