HealthOmics 実行入力 - AWS HealthOmics

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HealthOmics 実行入力

ワークフロー定義でワークフローまたはワークフロータスクの入力ファイルが指定されている場合、HealthOmics はファイルをワークフロー実行専用のスクラッチボリュームにステージングします。これらの入力ファイルは読み取り専用であるため、タスクがワークフロー内の他のタスクへの潜在的な入力を変更できなくなります。ディレクトリのインポートの場合、ディレクトリも読み取り専用です。

多くのゲノミクスアプリケーションは、インデックスファイルがシーケンスファイル (bamファイルのコンパニオンbaiファイルなど) と同じ場所にあることを前提としています。インデックスファイルを含めるには、ワークフロー定義でそれらをタスク入力として指定します。

実行パラメータサイズの管理

実行を開始するときは、実行パラメータ JSON オブジェクトまたはファイルで実行入力を指定します。ワークフローには、最大 50 KB の実行パラメータを指定できます。次の手法を使用して、このサイズ制約内にとどまることができます。

  • ディレクトリのインポートを使用する

    多数の入力ファイルを指定するには、ファイルの場所ごとにパラメータを指定するのではなく、すべてのファイルを含む Amazon S3 の場所として 1 つのパラメータを指定します。詳細については、次のトピック (Amazon S3 入力パラメータ形式) を参照してください。

  • サンプルシートを使用する

    サンプルシートは、fastq.gz アドレスの 1 つの列 (またはペア読み取りの 2 つの列) と、サンプル名などのメタデータの追加の列を含む CSV または TSV ファイルです。サンプルシートは、各入力ファイルのパラメータではなく、実行入力パラメータとして指定します。

    ワークフローは、サンプルシートがワークフロー内のデータ構造にどのようにマッピングされるかを定義します。WDL と CWL でサンプルシートのコードを記述することはできますが、NextFlow ではより一般的です。例については、nf-core GitHub サイトのサンプルシートを参照してください。

Amazon S3 入力パラメータ形式

Amazon S3 の場所を受け入れる入力パラメータの場合、 パラメータは 1 つのファイルの場所またはファイルのディレクトリ全体を指定できます。ディレクトリの使用には、次の利点があります。

  • 利便性 – ディレクトリ名を パラメータとして指定します。各ファイル名は一覧表示しません。

  • コンパクト性 – 入力パラメータの最大ファイルサイズは 50 KB です。入力ファイル名の長いリストを指定すると、この最大値を超える可能性があります。

Amazon S3 はフラットオブジェクトストレージシステムであるため、ディレクトリをサポートしていません。各ファイルに同じオブジェクトキープレフィックスを付けることで、ファイルを「ディレクトリ」にグループ化します。Amazon S3 オブジェクトキープレフィックスの詳細については、「プレフィックスを使用したオブジェクトの整理」を参照してください。

HealthOmics は、入力パラメータ値を次のように解釈します。

  • Amazon S3 の場所がスラッシュで終わらない、または glob パターンを使用しない場合、HealthOmics はパラメータ値が 1 つの Amazon S3 オブジェクトのキーであると想定します。

    たとえば、file1.fastq を入力するs3://myfiles/runs/inputs/a/file1.fastqように を指定します。

  • Amazon S3 の場所がスラッシュで終わる場合、HealthOmics はパラメータ値を Amazon S3 プレフィックスとして解釈します。すべての Amazon S3 オブジェクトにそのプレフィックスをロードします。

    たとえば、キーがこのプレフィックスで始まるすべてのオブジェクトをロードs3://myfiles/runs/inputs/a/するように を指定できます。

  • Nextflow の場合、HealthOmics は入力パラメータで Amazon S3 URIs glob パターンをサポートします。

    たとえば、キーがこのプレフィックスで始まるすべての .gz ファイルを入力する“s3://myfiles/runs/inputs/a/*.gz”ように を指定できます。

Amazon S3 入力でのダブルスラッシュの言語固有の処理

HealthOmics は、Amazon S3 URIs でダブルスラッシュを処理するときに各ワークフローエンジンのネイティブエンジン動作を保持するため、HealthOmics に移行するときにワークフローを変更する必要はありません。以下のセクションでは、各エンジンがさまざまなシナリオを処理する方法について説明します。

WDL

入力パラメータに URI の中央または末尾にダブルスラッシュが含まれている場合、WDL エンジンはダブルスラッシュを保持します。

入力パラメータ 予想される場所
s3://myfiles/runs/inputs//file1.fastq s3://myfiles/runs/inputs//file1.fastq
s3://myfiles/runs/inputs// s3://myfiles/runs/inputs//

ネクストフロー

入力パラメータに URI の中間にダブルスラッシュが含まれている場合、Nextflow エンジンはダブルスラッシュを保持します。URI の末尾に二重スラッシュがある場合、Nextflow エンジンはそれを 1 つのスラッシュに解決します。

入力パラメータ 予想される場所
s3://myfiles/runs/inputs//file1.fastq s3://myfiles/runs/inputs//file1.fastq
s3://myfiles//runs/inputs//*.gz s3://myfiles//runs/inputs//*.gz
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs/

CWL

入力パラメータに URI の中央または末尾にダブルスラッシュが含まれている場合、CWL エンジンはダブルスラッシュを保持します。

入力パラメータ 予想される場所
s3://myfiles//runs/inputs//file1.fastq s3://myfiles//runs/inputs//file1.fastq
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs//

Amazon S3 入力アーカイブの状態

HealthOmics は、Amazon S3 S3 オブジェクトを取得できます。次のアーカイブされたストレージ状態にあるオブジェクトの場合、HealthOmics restore で使用できるようにするオブジェクト。

  • Amazon S3 Glacier の Flexible Retrieval または Deep Archive ストレージクラス。

  • インテリジェント階層化のアーカイブされたアクセス階層またはディープアーカイブアクセス階層。

オブジェクトの復元の詳細については、Amazon S3ユーザーガイド」の「アーカイブされたオブジェクトの復元」を参照してください。