HealthOmics 執行輸入 - AWS HealthOmics

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

HealthOmics 執行輸入

如果工作流程定義指定工作流程或工作流程任務的輸入檔案,HealthOmics 會將檔案分階段到工作流程執行專用的暫存磁碟區。這些輸入檔案為唯讀,可防止任務修改工作流程中其他任務的潛在輸入。對於目錄匯入,目錄也是唯讀的。

許多基因體應用程式假設索引檔案與序列檔案 (例如bam檔案的配套bai檔案) 位於同一位置。若要包含索引檔案,請在工作流程定義中將其指定為任務輸入。

管理執行參數大小

當您開始執行時,您可以在執行參數 JSON 物件或檔案中指定執行輸入。您可以為工作流程指定最多 50 KB 的執行參數。您可以使用下列技術來維持在此大小限制內:

  • 使用目錄匯入

    若要指定大量輸入檔案,請指定一個參數做為包含所有檔案的 Amazon S3 位置,而不是為每個檔案位置指定參數。如需詳細資訊,請參閱下一個主題 (Amazon S3 輸入參數格式)。

  • 使用範例工作表

    範例工作表是 CSV 或 TSV 檔案,其中包含一個用於 fastq.gz 地址的資料欄 (或兩個用於配對讀取),以及範例名稱等中繼資料的其他資料欄。您可以將範例工作表指定為執行輸入參數,而不是每個輸入檔案的參數。

    您的工作流程會定義範例工作表如何映射至工作流程中的資料結構。雖然您可以在 WDL 和 CWL 中撰寫範例工作表的程式碼,但它們在 NextFlow 中更為常見。如需範例,請參閱 nf-core GitHub 網站上的範例工作表

Amazon S3 輸入參數格式

對於接受 Amazon S3 位置的輸入參數, 參數可以指定一個檔案或整個檔案目錄的位置。使用目錄有下列優點:

  • 便利性 – 您可以將目錄名稱指定為 參數。您不會列出每個檔案名稱。

  • 精簡性 – 輸入參數檔案大小上限為 50 KB。如果您提供輸入檔案名稱的長清單,則可以超過此上限。

Amazon S3 是平面物件儲存系統,因此不支援目錄。您可以將檔案分組為「目錄」,方法是為每個檔案提供相同的物件金鑰字首。如需 Amazon S3 物件金鑰字首的詳細資訊,請參閱使用字首組織物件

HealthOmics 會解譯輸入參數值,如下所示:

  • 如果 Amazon S3 位置結尾不是正斜線或使用 glob 模式,HealthOmics 預期參數值是某個 Amazon S3 物件的索引鍵。

    例如,您可以指定 s3://myfiles/runs/inputs/a/file1.fastq輸入 file1.fastq

  • 如果 Amazon S3 位置以正斜線結尾,HealthOmics 會將參數值解譯為 Amazon S3 字首。它會載入具有該字首的所有 Amazon S3 物件。

    例如,您可以指定 s3://myfiles/runs/inputs/a/載入其金鑰以此字首開頭的所有物件。

  • 對於 Nextflow,HealthOmics 支援輸入參數中 Amazon S3 URIs 的 glob 模式。

    例如,您可以指定 “s3://myfiles/runs/inputs/a/*.gz”輸入其金鑰以此字首開頭的所有 .gz 檔案。

Amazon S3 輸入中雙斜線的語言特定處理

HealthOmics 會在 Amazon S3 URIs 中處理雙斜線時保留每個工作流程引擎的原生引擎行為,因此您在將工作流程遷移至 HealthOmics 時不需要對工作流程進行任何變更。下列各節說明每個引擎如何處理各種案例。

WDL

如果輸入參數在 URI 中間或結尾包含雙斜線,則 WDL 引擎會保留雙斜線。

輸入參數 預期位置
s3://myfiles/runs/inputs//file1.fastq s3://myfiles/runs/inputs//file1.fastq
s3://myfiles/runs/inputs// s3://myfiles/runs/inputs//

下一個流程

如果輸入參數在 URI 中間包含雙斜線,則 Nextflow 引擎會保留雙斜線。對於 URI 結尾的雙斜線,Nextflow 引擎會將其解析為單一斜線。

輸入參數 預期位置
s3://myfiles/runs/inputs//file1.fastq s3://myfiles/runs/inputs//file1.fastq
s3://myfiles//runs/inputs//*.gz s3://myfiles//runs/inputs//*.gz
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs/

CWL

如果輸入參數在 URI 中間或結尾包含雙斜線,CWL 引擎會保留雙斜線。

輸入參數 預期位置
s3://myfiles//runs/inputs//file1.fastq s3://myfiles//runs/inputs//file1.fastq
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs//

Amazon S3 輸入封存狀態

HealthOmics 可以即時擷取 Amazon S3 S3 物件。對於處於下列封存儲存狀態的物件,要提供給 HealthOmics 的restore物件:

  • Amazon S3 Glacier 中的 Flexible Retrieval 或 Deep Archive 儲存類別。

  • 智慧型分層中的封存存取或 Deep Archive Access 層。

如需有關還原物件的資訊,請參閱《Amazon S3 使用者指南》中的還原封存的物件