本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
HealthOmics 執行輸入
如果工作流程定義指定工作流程或工作流程任務的輸入檔案,HealthOmics 會將檔案分階段到工作流程執行專用的暫存磁碟區。這些輸入檔案為唯讀,可防止任務修改工作流程中其他任務的潛在輸入。對於目錄匯入,目錄也是唯讀的。
許多基因體應用程式假設索引檔案與序列檔案 (例如bam
檔案的配套bai
檔案) 位於同一位置。若要包含索引檔案,請在工作流程定義中將其指定為任務輸入。
管理執行參數大小
當您開始執行時,您可以在執行參數 JSON 物件或檔案中指定執行輸入。您可以為工作流程指定最多 50 KB 的執行參數。您可以使用下列技術來維持在此大小限制內:
-
使用目錄匯入
若要指定大量輸入檔案,請指定一個參數做為包含所有檔案的 Amazon S3 位置,而不是為每個檔案位置指定參數。如需詳細資訊,請參閱下一個主題 (Amazon S3 輸入參數格式)。
-
使用範例工作表
範例工作表是 CSV 或 TSV 檔案,其中包含一個用於 fastq.gz 地址的資料欄 (或兩個用於配對讀取),以及範例名稱等中繼資料的其他資料欄。您可以將範例工作表指定為執行輸入參數,而不是每個輸入檔案的參數。
您的工作流程會定義範例工作表如何映射至工作流程中的資料結構。雖然您可以在 WDL 和 CWL 中撰寫範例工作表的程式碼,但它們在 NextFlow 中更為常見。如需範例,請參閱 nf-core GitHub 網站上的範例工作表
。
Amazon S3 輸入參數格式
對於接受 Amazon S3 位置的輸入參數, 參數可以指定一個檔案或整個檔案目錄的位置。使用目錄有下列優點:
-
便利性 – 您可以將目錄名稱指定為 參數。您不會列出每個檔案名稱。
-
精簡性 – 輸入參數檔案大小上限為 50 KB。如果您提供輸入檔案名稱的長清單,則可以超過此上限。
Amazon S3 是平面物件儲存系統,因此不支援目錄。您可以將檔案分組為「目錄」,方法是為每個檔案提供相同的物件金鑰字首。如需 Amazon S3 物件金鑰字首的詳細資訊,請參閱使用字首組織物件。
HealthOmics 會解譯輸入參數值,如下所示:
-
如果 Amazon S3 位置結尾不是正斜線或使用 glob 模式,HealthOmics 預期參數值是某個 Amazon S3 物件的索引鍵。
例如,您可以指定
s3://myfiles/runs/inputs/a/file1.fastq
輸入 file1.fastq -
如果 Amazon S3 位置以正斜線結尾,HealthOmics 會將參數值解譯為 Amazon S3 字首。它會載入具有該字首的所有 Amazon S3 物件。
例如,您可以指定
s3://myfiles/runs/inputs/a/
載入其金鑰以此字首開頭的所有物件。 -
對於 Nextflow,HealthOmics 支援輸入參數中 Amazon S3 URIs 的 glob 模式。
例如,您可以指定
“s3://myfiles/runs/inputs/a/*.gz”
輸入其金鑰以此字首開頭的所有 .gz 檔案。
Amazon S3 輸入中雙斜線的語言特定處理
HealthOmics 會在 Amazon S3 URIs 中處理雙斜線時保留每個工作流程引擎的原生引擎行為,因此您在將工作流程遷移至 HealthOmics 時不需要對工作流程進行任何變更。下列各節說明每個引擎如何處理各種案例。
WDL
如果輸入參數在 URI 中間或結尾包含雙斜線,則 WDL 引擎會保留雙斜線。
輸入參數 | 預期位置 |
---|---|
s3://myfiles/runs/inputs//file1.fastq | s3://myfiles/runs/inputs//file1.fastq |
s3://myfiles/runs/inputs// | s3://myfiles/runs/inputs// |
下一個流程
如果輸入參數在 URI 中間包含雙斜線,則 Nextflow 引擎會保留雙斜線。對於 URI 結尾的雙斜線,Nextflow 引擎會將其解析為單一斜線。
輸入參數 | 預期位置 |
---|---|
s3://myfiles/runs/inputs//file1.fastq | s3://myfiles/runs/inputs//file1.fastq |
s3://myfiles//runs/inputs//*.gz | s3://myfiles//runs/inputs//*.gz |
s3://myfiles//runs/inputs// | s3://myfiles//runs/inputs/ |
CWL
如果輸入參數在 URI 中間或結尾包含雙斜線,CWL 引擎會保留雙斜線。
輸入參數 | 預期位置 |
---|---|
s3://myfiles//runs/inputs//file1.fastq | s3://myfiles//runs/inputs//file1.fastq |
s3://myfiles//runs/inputs// | s3://myfiles//runs/inputs// |
Amazon S3 輸入封存狀態
HealthOmics 可以即時擷取 Amazon S3 S3 物件。對於處於下列封存儲存狀態的物件,要提供給 HealthOmics 的restore物件:
-
Amazon S3 Glacier 中的 Flexible Retrieval 或 Deep Archive 儲存類別。
-
智慧型分層中的封存存取或 Deep Archive Access 層。
如需有關還原物件的資訊,請參閱《Amazon S3 使用者指南》中的還原封存的物件。