기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
HealthOmics 실행 입력
워크플로 정의가 워크플로 또는 워크플로 작업에 대한 입력 파일을 지정하는 경우 HealthOmics는 워크플로 실행 전용 스크래치 볼륨으로 파일을 스테이징합니다. 이러한 입력 파일은 읽기 전용이므로 작업이 워크플로의 다른 작업에 대한 잠재적 입력을 수정하지 못합니다. 디렉터리 가져오기의 경우 디렉터리도 읽기 전용입니다.
많은 유전체학 애플리케이션은 인덱스 파일이 시퀀스 파일(예: bam
파일의 컴패니언 bai
파일)과 함께 위치한다고 가정합니다. 인덱스 파일을 포함하려면 워크플로 정의에 작업 입력으로 지정합니다.
실행 파라미터 크기 관리
실행을 시작할 때 실행 파라미터 JSON 객체 또는 파일에 실행 입력을 지정합니다. 워크플로에 대해 최대 50KB의 실행 파라미터를 지정할 수 있습니다. 다음 기법을 사용하여이 크기 제약 조건을 유지할 수 있습니다.
-
디렉터리 가져오기 사용
많은 수의 입력 파일을 지정하려면 각 파일 위치에 파라미터를 지정하는 대신 하나의 파라미터를 모든 파일이 포함된 Amazon S3 위치로 지정합니다. 자세한 내용은 다음 주제(Amazon S3 입력 파라미터 형식)를 참조하세요.
-
샘플 시트 사용
샘플 시트는 fastq.gz 주소용 열 하나(또는 쌍 읽기용 열 두 개)와 샘플 이름과 같은 메타데이터용 추가 열이 있는 CSV 또는 TSV 파일입니다. 샘플 시트를 각 입력 파일의 파라미터 대신 실행 입력 파라미터로 지정합니다.
워크플로는 샘플 시트가 워크플로의 데이터 구조에 매핑되는 방법을 정의합니다. WDL 및 CWL의 샘플 시트에 대한 코드를 작성할 수 있지만 NextFlow에서는 더 일반적입니다. 예제는 nf-core GitHub 사이트의 샘플 시트를
참조하세요.
Amazon S3 입력 파라미터 형식
Amazon S3 위치를 수락하는 입력 파라미터의 경우 파라미터는 파일 한 개 또는 전체 파일 디렉터리의 위치를 지정할 수 있습니다. 디렉터리를 사용하면 다음과 같은 이점이 있습니다.
-
편의성 - 디렉터리 이름을 파라미터로 지정합니다. 각 파일 이름은 나열하지 않습니다.
-
압축 - 입력 파라미터 최대 파일 크기는 50KB입니다. 입력 파일 이름의 긴 목록을 제공하는 경우이 최대값을 초과할 수 있습니다.
Amazon S3는 플랫 객체 스토리지 시스템이므로 디렉터리를 지원하지 않습니다. 각 파일에 동일한 객체 키 접두사를 지정하여 파일을 "디렉터리"로 그룹화합니다. Amazon S3 객체 키 접두사에 대한 자세한 내용은 접두사를 사용하여 객체 구성을 참조하세요.
HealthOmics는 다음과 같이 입력 파라미터 값을 해석합니다.
-
Amazon S3 위치가 슬래시로 끝나지 않거나 glob 패턴을 사용하지 않는 경우 HealthOmics는 파라미터 값이 하나의 Amazon S3 객체에 대한 키가 될 것으로 예상합니다.
예를 들어 file1.fastq를 입력
s3://myfiles/runs/inputs/a/file1.fastq
하도록 지정합니다. -
Amazon S3 위치가 슬래시로 끝나는 경우 HealthOmics는 파라미터 값을 Amazon S3 접두사로 해석합니다. 해당 접두사가 있는 모든 Amazon S3 객체를 로드합니다.
예를 들어 키가이 접두사로 시작하는 모든 객체를 로드
s3://myfiles/runs/inputs/a/
하도록를 지정할 수 있습니다. -
Nextflow의 경우 HealthOmics는 입력 파라미터에서 Amazon S3 URIs 대한 glob 패턴을 지원합니다.
예를 들어 키가이 접두사로 시작하는 모든 .gz 파일을 입력
“s3://myfiles/runs/inputs/a/*.gz”
하도록를 지정할 수 있습니다.
Amazon S3 입력에서 이중 슬래시의 언어별 처리
HealthOmics는 Amazon S3 URIs에서 이중 슬래시를 처리할 때 각 워크플로 엔진에 대한 기본 엔진 동작을 유지하므로 워크플로를 HealthOmics로 마이그레이션할 때 워크플로를 변경할 필요가 없습니다. 다음 섹션에서는 각 엔진이 다양한 시나리오를 처리하는 방법을 설명합니다.
WDL
입력 파라미터에 URI 중간 또는 끝에 이중 슬래시가 포함된 경우 WDL 엔진은 이중 슬래시를 유지합니다.
입력 파라미터 | 예상 위치 |
---|---|
s3://myfiles/runs/inputs//file1.fastq | s3://myfiles/runs/inputs//file1.fastq |
s3://myfiles/runs/inputs// | s3://myfiles/runs/inputs// |
다음 흐름
입력 파라미터에 URI 중간에 이중 슬래시가 포함된 경우 Nextflow 엔진은 이중 슬래시를 유지합니다. URI 끝에 있는 이중 슬래시의 경우 Nextflow 엔진은 이를 단일 슬래시로 해석합니다.
입력 파라미터 | 예상 위치 |
---|---|
s3://myfiles/runs/inputs//file1.fastq | s3://myfiles/runs/inputs//file1.fastq |
s3://myfiles//runs/inputs//*.gz | s3://myfiles//runs/inputs//*.gz |
s3://myfiles//runs/inputs// | s3://myfiles//runs/inputs/ |
CWL
입력 파라미터에 URI 중간 또는 끝에 이중 슬래시가 포함된 경우 CWL 엔진은 이중 슬래시를 유지합니다.
입력 파라미터 | 예상 위치 |
---|---|
s3://myfiles//runs/inputs//file1.fastq | s3://myfiles//runs/inputs//file1.fastq |
s3://myfiles//runs/inputs// | s3://myfiles//runs/inputs// |
Amazon S3 입력 아카이브 상태
HealthOmics는 Amazon S3 S3 객체를 검색할 수 있습니다. 다음과 같은 아카이브된 스토리지 상태에 있는 객체restore의 경우 HealthOmics에서 사용할 수 있도록 할 객체입니다.
-
Amazon S3 Glacier의 Flexible Retrieval 또는 Deep Archive 스토리지 클래스.
-
Intelligent Tiering의 Archived Access 또는 Deep Archive Access 계층입니다.
객체 복원에 대한 자세한 내용은 Amazon S3 사용 설명서의 아카이브된 객체 복원을 참조하세요.