실행 파라미터 크기 관리 Amazon S3 입력 파라미터 형식 Amazon S3 입력 아카이브 상태

HealthOmics 실행 입력

워크플로 정의가 워크플로 또는 워크플로 작업에 대한 입력 파일을 지정하는 경우 HealthOmics는 워크플로 실행 전용 스크래치 볼륨으로 파일을 스테이징합니다. 이러한 입력 파일은 읽기 전용이므로 작업이 워크플로의 다른 작업에 대한 잠재적 입력을 수정하지 못합니다. 디렉터리 가져오기의 경우 디렉터리도 읽기 전용입니다.

많은 유전체학 애플리케이션은 인덱스 파일이 시퀀스 파일(예: bam 파일의 컴패니언 bai 파일)과 함께 위치한다고 가정합니다. 인덱스 파일을 포함하려면 워크플로 정의에 작업 입력으로 지정합니다.

실행 파라미터 크기 관리

실행을 시작할 때 실행 파라미터 JSON 객체 또는 파일에 실행 입력을 지정합니다. 워크플로에 대해 최대 50KB의 실행 파라미터를 지정할 수 있습니다. 다음 기법을 사용하여이 크기 제약 조건을 유지할 수 있습니다.

디렉터리 가져오기 사용

많은 수의 입력 파일을 지정하려면 각 파일 위치에 파라미터를 지정하는 대신 하나의 파라미터를 모든 파일이 포함된 Amazon S3 위치로 지정합니다. 자세한 내용은 다음 주제(Amazon S3 입력 파라미터 형식)를 참조하세요.
샘플 시트 사용

샘플 시트는 fastq.gz 주소용 열 하나(또는 쌍 읽기용 열 두 개)와 샘플 이름과 같은 메타데이터용 추가 열이 있는 CSV 또는 TSV 파일입니다. 샘플 시트를 각 입력 파일의 파라미터 대신 실행 입력 파라미터로 지정합니다.

워크플로는 샘플 시트가 워크플로의 데이터 구조에 매핑되는 방법을 정의합니다. WDL 및 CWL의 샘플 시트에 대한 코드를 작성할 수 있지만 NextFlow에서는 더 일반적입니다. 예제는 nf-core GitHub 사이트의 샘플 시트를 참조하세요.

Amazon S3 입력 파라미터 형식

Amazon S3 위치를 수락하는 입력 파라미터의 경우 파라미터는 파일 한 개 또는 전체 파일 디렉터리의 위치를 지정할 수 있습니다. 디렉터리를 사용하면 다음과 같은 이점이 있습니다.

편의성 - 디렉터리 이름을 파라미터로 지정합니다. 각 파일 이름은 나열하지 않습니다.
압축 - 입력 파라미터 최대 파일 크기는 50KB입니다. 입력 파일 이름의 긴 목록을 제공하는 경우이 최대값을 초과할 수 있습니다.

Amazon S3는 플랫 객체 스토리지 시스템이므로 디렉터리를 지원하지 않습니다. 각 파일에 동일한 객체 키 접두사를 지정하여 파일을 "디렉터리"로 그룹화합니다. Amazon S3 객체 키 접두사에 대한 자세한 내용은 접두사를 사용하여 객체 구성을 참조하세요.

HealthOmics는 다음과 같이 입력 파라미터 값을 해석합니다.

Amazon S3 위치가 슬래시로 끝나지 않거나 glob 패턴을 사용하지 않는 경우 HealthOmics는 파라미터 값이 하나의 Amazon S3 객체에 대한 키가 될 것으로 예상합니다.

예를 들어 file1.fastq를 입력s3://myfiles/runs/inputs/a/file1.fastq하도록 지정합니다.
Amazon S3 위치가 슬래시로 끝나는 경우 HealthOmics는 파라미터 값을 Amazon S3 접두사로 해석합니다. 해당 접두사가 있는 모든 Amazon S3 객체를 로드합니다.

예를 들어 키가이 접두사로 시작하는 모든 객체를 로드s3://myfiles/runs/inputs/a/하도록를 지정할 수 있습니다.
Nextflow의 경우 HealthOmics는 입력 파라미터에서 Amazon S3 URIs 대한 glob 패턴을 지원합니다.

예를 들어 키가이 접두사로 시작하는 모든 .gz 파일을 입력“s3://myfiles/runs/inputs/a/*.gz”하도록를 지정할 수 있습니다.

Amazon S3 입력에서 이중 슬래시의 언어별 처리

HealthOmics는 Amazon S3 URIs에서 이중 슬래시를 처리할 때 각 워크플로 엔진에 대한 기본 엔진 동작을 유지하므로 워크플로를 HealthOmics로 마이그레이션할 때 워크플로를 변경할 필요가 없습니다. 다음 섹션에서는 각 엔진이 다양한 시나리오를 처리하는 방법을 설명합니다.

WDL

입력 파라미터에 URI 중간 또는 끝에 이중 슬래시가 포함된 경우 WDL 엔진은 이중 슬래시를 유지합니다.

입력 파라미터	예상 위치
s3://myfiles/runs/inputs//file1.fastq	s3://myfiles/runs/inputs//file1.fastq
s3://myfiles/runs/inputs//	s3://myfiles/runs/inputs//

다음 흐름

입력 파라미터에 URI 중간에 이중 슬래시가 포함된 경우 Nextflow 엔진은 이중 슬래시를 유지합니다. URI 끝에 있는 이중 슬래시의 경우 Nextflow 엔진은 이를 단일 슬래시로 해석합니다.

입력 파라미터	예상 위치
s3://myfiles/runs/inputs//file1.fastq	s3://myfiles/runs/inputs//file1.fastq
s3://myfiles//runs/inputs//*.gz	s3://myfiles//runs/inputs//*.gz
s3://myfiles//runs/inputs//	s3://myfiles//runs/inputs/

CWL

입력 파라미터에 URI 중간 또는 끝에 이중 슬래시가 포함된 경우 CWL 엔진은 이중 슬래시를 유지합니다.

입력 파라미터	예상 위치
s3://myfiles//runs/inputs//file1.fastq	s3://myfiles//runs/inputs//file1.fastq
s3://myfiles//runs/inputs//	s3://myfiles//runs/inputs//

Amazon S3 입력 아카이브 상태

HealthOmics는 Amazon S3 S3 객체를 검색할 수 있습니다. 다음과 같은 아카이브된 스토리지 상태에 있는 객체restore의 경우 HealthOmics에서 사용할 수 있도록 할 객체입니다.

Amazon S3 Glacier의 Flexible Retrieval 또는 Deep Archive 스토리지 클래스.
Intelligent Tiering의 Archived Access 또는 Deep Archive Access 계층입니다.

객체 복원에 대한 자세한 내용은 Amazon S3 사용 설명서의 아카이브된 객체 복원을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

HealthOmics 실행에 대한 보존 모드 실행

실행 시작