기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
HealthOmics ETags 및 데이터 출처
HealthOmics ETag(엔터티 태그)는 시퀀스 스토어에서 수집된 콘텐츠의 해시입니다. 이렇게 하면 수집된 데이터 파일의 콘텐츠 무결성을 유지하면서 데이터 검색 및 처리가 간소화됩니다. ETag는 메타데이터가 아닌 객체의 의미론적 콘텐츠에 대한 변경 사항을 반영합니다. 지정된 읽기 세트 유형 및 알고리즘에 따라 ETag 계산 방법이 결정됩니다. ETag 계산은 실제 파일 또는 유전체 데이터를 변경하지 않습니다. 읽기 세트의 파일 유형 스키마가 허용하는 경우 시퀀스 스토어는 데이터 출처에 연결된 필드를 업데이트합니다.
파일에는 비트 단위 자격 증명과 의미 체계 자격 증명이 있습니다. 비트 단위 자격 증명은 파일의 비트가 동일하다는 의미이고 의미 체계 자격 증명은 파일의 내용이 동일하다는 의미입니다. 의미 체계 자격 증명은 파일의 콘텐츠 무결성을 캡처하므로 메타데이터 변경 및 압축 변경에 대한 복원력이 뛰어납니다.
HealthOmics 시퀀스 스토어의 읽기 세트는 객체의 수명 주기 동안 압축/압축 해제 주기 및 데이터 출처 추적을 거칩니다. 이 처리 중에 수집된 파일의 비트 단위 자격 증명이 변경될 수 있으며 파일이 활성화될 때마다 변경될 것으로 예상되지만 파일의 의미 체계 자격 증명은 유지됩니다. 의미 체계 자격 증명은 HealthOmics 개체 태그 또는 시퀀스 스토어 수집 중에 계산되어 읽기 세트 메타데이터로 사용할 수 있는 ETag로 캡처됩니다.
읽기 세트의 파일 유형 스키마가 허용하는 경우 시퀀스 스토어 업데이트 필드는 데이터 출처에 연결됩니다. uBAM, BAM 및 CRAM 파일의 경우 헤더에 새 @CO
또는 Comment
태그가 추가됩니다. 주석에는 시퀀스 스토어 ID와 수집 타임스탬프가 포함됩니다.
Amazon S3 ETags
Amazon S3 URI를 사용하여 파일에 액세스할 때 Amazon S3 API 작업은 Amazon S3 ETag 및 체크섬 값도 반환할 수 있습니다. Amazon S3 ETag 및 체크섬 값은 파일의 비트 ID를 나타내기 때문에 HealthOmics ETags와 다릅니다. 설명 메타데이터 및 객체에 대한 자세한 내용은 Amazon S3 객체 API 설명서를 참조하세요. Amazon S3 ETag 값은 읽기 세트의 각 활성화 주기에 따라 변경될 수 있으며 이를 사용하여 파일 읽기를 검증할 수 있습니다. 그러나 파일 수명 주기 동안 파일 자격 증명 검증에 사용할 Amazon S3 ETag 값은 일관되게 유지되지 않으므로 캐시하지 마십시오. 반대로 HealthOmics ETag는 읽기 세트의 수명 주기 동안 일관되게 유지됩니다.
HealthOmics ETags 계산하는 방법
ETag는 수집된 파일 콘텐츠의 해시에서 생성됩니다. ETag 알고리즘 패밀리는 기본적으로 MD5up으로 설정되지만 시퀀스 스토어 생성 중에 다르게 구성할 수 있습니다. ETag가 계산되면 알고리즘과 계산된 해시가 읽기 세트에 추가됩니다. 파일 유형에 지원되는 MD5 알고리즘은 다음과 같습니다.
-
FASTQ_MD5up - 압축되지 않은 전체 FASTQ 읽기 세트 소스의 MD5 해시를 계산합니다.
-
BAM_MD5up - 사용 가능한 경우 연결된 참조를 기반으로 SAM에 표시된 대로 압축되지 않은 BAM 또는 uBAM 읽기 세트 소스의 정렬 섹션의 MD5 해시를 계산합니다.
-
CRAM_MD5up - 연결된 참조를 기반으로 SAM에 표시된 대로 압축되지 않은 CRAM 읽기 세트 소스의 정렬 섹션의 MD5 해시를 계산합니다.
참고
MD5 해싱은 충돌에 취약한 것으로 알려져 있습니다. 따라서 알려진 충돌을 악용하도록 제작된 두 개의 서로 다른 파일은 동일한 ETag를 가질 수 있습니다.
SHA256 패밀리에는 다음 알고리즘이 지원됩니다. 알고리즘은 다음과 같이 계산됩니다.
-
FASTQ_SHA256up - 압축되지 않은 전체 FASTQ 읽기 세트 소스의 SHA-256 해시를 계산합니다.
-
BAM_SHA256up - 사용 가능한 경우 연결된 참조를 기반으로 SAM에 표시된 대로 압축되지 않은 BAM 또는 uBAM 읽기 세트 소스의 정렬 섹션의 SHA-256 해시를 계산합니다.
-
CRAM_SHA256up - 연결된 참조를 기반으로 SAM에 표시된 대로 압축되지 않은 CRAM 읽기 세트 소스의 정렬 섹션의 SHA-256 해시를 계산합니다.
SHA512 패밀리에는 다음 알고리즘이 지원됩니다. 알고리즘은 다음과 같이 계산됩니다.
-
FASTQ_SHA512up - 압축되지 않은 전체 FASTQ 읽기 세트 소스의 SHA-512 해시를 계산합니다.
-
BAM_SHA512up - 사용 가능한 경우 연결된 참조를 기반으로 SAM에 표시된 대로 압축되지 않은 BAM 또는 uBAM 읽기 세트 소스의 정렬 섹션의 SHA-512 해시를 계산합니다.
-
CRAM_SHA512up - 연결된 참조를 기반으로 SAM에 표시된 대로 압축되지 않은 CRAM 읽기 세트 소스의 정렬 섹션의 SHA-512 해시를 계산합니다.