HealthOmics ETags y procedencia de los datos - AWS HealthOmics

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

HealthOmics ETags y procedencia de los datos

Una HealthOmics ETag (etiqueta de entidad) es un hash del contenido ingerido en un almacén de secuencias. Esto simplifica la recuperación y el procesamiento de los datos y, al mismo tiempo, mantiene la integridad del contenido de los archivos de datos ingeridos. ETag Refleja los cambios en el contenido semántico del objeto, no en sus metadatos. El tipo de conjunto de lectura y el algoritmo especificados determinan cómo ETag se calcula. El ETag cálculo no altera el archivo ni los datos genómicos reales. Cuando el esquema de tipos de archivo del conjunto de lectura lo permite, el almacén de secuencias actualiza los campos que están vinculados a la procedencia de los datos.

Los archivos tienen una identidad bit a bit y una identidad semántica. La identidad bit a bit significa que los bits de un archivo son idénticos, y una identidad semántica significa que el contenido de un archivo es idéntico. La identidad semántica es resistente a los cambios en los metadatos y a los cambios de compresión, ya que captura la integridad del contenido del archivo.

Los conjuntos de lectura de los almacenes de HealthOmics secuencias se someten a compression/decompression ciclos y se realiza un seguimiento de la procedencia de los datos a lo largo del ciclo de vida de un objeto. Durante este procesamiento, la identidad bit a bit de un archivo ingerido puede cambiar y se espera que cambie cada vez que se activa un archivo; sin embargo, se mantiene la identidad semántica del archivo. La identidad semántica se captura como una etiqueta de HealthOmics entidad o ETag se calcula durante la ingesta del almacén de secuencias y está disponible como metadatos de conjuntos de lectura.

Cuando el esquema de tipos de archivos del conjunto de lectura lo permite, los campos de actualizaciones del almacén de secuencias se vinculan a la procedencia de los datos. En el caso de los archivos uBAM, BAM y CRAM, se añade una nueva etiqueta @CO or Comment al encabezado. El comentario contiene el ID del almacén de secuencias y la marca de tiempo de ingesta.

Amazon S3 ETags

Al acceder a un archivo mediante el URI de Amazon S3, las operaciones de la API de Amazon S3 también pueden devolver valores de Amazon S3 ETag y checksum. Los valores de Amazon S3 ETag y checksum difieren de los de HealthOmics ETags porque representan la identidad bit a bit del archivo. Para obtener más información sobre los objetos y los metadatos descriptivos, consulte la documentación de la API de objetos de Amazon S3. ETag Los valores de Amazon S3 pueden cambiar con cada ciclo de activación de un conjunto de lecturas y puede usarlos para validar la lectura de un archivo. Sin embargo, no almacene en caché ETag los valores de Amazon S3 para utilizarlos en la validación de la identidad del archivo durante el ciclo de vida del archivo, ya que no son coherentes. Por el contrario, se HealthOmics ETag mantiene constante durante todo el ciclo de vida del conjunto de lectura.

¿Cómo se HealthOmics calcula ETags

ETag Se genera a partir de un hash del contenido del archivo ingerido. La familia de ETag algoritmos está configurada como de forma MD5up predeterminada, pero se puede configurar de forma diferente durante la creación del almacén de secuencias. Cuando ETag se calcula, el algoritmo y los hashes calculados se añaden al conjunto de lecturas. Los MD5 algoritmos admitidos para los tipos de archivos son los siguientes.

  • FASTQ_ MD5up: calcula el MD5 hash de una fuente de conjunto de lectura FASTQ completa y sin comprimir.

  • BAM_ MD5up — Calcula el MD5 hash de la sección de alineación de una fuente de conjunto de lectura BAM o uBAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada, si hay alguna disponible.

  • CRAM_ MD5up: calcula el MD5 hash de la sección de alineación de la fuente del conjunto de lectura CRAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada.

nota

MD5 Se sabe que el hash es vulnerable a las colisiones. Por este motivo, dos archivos diferentes podrían tener lo mismo ETag si se hubieran fabricado para aprovechar la colisión conocida.

La SHA256 familia admite los siguientes algoritmos. Los algoritmos se calculan de la siguiente manera:

  • FASTQ_ SHA256up: calcula el hash SHA-256 de una fuente de conjunto de lectura FASTQ completa y sin comprimir.

  • BAM_ SHA256up: calcula el hash SHA-256 de la sección de alineación de una fuente de conjunto de lectura BAM o uBAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada, si hay alguna disponible.

  • CRAM_ SHA256up: calcula el hash SHA-256 de la sección de alineación de una fuente de conjunto de lectura CRAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada.

La familia admite los siguientes algoritmos. SHA512 Los algoritmos se calculan de la siguiente manera:

  • FASTQ_ SHA512up: calcula el hash SHA-512 de una fuente de conjunto de lectura FASTQ completa y sin comprimir.

  • BAM_ SHA512up: calcula el hash SHA-512 de la sección de alineación de una fuente de conjunto de lectura BAM o uBAM sin comprimir tal como se representa en el SAM, basándose en la referencia vinculada, si hay alguna disponible.

  • CRAM_ SHA512up : calcula el hash SHA-512 de la sección de alineación de una fuente de conjunto de lectura CRAM sin comprimir tal como se representa en el SAM, en función de la referencia vinculada.