As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
HealthOmics ETags e proveniência dos dados
A HealthOmics ETag (tag de entidade) é um hash do conteúdo ingerido em um armazenamento de sequências. Isso simplifica a recuperação e o processamento de dados, mantendo a integridade do conteúdo dos arquivos de dados ingeridos. ETag Isso reflete as alterações no conteúdo semântico do objeto, não em seus metadados. O tipo de conjunto de leitura e o algoritmo especificados determinam como o ETag é calculado. O ETag cálculo não altera o arquivo real nem os dados genômicos. Quando o esquema de tipo de arquivo do conjunto de leitura permite, o armazenamento de sequências atualiza os campos vinculados à proveniência dos dados.
Os arquivos têm uma identidade bit a bit e uma identidade semântica. A identidade bit a bit significa que os bits de um arquivo são idênticos, e uma identidade semântica significa que o conteúdo de um arquivo é idêntico. A identidade semântica é resistente a alterações de metadados e alterações de compressão, pois captura a integridade do conteúdo do arquivo.
Os conjuntos de leitura em armazenamentos HealthOmics sequenciais passam por compression/decompression ciclos e rastreamento de proveniência de dados durante todo o ciclo de vida de um objeto. Durante esse processamento, a identidade bit a bit de um arquivo ingerido pode mudar e espera-se que mude sempre que um arquivo for ativado; no entanto, a identidade semântica do arquivo é mantida. A identidade semântica é capturada como uma tag de HealthOmics entidade ou calculada durante ETag a ingestão do armazenamento de sequências e está disponível como metadados do conjunto de leitura.
Quando o esquema de tipo de arquivo do conjunto de leitura permite, os campos de atualizações do armazenamento de sequências são vinculados à proveniência dos dados. Para arquivos uBAM, BAM e CRAM, uma nova Comment
tag @CO
ou tag é adicionada ao cabeçalho. O comentário contém o ID do armazenamento da sequência e o carimbo de data/hora da ingestão.
Amazon S3 ETags
Ao acessar um arquivo usando o URI do Amazon S3, as operações da API do Amazon S3 também podem retornar valores do Amazon S3 e da soma de verificação. ETag Os valores do Amazon S3 ETag e da soma de verificação diferem do HealthOmics ETags porque representam a identidade bit a bit do arquivo. Para saber mais sobre metadados descritivos e objetos, consulte a documentação da API de objetos do Amazon S3. ETag Os valores do Amazon S3 podem mudar com cada ciclo de ativação de um conjunto de leitura e você pode usá-los para validar a leitura de um arquivo. No entanto, não armazene em cache ETag os valores do Amazon S3 para usar na validação da identidade do arquivo durante o ciclo de vida do arquivo, pois eles não permanecem consistentes. Em contraste, o HealthOmics ETag permanece consistente durante todo o ciclo de vida do conjunto de leitura.
Como HealthOmics calcula ETags
O ETag é gerado a partir de um hash do conteúdo do arquivo ingerido. A família de ETag algoritmos é definida como padrão, mas pode ser configurada de forma diferente durante a criação do armazenamento de sequências. MD5up Quando o ETag é calculado, o algoritmo e os hashes calculados são adicionados ao conjunto de leitura. Os MD5 algoritmos suportados para tipos de arquivo são os seguintes.
-
FASTQ_ MD5up — Calcula o MD5 hash de uma fonte de conjunto de leitura FASTQ completa e não compactada.
-
BAM_ MD5up — Calcula o MD5 hash da seção de alinhamento de uma fonte de conjunto de leitura BAM ou UBAM não compactada, conforme representada no SAM, com base na referência vinculada, se houver uma disponível.
-
CRAM_ MD5up — Calcula o MD5 hash da seção de alinhamento da fonte do conjunto de leitura CRAM não compactada, conforme representada no SAM, com base na referência vinculada.
nota
MD5 sabe-se que o hashing é vulnerável a colisões. Por causa disso, dois arquivos diferentes poderiam ter o mesmo ETag se tivessem sido fabricados para explorar a colisão conhecida.
Os algoritmos a seguir são compatíveis com a SHA256 família. Os algoritmos são calculados da seguinte forma:
-
FASTQ_ SHA256up — Calcula o hash SHA-256 de uma fonte de conjunto de leitura FASTQ completa e não compactada.
-
BAM_ SHA256up — Calcula o hash SHA-256 da seção de alinhamento de uma fonte de conjunto de leitura BAM ou UBAM não compactada, conforme representada no SAM, com base na referência vinculada, se houver uma disponível.
-
CRAM_ SHA256up — Calcula o hash SHA-256 da seção de alinhamento de uma fonte de conjunto de leitura CRAM não compactada, conforme representada no SAM, com base na referência vinculada.
Os algoritmos a seguir são compatíveis com a SHA512 família. Os algoritmos são calculados da seguinte forma:
-
FASTQ_ SHA512up — Calcula o hash SHA-512 de uma fonte de conjunto de leitura FASTQ completa e não compactada.
-
BAM_ SHA512up — Calcula o hash SHA-512 da seção de alinhamento de uma fonte de conjunto de leitura BAM ou UBAM não compactada, conforme representada no SAM, com base na referência vinculada, se houver uma disponível.
-
CRAM_ SHA512up — Calcula o hash SHA-512 da seção de alinhamento de uma fonte de conjunto de leitura CRAM não compactada, conforme representada no SAM, com base na referência vinculada.