Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
HealthOmics ETags e provenienza dei dati
Un HealthOmics ETag (tag di entità) è un hash del contenuto acquisito in un archivio di sequenze. Ciò semplifica il recupero e l'elaborazione dei dati mantenendo al contempo l'integrità dei contenuti dei file di dati acquisiti. ETag Riflette le modifiche al contenuto semantico dell'oggetto, non ai suoi metadati. Il tipo di set di lettura e l'algoritmo specificati determinano la modalità di calcolo ETag . Il ETag calcolo non altera il file effettivo o i dati genomici. Quando lo schema del tipo di file del set di lettura lo consente, l'archivio delle sequenze aggiorna i campi collegati alla provenienza dei dati.
I file hanno un'identità bit per bit e un'identità semantica. L'identità bit per bit significa che i bit di un file sono identici e un'identità semantica significa che i contenuti di un file sono identici. L'identità semantica è resistente alle modifiche dei metadati e alle modifiche di compressione poiché acquisisce l'integrità del contenuto del file.
I set di lettura negli archivi di HealthOmics sequenza sono sottoposti a compression/decompression cicli e al monitoraggio della provenienza dei dati durante tutto il ciclo di vita di un oggetto. Durante questa elaborazione, l'identità bit per bit di un file ingerito può cambiare e dovrebbe cambiare ogni volta che viene attivato un file; tuttavia, l'identità semantica del file viene mantenuta. L'identità semantica viene acquisita come tag di HealthOmics entità, oppure ETag viene calcolata durante l'inserimento del Sequence Store e disponibile come metadati del set di lettura.
Quando lo schema dei tipi di file del set di lettura lo consente, i campi degli aggiornamenti dell'archivio delle sequenze sono collegati alla provenienza dei dati. Per i file UBam, BAM e CRAM, viene aggiunto un nuovo @CO
tag or all'intestazione. Comment
Il commento contiene l'ID dell'archivio della sequenza e il timestamp di inserimento.
Amazon S3 ETags
Quando si accede a un file utilizzando l'URI di Amazon S3, le operazioni API di Amazon S3 possono anche restituire valori Amazon S3 e valori di checksum. ETag I valori di Amazon S3 ETag e checksum differiscono da quelli HealthOmics ETags perché rappresentano l'identità bit per bit del file. Per ulteriori informazioni sui metadati e sugli oggetti descrittivi, consulta la documentazione dell'API Amazon S3 Object. ETag I valori di Amazon S3 possono cambiare con ogni ciclo di attivazione di un set di lettura e puoi utilizzarli per convalidare la lettura di un file. Tuttavia, non memorizzare nella cache ETag i valori di Amazon S3 da utilizzare per la convalida dell'identità dei file durante il ciclo di vita del file perché non rimangono coerenti. Al contrario, HealthOmics ETag rimane coerente per tutto il ciclo di vita del set di lettura.
Come calcola HealthOmics ETags
ETag Viene generato da un hash del contenuto del file ingerito. La famiglia di ETag algoritmi è impostata come impostazione MD5up predefinita, ma può essere configurata in modo diverso durante la creazione dell'archivio di sequenze. Quando ETag viene calcolato, l'algoritmo e gli hash calcolati vengono aggiunti al set di lettura. MD5 Gli algoritmi supportati per i tipi di file sono i seguenti.
-
FASTQ_ MD5up — Calcola l' MD5hash di una sorgente di lettura FASTQ completa e non compressa.
-
BAM_ MD5up — Calcola l' MD5 hash della sezione di allineamento di una sorgente non compressa del set di lettura BAM o UBam rappresentata nel SAM, in base al riferimento collegato, se disponibile.
-
CRAM_ MD5up — Calcola l' MD5 hash della sezione di allineamento della sorgente non compressa del set di lettura CRAM rappresentata nel SAM, in base al riferimento collegato.
Nota
MD5 è noto che l'hashing è vulnerabile alle collisioni. Per questo motivo, due file diversi potrebbero avere le stesse caratteristiche ETag se fossero stati prodotti per sfruttare la collisione nota.
I seguenti algoritmi sono supportati per la famiglia. SHA256 Gli algoritmi vengono calcolati come segue:
-
FASTQ_ SHA256up — Calcola l'hash SHA-256 di una sorgente di set di lettura FASTQ completa e non compressa.
-
BAM_ SHA256up — Calcola l'hash SHA-256 della sezione di allineamento di una sorgente non compressa del set di lettura BAM o UBam rappresentata nel SAM, in base al riferimento collegato, se disponibile.
-
CRAM_ SHA256up — Calcola l'hash SHA-256 della sezione di allineamento di una sorgente del set di lettura CRAM non compressa rappresentata nel SAM, in base al riferimento collegato.
I seguenti algoritmi sono supportati per la famiglia. SHA512 Gli algoritmi vengono calcolati come segue:
-
FASTQ_ SHA512up — Calcola l'hash SHA-512 di una sorgente di set di lettura FASTQ completa e non compressa.
-
BAM_ SHA512up — Calcola l'hash SHA-512 della sezione di allineamento di una sorgente non compressa del set di lettura BAM o UBam rappresentata nel SAM, in base al riferimento collegato, se disponibile.
-
CRAM_ SHA512up — Calcola l'hash SHA-512 della sezione di allineamento di una sorgente del set di lettura CRAM non compressa rappresentata nel SAM, in base al riferimento collegato.