Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Téléchargement direct vers un magasin de HealthOmics séquences
Nous vous recommandons d'utiliser le gestionnaire HealthOmics de transfert pour ajouter des fichiers à votre magasin de séquences. Pour plus d'informations sur l'utilisation de Transfer Manager, consultez ce GitHubréférentiel
Les ensembles de lecture à téléchargement direct existent en PROCESSING_UPLOAD
premier. Cela signifie que les parties du fichier sont en cours de téléchargement et que vous pouvez accéder aux métadonnées du jeu de lecture. Une fois les parties téléchargées et les checksums validés, le jeu de lecture devient ACTIVE
et se comporte de la même manière qu'un jeu de lecture importé.
Si le téléchargement direct échoue, l'état du jeu de lecture est affiché sous la formeUPLOAD_FAILED
. Vous pouvez configurer un compartiment Amazon S3 comme emplacement de secours pour les fichiers qui ne parviennent pas à être chargés. Des emplacements de secours sont disponibles pour les magasins de séquences créés après le 15 mai 2023.
Rubriques
Téléchargement direct vers un magasin de séquences à l'aide du AWS CLI
Pour commencer, lancez un téléchargement en plusieurs parties. Vous pouvez le faire en utilisant le AWS CLI, comme indiqué dans l'exemple suivant.
Pour effectuer un téléchargement direct à l'aide de AWS CLI commandes
Créez les parties en séparant vos données, comme indiqué dans l'exemple suivant.
split -b 100MiB SRR233106_1.filt.fastq.gz source1_part_
-
Une fois que vos fichiers source sont divisés en plusieurs parties, créez un téléchargement de jeux de lecture en plusieurs parties, comme indiqué dans l'exemple suivant. Remplacez
les autres paramètres par votre identifiant de magasin de séquences et d'autres valeurs.sequence store ID
aws omics create-multipart-read-set-upload \ --sequence-store-id
\ --namesequence store ID
\ --source-file-typeupload name
\ --subject-idFASTQ
\ --sample-idsubject ID
\ --description "FASTQ for HG00146"sample ID
\ --generated-from "1000 Genomes""description of upload"
"source of imported files"
Vous obtenez les métadonnées
uploadID
et les autres dans la réponse. Utilisez leuploadID
pour l'étape suivante du processus de téléchargement.{ "sequenceStoreId": "1504776472", "uploadId": "7640892890", "sourceFileType": "FASTQ", "subjectId": "mySubject", "sampleId": "mySample", "generatedFrom": "1000 Genomes", "name": "HG00146", "description": "FASTQ for HG00146", "creationTime": "2023-11-20T23:40:47.437522+00:00" }
-
Ajoutez vos ensembles de lecture au téléchargement. Si votre fichier est suffisamment petit, vous ne devez effectuer cette étape qu'une seule fois. Pour les fichiers plus volumineux, vous devez effectuer cette étape pour chaque partie du fichier. Si vous chargez une nouvelle pièce en utilisant un numéro de pièce déjà utilisé, il remplace la pièce précédemment téléchargée.
Dans l'exemple suivant, remplacez
sequence store ID
, et les autres paramètres par vos valeurs.upload ID
aws omics upload-read-set-part \ --sequence-store-id
\ --upload-idsequence store ID
\ --part-sourceupload ID
\ --part-numberSOURCE1
\ --payload source1/source1_part_aa.fastq.gzpart number
La réponse est un identifiant que vous pouvez utiliser pour vérifier que le fichier téléchargé correspond au fichier que vous vouliez.
{ "checksum": "984979b9928ae8d8622286c4a9cd8e99d964a22d59ed0f5722e1733eb280e635" }
-
Poursuivez le téléchargement des parties de votre fichier, si nécessaire. Pour vérifier que vos ensembles de lecture ont été téléchargés, utilisez l'opération d'API list-read-set-upload-parts, comme indiqué ci-dessous. Dans l'exemple suivant, remplacez
sequence store ID
, etupload ID
par votre propre entrée.part source
aws omics list-read-set-upload-parts \ --sequence-store-id
\ --upload-idsequence store ID
\ --part-sourceupload ID
SOURCE1
La réponse renvoie le nombre d'ensembles de lecture, la taille et l'horodatage de la dernière mise à jour.
{ "parts": [ { "partNumber": 1, "partSize": 104857600, "partSource": "SOURCE1", "checksum": "MVMQk+vB9C3Ge8ADHkbKq752n3BCUzyl41qEkqlOD5M=", "creationTime": "2023-11-20T23:58:03.500823+00:00", "lastUpdatedTime": "2023-11-20T23:58:03.500831+00:00" }, { "partNumber": 2, "partSize": 104857600, "partSource": "SOURCE1", "checksum": "keZzVzJNChAqgOdZMvOmjBwrOPM0enPj1UAfs0nvRto=", "creationTime": "2023-11-21T00:02:03.813013+00:00", "lastUpdatedTime": "2023-11-21T00:02:03.813025+00:00" }, { "partNumber": 3, "partSize": 100339539, "partSource": "SOURCE1", "checksum": "TBkNfMsaeDpXzEf3ldlbi0ipFDPaohKHyZ+LF1J4CHk=", "creationTime": "2023-11-21T00:09:11.705198+00:00", "lastUpdatedTime": "2023-11-21T00:09:11.705208+00:00" } ] }
-
Pour afficher tous les téléchargements de sets de lecture partitionnés actifs, utilisez list-multipart-read-set-uploads, comme indiqué ci-dessous.
Remplacez-le par l'ID de votre propre magasin de séquences.sequence store ID
aws omics list-multipart-read-set-uploads --sequence-store-id
sequence store ID
Cette API renvoie uniquement les téléchargements de jeux de lecture partitionnés en cours. Une fois les ensembles de lecture ingérés
ACTIVE
, ou si le téléchargement a échoué, le téléchargement ne sera pas renvoyé dans la réponse à l'API list-multipart-read-set-uploads. Pour afficher les ensembles de lecture actifs, utilisez l'list-read-setsAPI. Un exemple de réponse pour list-multipart-read-set-uploads est présenté ci-dessous.{ "uploads": [ { "sequenceStoreId": "1234567890", "uploadId": "8749584421", "sourceFileType": "FASTQ", "subjectId": "mySubject", "sampleId": "mySample", "generatedFrom": "1000 Genomes", "name": "HG00146", "description": "FASTQ for HG00146", "creationTime": "2023-11-29T19:22:51.349298+00:00" }, { "sequenceStoreId": "1234567890", "uploadId": "5290538638", "sourceFileType": "BAM", "subjectId": "mySubject", "sampleId": "mySample", "generatedFrom": "1000 Genomes", "referenceArn": "arn:aws:omics:us-west-2:123456789012:referenceStore/8168613728/reference/2190697383", "name": "HG00146", "description": "BAM for HG00146", "creationTime": "2023-11-29T19:23:33.116516+00:00" }, { "sequenceStoreId": "1234567890", "uploadId": "4174220862", "sourceFileType": "BAM", "subjectId": "mySubject", "sampleId": "mySample", "generatedFrom": "1000 Genomes", "referenceArn": "arn:aws:omics:us-west-2:123456789012:referenceStore/8168613728/reference/2190697383", "name": "HG00147", "description": "BAM for HG00147", "creationTime": "2023-11-29T19:23:47.007866+00:00" } ] }
-
Après avoir chargé toutes les parties de votre fichier, utilisez complete-multipart-read-set-upload pour terminer le processus de téléchargement, comme indiqué dans l'exemple suivant. Remplacez
sequence store ID
, et le paramètre des pièces par vos propres valeurs.upload ID
aws omics complete-multipart-read-set-upload \ --sequence-store-id
\ --upload-idsequence store ID
\ --partsupload ID
'[{"checksum":"gaCBQMe+rpCFZxLpoP6gydBoXaKKDA/Vobh5zBDb4W4=","partNumber":1,"partSource":"SOURCE1"}]'
La réponse pour complete-multipart-read-set-upload est le jeu de lecture IDs pour vos ensembles de lecture importés.
{ "readSetId": "0000000001" }
-
Pour arrêter le téléchargement, utilisez abort-multipart-read-set-upload avec l'ID de téléchargement pour terminer le processus de téléchargement. Remplacez
etsequence store ID
par vos propres valeurs de paramètres.upload ID
aws omics abort-multipart-read-set-upload \ --sequence-store-id
\ --upload-idsequence store ID
upload ID
-
Une fois le téléchargement terminé, récupérez vos données depuis le set de lecture en utilisant get-read-set, comme indiqué ci-dessous. Si le téléchargement est toujours en cours de traitement, get-read-setrenvoie des métadonnées limitées et les fichiers d'index générés ne sont pas disponibles. Remplacez
les autres paramètres par vos propres données.sequence store ID
aws omics get-read-set --sequence-store-id
\ --idsequence store ID
\ --fileread set ID
\ --part-number 1SOURCE1
myfile.fastq.gz
-
Pour vérifier les métadonnées, y compris le statut de votre téléchargement, utilisez l'opération get-read-set-metadataAPI.
aws omics get-read-set-metadata --sequence-store-id
--idsequence store ID
read set ID
La réponse inclut des détails de métadonnées tels que le type de fichier, l'ARN de référence, le nombre de fichiers et la longueur des séquences. Il inclut également le statut. Les statuts possibles sont
PROCESSING_UPLOAD
ACTIVE
, et.UPLOAD_FAILED
{ "id": "0000000001", "arn": "arn:aws:omics:us-west-2:555555555555:sequenceStore/0123456789/readSet/0000000001", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "PROCESSING_UPLOAD", "name": "HG00146", "description": "FASTQ for HG00146", "fileType": "FASTQ", "creationTime": "2022-07-13T23:25:20Z", "files": { "source1": { "totalParts": 5, "partSize": 123456789012, "contentLength": 6836725, }, "source2": { "totalParts": 5, "partSize": 123456789056, "contentLength": 6836726 } }, 'creationType": "UPLOAD" }
Configuration d'un emplacement de secours
Lorsque vous créez ou mettez à jour un magasin de séquences, vous pouvez configurer un compartiment Amazon S3 comme emplacement de secours pour les fichiers qui ne parviennent pas à être chargés. Les parties du fichier correspondant à ces ensembles de lecture sont transférées vers l'emplacement de secours. Des emplacements de secours sont disponibles pour les magasins de séquences créés après le 15 mai 2023.
Créez une politique de compartiment Amazon S3 pour accorder un accès en HealthOmics écriture à l'emplacement de secours d'Amazon S3, comme illustré dans l'exemple suivant :
{ "Effect": "Allow", "Principal": { "Service": "omics.amazonaws.com" }, "Action": "s3:PutObject", "Resource": "arn:aws:s3:::
amzn-s3-demo-bucket
/*" }
Si le compartiment Amazon S3 pour les journaux de secours ou d'accès utilise une clé gérée par le client, ajoutez les autorisations suivantes à la politique en matière de clés :
{ "Sid": "Allow use of key", "Effect": "Allow", "Principal": { "Service": "omics.amazonaws.com" }, "Action": [ "kms:Decrypt", "kms:GenerateDataKey*" ], "Resource": "*" }