Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Lesesätze in einen HealthOmics Sequenzspeicher importieren
Nachdem Sie Ihren Sequenzspeicher erstellt haben, erstellen Sie Importaufträge, um Lesesätze in den Datenspeicher hochzuladen. Sie können Ihre Dateien aus einem Amazon S3 S3-Bucket hochladen oder Sie können sie direkt hochladen, indem Sie die synchronen API-Operationen verwenden. Ihr Amazon S3 S3-Bucket muss sich in derselben Region wie Ihr Sequence Store befinden.
Sie können eine beliebige Kombination aus ausgerichteten und nicht ausgerichteten Lesesätzen in Ihren Sequenzspeicher hochladen. Wenn jedoch einer der Lesesätze in Ihrem Import ausgerichtet ist, müssen Sie ein Referenzgenom angeben.
Sie können die IAM-Zugriffsrichtlinie, die Sie zur Erstellung des Referenzspeichers verwendet haben, wiederverwenden.
In den folgenden Themen werden die wichtigsten Schritte beschrieben, die Sie ausführen, um ein Leseset in Ihren Sequenzspeicher zu importieren und anschließend Informationen zu den importierten Daten abzurufen.
Themen
Dateien auf Amazon S3 hochladen
Das folgende Beispiel zeigt, wie Sie Dateien in Ihren Amazon S3 S3-Bucket verschieben.
aws s3 cp s3://1000genomes/phase1/data/HG00100/alignment/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/data/HG00096/alignment/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram s3://your-bucket aws s3 cp s3://gatk-test-data/wgs_ubam/NA12878_20k/NA12878_A.bam s3://your-bucket
Die in diesem Beispiel CRAM
verwendete Probe BAM
erfordert unterschiedliche Genomreferenzen, Hg19
undHg38
. Weitere Informationen oder Zugriff auf diese Referenzen finden Sie unter The Broad Genome References
Erstellen einer Manifestdatei
Sie müssen außerdem eine Manifestdatei in JSON erstellen, in der Sie den Importauftrag modellieren können import.json
(siehe das folgende Beispiel). Wenn Sie in der Konsole einen Sequenzspeicher erstellen, müssen Sie das sequenceStoreId
oder nicht angebenroleARN
, sodass Ihre Manifestdatei mit der sources
Eingabe beginnt.
Alternativ können Sie die Manifestdatei im YAML-Format hochladen.
Der Importjob wird gestartet
Verwenden Sie den folgenden AWS CLI Befehl, um den Importjob zu starten.
aws omics start-read-set-import-job --cli-input-json file://import.json
Sie erhalten die folgende Antwort, die darauf hinweist, dass der Job erfolgreich erstellt wurde.
{ "id": "3660451514", "sequenceStoreId": "3936421177", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "CREATED", "creationTime": "2022-07-13T22:14:59.309Z" }
Überwachen Sie den Importauftrag
Nach dem Start des Importauftrags können Sie seinen Fortschritt mit dem folgenden Befehl überwachen. Ersetzen Sie im folgenden Beispiel
durch Ihre Sequenzspeicher-ID und dann sequence store id
durch die Import-ID.job import ID
aws omics get-read-set-import-job --sequence-store-id
--id
sequence store id
job import ID
Im Folgenden werden die Status aller Importaufträge angezeigt, die der angegebenen Sequenzspeicher-ID zugeordnet sind.
{ "id": "1234567890", "sequenceStoreId": "1234567890", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "RUNNING", "statusMessage": "The job is currently in progress.", "creationTime": "2022-07-13T22:14:59.309Z", "sources": [ { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam" }, "sourceFileType": "BAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/8625408453", "name": "HG00100", "description": "BAM for HG00100", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz", "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz" }, "sourceFileType": "FASTQ", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "HG00146", "description": "FASTQ for HG00146", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram" }, "sourceFileType": "CRAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/1234568870", "name": "HG00096", "description": "CRAM for HG00096", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam" }, "sourceFileType": "UBAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "NA12878_A", "description": "uBAM for NA12878", "generatedFrom": "GATK Test Data", "readSetID": "1234567890" } ] }
Suchen Sie die importierten Sequenzdateien
Nach Abschluss des Jobs können Sie den list-read-setsAPI-Vorgang verwenden, um die importierten Sequenzdateien zu finden. Im folgenden Beispiel ersetzen Sie es
durch Ihre Sequenzspeicher-ID.sequence store
id
aws omics list-read-sets --sequence-store-id
sequence store id
Sie erhalten die folgende Antwort.
{ "readSets": [ { "id": "0000000001", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/01234567890/readSet/0000000001", "sequenceStoreId": "1234567890", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00100", "description": "BAM for HG00100", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/01234567890/reference/0000000001", "fileType": "BAM", "sequenceInformation": { "totalReadCount": 9194, "totalBaseCount": 928594, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:25:20Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "d1d65429212d61d115bb19f510d4bd02" } }, { "id": "0000000002", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000002", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00146", "description": "FASTQ for HG00146", "fileType": "FASTQ", "sequenceInformation": { "totalReadCount": 8000000, "totalBaseCount": 1184000000, "generatedFrom": "1000 Genomes", "alignment": "UNALIGNED" }, "creationTime": "2022-07-13T23:26:43Z" "creationType": "IMPORT", "etag": { "algorithm": "FASTQ_MD5up", "source1": "ca78f685c26e7cc2bf3e28e3ec4d49cd" } }, { "id": "0000000003", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000003", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00096", "description": "CRAM for HG00096", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/0123456789/reference/0000000001", "fileType": "CRAM", "sequenceInformation": { "totalReadCount": 85466534, "totalBaseCount": 24000004881, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "CRAM_MD5up", "source1": "66817940f3025a760e6da4652f3e927e" } }, { "id": "0000000004", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000004", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "NA12878_A", "description": "uBAM for NA12878", "fileType": "UBAM", "sequenceInformation": { "totalReadCount": 20000, "totalBaseCount": 5000000, "generatedFrom": "GATK Test Data", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "640eb686263e9f63bcda12c35b84f5c7" } } ] }
Rufen Sie Details zu einem Lesesatz ab
Verwenden Sie die GetReadSetMetadataAPI-Operation, um weitere Details zu einem Lesesatz anzuzeigen. Ersetzen Sie im folgenden Beispiel
durch Ihre Sequenzspeicher-ID und dann sequence store id
durch Ihre Leseset-ID.read set id
aws omics get-read-set-metadata --sequence-store-id
--id
sequence store id
read set id
Sie erhalten die folgende Antwort.
{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/2015356892/readSet/9515444019", "creationTime": "2024-01-12T04:50:33.548Z", "creationType": "IMPORT", "creationJobId": "33222111", "description": null, "etag": { "algorithm": "FASTQ_MD5up", "source1": "00d0885ba3eeb211c8c84520d3fa26ec", "source2": "00d0885ba3eeb211c8c84520d3fa26ec" }, "fileType": "FASTQ", "files": { "index": null, "source1": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://
accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 }, "source2": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 } }, "id": "9515444019", "name": "paired-fastq-import", "sampleId": "sampleId-paired-fastq-import", "sequenceInformation": { "alignment": "UNALIGNED", "generatedFrom": null, "totalBaseCount": 30000, "totalReadCount": 200 }, "sequenceStoreId": "2015356892", "status": "ACTIVE", "statusMessage": null, "subjectId": "subjectId-paired-fastq-import" }
Laden Sie die Readset-Datendateien herunter
Sie können mithilfe der Amazon S3 GetObject S3-API-Operation auf die Objekte für einen aktiven Lesesatz zugreifen. Die URI für das Objekt wird in der GetReadSetMetadataAPI-Antwort zurückgegeben. Weitere Informationen finden Sie unter Zugreifen auf HealthOmics Lesesätze mit Amazon S3 URIs.
Verwenden Sie alternativ den HealthOmics GetReadSet API-Vorgang. Sie können GetReadSet das parallel Herunterladen verwenden, indem Sie einzelne Teile herunterladen. Diese Teile ähneln Amazon S3 S3-Teilen. Im Folgenden finden Sie ein Beispiel dafür, wie Sie Teil 1 aus einem Lesesatz herunterladen können. Im folgenden Beispiel
ersetzen Sie es durch Ihre Sequenzspeicher-ID und sequence store id
ersetzen Sie es durch Ihre Lesesatz-ID.read set id
aws omics get-read-set --sequence-store-id
--id
sequence store id
--part-number 1 outfile.bam
read set id
Sie können den HealthOmics Transfer Manager auch verwenden, um Dateien als HealthOmics Referenz oder Lesesatz herunterzuladen. Sie können den HealthOmics Transfer Manager hier