Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Zugreifen auf HealthOmics Lesesätze mit Amazon S3 URIs
Sie können Amazon S3 S3-URI-Pfade verwenden, um auf Ihre Active Sequence Store-Lesesätze zuzugreifen.
Mit dem Amazon S3 S3-URI-Pfad können Sie Amazon S3 S3-Operationen verwenden, um Ihre Lesesätze aufzulisten, zu teilen und herunterzuladen. Der Zugriff über S3 APIs beschleunigt die Zusammenarbeit und die Integration von Tools, da viele Industrietools bereits für das Lesen aus S3 entwickelt wurden. Darüber hinaus können Sie den Zugriff auf das S3 APIs mit anderen Konten teilen und regionsübergreifenden Lesezugriff auf Daten gewähren.
HealthOmics unterstützt keinen Amazon S3 S3-URI-Zugriff auf archivierte Lesesätze. Wenn Sie einen Lesesatz aktivieren, wird er jedes Mal auf demselben URI-Pfad wiederhergestellt.
Da die Amazon S3-URI auf Amazon S3 S3-Zugriffspunkten basiert, können Sie Daten direkt in branchenübliche Tools integrieren, die Amazon S3 lesen URIs, wie z. B. die folgenden: HealthOmics
-
Visuelle Analyseanwendungen wie Integrative Genomics Viewer (IGV) oder UCSC Genome Browser.
-
Allgemeine Workflows mit Amazon S3 S3-Erweiterungen wie CWL, WDL und Nextflow.
-
Jedes Tool, das sich authentifizieren und vom Access Point Amazon S3 aus lesen URIs oder vorsigniertes Amazon S3 lesen kann. URIs
-
Amazon S3 S3-Dienstprogramme wie Mountpoint oder. CloudFront
Amazon S3 Mountpoint ermöglicht es Ihnen, einen Amazon S3 S3-Bucket als lokales Dateisystem zu verwenden. Weitere Informationen zu Mountpoint und zur Installation zur Verwendung finden Sie unter Mountpoint
Amazon CloudFront ist ein Content Delivery Network (CDN) -Service, der auf hohe Leistung, Sicherheit und Entwicklerkomfort ausgelegt ist. Weitere Informationen zur Verwendung von Amazon CloudFront finden Sie in der CloudFront Amazon-Dokumentation. Wenden Sie sich CloudFront an das AWS HealthOmics Team, um einen Sequenzspeicher einzurichten.
Das Root-Konto des Datenbesitzers ist für die Aktionen S3:GetObject, S3: GetObjectTagging und S3:List Bucket für das Sequenzspeicherpräfix aktiviert. Damit ein Benutzer im Konto auf die Daten zugreifen kann, erstellen Sie eine IAM-Richtlinie und fügen sie dem Benutzer oder der Rolle hinzu. Eine Beispielrichtlinie finden Sie unter Berechtigungen für den Datenzugriff mit Amazon S3 URIs.
Sie können die folgenden Amazon S3 S3-API-Operationen für die aktiven Lesesätze verwenden, um Ihre Daten aufzulisten und abzurufen. Sie können über Amazon S3 auf archivierte Lesesätze zugreifen, URIs nachdem sie aktiviert wurden.
-
GetObject— Ruft ein Objekt von Amazon S3 ab.
-
HeadObject— Die HEAD-Operation ruft Metadaten von einem Objekt ab, ohne das Objekt selbst zurückzugeben. Diese Operation ist nützlich, wenn Sie nur die Metadaten eines Objekts benötigen.
-
ListObjects und ListObject v2 — Gibt einige oder alle (bis zu 1.000) Objekte in einem Bucket zurück.
-
CopyObject— Erstellt eine Kopie eines Objekts, das bereits in Amazon S3 gespeichert ist. HealthOmicsunterstützt das Kopieren auf einen Amazon S3 S3-Zugriffspunkt, aber nicht das Schreiben auf einen Zugriffspunkt.
HealthOmics Sequenzspeicher behalten die semantische Identität von Dateien ETags durchgehend bei. Während des Lebenszyklus einer Datei kann sich der Amazon S3 ETag, der auf einer bitweisen Identität basiert, ändern, die HealthOmics ETag bleibt jedoch gleich. Weitere Informationen hierzu finden Sie unter HealthOmics ETags und Herkunft der Daten.
Themen
Amazon S3 S3-URI-Struktur im HealthOmics Speicher
Alle Dateien mit Amazon S3 URIs haben omics:subjectId
omics:sampleId
Ressourcen-Tags. Sie können diese Tags verwenden, um den Zugriff gemeinsam zu nutzen, indem Sie IAM-Richtlinien nach einem Muster wie "s3:ExistingObjectTag/omics:subjectId": "pattern desired"
verwenden.
Die Dateistruktur sieht wie folgt aus:
.../
account_id
/sequenceStore/seq_store_id
/readSet/read_set_id
/files
.
Bei Dateien, die aus Amazon S3 in Sequenzspeicher importiert wurden, versucht der Sequenzspeicher, den ursprünglichen Quellnamen beizubehalten. Wenn die Namen miteinander in Konflikt geraten, hängt das System Lesesatzinformationen an, um sicherzustellen, dass die Dateinamen eindeutig sind. Wenn zum Beispiel bei Fastq-Lesets beide Dateinamen identisch sind, sourceX
wird, um die Namen eindeutig zu machen, vor .fastq.gz oder .fq.gz eingefügt. Bei einem direkten Upload folgen die Dateinamen den folgenden Mustern:
-
Für FASTQ—
read_set_name
_ .fastq.gzsourcex
-
uBAM/BAM/CRAMFür
read_set_name
—.file extension
mit Erweiterungen von.bam
oder.cram
. Ein Beispiel istNA193948.bam
.
Bei Lesesätzen, bei denen es sich um BAM oder CRAM handelt, werden Indexdateien während des Aufnahmevorgangs automatisch generiert. Für die generierten Indexdateien wird die richtige Indexerweiterung am Ende des Dateinamens angewendet. Sie hat das Muster <name of the Source the index is on>.<file index extension>.
Die Indexerweiterungen sind .bai
oder.crai
.
Verwenden von gehostetem oder lokalem IGV für den Zugriff auf Lesesätze
IGV ist ein Genombrowser, der zur Analyse von BAM- und CRAM-Dateien verwendet wird. Er benötigt sowohl die Datei als auch den Index, da jeweils nur ein Teil des Genoms angezeigt wird. IGV kann heruntergeladen und lokal verwendet werden, und es gibt Anleitungen zur Erstellung eines von AWS gehosteten IGV. Die öffentliche Webversion wird nicht unterstützt, da sie CORS benötigt.
Lokales IGV ist für den Zugriff auf Dateien auf die lokale AWS Konfiguration angewiesen. Stellen Sie sicher, dass der in dieser Konfiguration verwendeten Rolle eine Richtlinie zugewiesen ist, die kms: Decrypt- und s3: GetObject -Berechtigungen für die s3-URI der Lesesätze, auf die zugegriffen wird, aktiviert. Danach können Sie in IGV „Datei > Aus URL laden“ verwenden und den URI für die Quelle und den Index einfügen. Alternativ URLs kann Presigned auf dieselbe Weise generiert und verwendet werden, wodurch die AWS-Konfiguration umgangen wird. Beachten Sie, dass CORS beim Amazon S3 S3-URI-Zugriff nicht unterstützt wird, sodass Anfragen, die auf CORS basieren, nicht unterstützt werden.
Das Beispiel AWS Hosted IGV stützt sich auf AWS Cognito, um die richtigen Konfigurationen und Berechtigungen innerhalb der Umgebung zu erstellen. Stellen Sie sicher, dass eine Richtlinie erstellt wurde, die die GetObject Berechtigungen KMS:Decrypt und s3: für die Amazon S3 S3-URI der Lesesätze aktiviert, auf die zugegriffen wird, und fügen Sie diese Richtlinie der Rolle hinzu, die dem Cognito-Benutzerpool zugewiesen ist. Danach können Sie in IGV „Datei > Von URL laden“ verwenden und den URI für die Quelle und den Index eingeben. Alternativ URLs kann Presigned auf dieselbe Weise generiert und verwendet werden, wodurch die AWS-Konfiguration umgangen wird.
Beachten Sie, dass der Sequenzspeicher nicht auf der Registerkarte „Amazon“ angezeigt wird, da dort nur Buckets angezeigt werden, die Ihnen in der Region gehören, in der das AWS Profil konfiguriert ist.
Mit Samtools oder in HTSlib HealthOmics
HTSlib ist die Kernbibliothek, die von mehreren Tools wie Samtools, RSAMTools und anderen gemeinsam genutzt wird. PySam Verwenden Sie HTSlib Version 1.20 oder höher, um nahtlose Unterstützung für Amazon S3 Access Points zu erhalten. Für ältere Versionen der HTSlib Bibliothek können Sie die folgenden Problemumgehungen verwenden:
-
Legen Sie die Umgebungsvariable für den HTS Amazon S3 S3-Host fest mit:
export HTS_S3_HOST="s3.
.region
.amazonaws.com" -
Generieren Sie eine vorsignierte URL für die Dateien, die Sie verwenden möchten. Wenn ein BAM oder CRAM verwendet wird, stellen Sie sicher, dass sowohl für die Datei als auch für den Index eine vorsignierte URL generiert wird. Danach können beide Dateien mit den Bibliotheken verwendet werden.
-
Verwenden Sie Mountpoint, um das Sequenzspeicher- oder Lesesatzpräfix in derselben Umgebung zu mounten, in der Sie Bibliotheken verwenden HTSlib . Von hier aus kann über lokale Dateipfade auf die Dateien zugegriffen werden.
Mit Mountpoint HealthOmics
Mountpoint for Amazon S3 ist ein einfacher Dateiclient mit hohem Durchsatz zum Mounten eines Amazon S3 S3-Buckets als lokales
Mountpoint kann mithilfe der Mountpoint-Installationsanweisungen installiert werden.
mount-s3
access point arn
--prefix
local path to mount
--region
prefix to sequence store or read set
region
Verwenden CloudFront mit HealthOmics
Amazon CloudFront ist ein Content Delivery Network (CDN) -Service, der auf hohe Leistung, Sicherheit und Entwicklerkomfort ausgelegt ist. Kunden, die diesen Service nutzen möchten, CloudFront müssen mit dem Serviceteam zusammenarbeiten, um den CloudFront Vertrieb zu aktivieren. Arbeiten Sie mit Ihrem Account-Team zusammen, um das HealthOmics Serviceteam zu engagieren.