Amazon S3 S3-URI-Struktur im HealthOmics Speicher Verwenden von gehostetem oder lokalem IGV für den Zugriff auf Lesesätze Mit Samtools oder in HTSlib HealthOmics Mit Mountpoint HealthOmics Verwenden CloudFront mit HealthOmics

Zugreifen auf HealthOmics Lesesätze mit Amazon S3 URIs

Sie können Amazon S3 S3-URI-Pfade verwenden, um auf Ihre Active Sequence Store-Lesesätze zuzugreifen.

Mit dem Amazon S3 S3-URI-Pfad können Sie Amazon S3 S3-Operationen verwenden, um Ihre Lesesätze aufzulisten, zu teilen und herunterzuladen. Der Zugriff über S3 APIs beschleunigt die Zusammenarbeit und die Integration von Tools, da viele Industrietools bereits für das Lesen aus S3 entwickelt wurden. Darüber hinaus können Sie den Zugriff auf das S3 APIs mit anderen Konten teilen und regionsübergreifenden Lesezugriff auf Daten gewähren.

HealthOmics unterstützt keinen Amazon S3 S3-URI-Zugriff auf archivierte Lesesätze. Wenn Sie einen Lesesatz aktivieren, wird er jedes Mal auf demselben URI-Pfad wiederhergestellt.

Da die Amazon S3-URI auf Amazon S3 S3-Zugriffspunkten basiert, können Sie Daten direkt in branchenübliche Tools integrieren, die Amazon S3 lesen URIs, wie z. B. die folgenden: HealthOmics

Visuelle Analyseanwendungen wie Integrative Genomics Viewer (IGV) oder UCSC Genome Browser.
Allgemeine Workflows mit Amazon S3 S3-Erweiterungen wie CWL, WDL und Nextflow.
Jedes Tool, das sich authentifizieren und vom Access Point Amazon S3 aus lesen URIs oder vorsigniertes Amazon S3 lesen kann. URIs
Amazon S3 S3-Dienstprogramme wie Mountpoint oder. CloudFront

Amazon S3 Mountpoint ermöglicht es Ihnen, einen Amazon S3 S3-Bucket als lokales Dateisystem zu verwenden. Weitere Informationen zu Mountpoint und zur Installation zur Verwendung finden Sie unter Mountpoint for Amazon S3.

Amazon CloudFront ist ein Content Delivery Network (CDN) -Service, der auf hohe Leistung, Sicherheit und Entwicklerkomfort ausgelegt ist. Weitere Informationen zur Verwendung von Amazon CloudFront finden Sie in der CloudFront Amazon-Dokumentation. Wenden Sie sich CloudFront an das AWS HealthOmics Team, um einen Sequenzspeicher einzurichten.

Das Root-Konto des Datenbesitzers ist für die Aktionen S3:GetObject, S3: GetObjectTagging und S3:List Bucket für das Sequenzspeicherpräfix aktiviert. Damit ein Benutzer im Konto auf die Daten zugreifen kann, erstellen Sie eine IAM-Richtlinie und fügen sie dem Benutzer oder der Rolle hinzu. Eine Beispielrichtlinie finden Sie unter Berechtigungen für den Datenzugriff mit Amazon S3 URIs.

Sie können die folgenden Amazon S3 S3-API-Operationen für die aktiven Lesesätze verwenden, um Ihre Daten aufzulisten und abzurufen. Sie können über Amazon S3 auf archivierte Lesesätze zugreifen, URIs nachdem sie aktiviert wurden.

GetObject— Ruft ein Objekt von Amazon S3 ab.
HeadObject— Die HEAD-Operation ruft Metadaten von einem Objekt ab, ohne das Objekt selbst zurückzugeben. Diese Operation ist nützlich, wenn Sie nur die Metadaten eines Objekts benötigen.
ListObjects und ListObject v2 — Gibt einige oder alle (bis zu 1.000) Objekte in einem Bucket zurück.
CopyObject— Erstellt eine Kopie eines Objekts, das bereits in Amazon S3 gespeichert ist. HealthOmicsunterstützt das Kopieren auf einen Amazon S3 S3-Zugriffspunkt, aber nicht das Schreiben auf einen Zugriffspunkt.

HealthOmics Sequenzspeicher behalten die semantische Identität von Dateien ETags durchgehend bei. Während des Lebenszyklus einer Datei kann sich der Amazon S3 ETag, der auf einer bitweisen Identität basiert, ändern, die HealthOmics ETag bleibt jedoch gleich. Weitere Informationen hierzu finden Sie unter HealthOmics ETags und Herkunft der Daten.

Themen

Amazon S3 S3-URI-Struktur im HealthOmics Speicher
Verwenden von gehostetem oder lokalem IGV für den Zugriff auf Lesesätze
Mit Samtools oder in HTSlib HealthOmics
Mit Mountpoint HealthOmics
Verwenden CloudFront mit HealthOmics

Amazon S3 S3-URI-Struktur im HealthOmics Speicher

Alle Dateien mit Amazon S3 URIs haben omics:subjectId omics:sampleId Ressourcen-Tags. Sie können diese Tags verwenden, um den Zugriff gemeinsam zu nutzen, indem Sie IAM-Richtlinien nach einem Muster wie "s3:ExistingObjectTag/omics:subjectId": "pattern desired" verwenden.

Die Dateistruktur sieht wie folgt aus:

.../account_id/sequenceStore/seq_store_id/readSet/read_set_id/files.

Bei Dateien, die aus Amazon S3 in Sequenzspeicher importiert wurden, versucht der Sequenzspeicher, den ursprünglichen Quellnamen beizubehalten. Wenn die Namen miteinander in Konflikt geraten, hängt das System Lesesatzinformationen an, um sicherzustellen, dass die Dateinamen eindeutig sind. Wenn zum Beispiel bei Fastq-Lesets beide Dateinamen identisch sind, sourceX wird, um die Namen eindeutig zu machen, vor .fastq.gz oder .fq.gz eingefügt. Bei einem direkten Upload folgen die Dateinamen den folgenden Mustern:

Für FASTQ— read_set_name _ .fastq.gz sourcex
uBAM/BAM/CRAMFür read_set_name —. file extensionmit Erweiterungen von .bam oder.cram. Ein Beispiel ist NA193948.bam.

Bei Lesesätzen, bei denen es sich um BAM oder CRAM handelt, werden Indexdateien während des Aufnahmevorgangs automatisch generiert. Für die generierten Indexdateien wird die richtige Indexerweiterung am Ende des Dateinamens angewendet. Sie hat das Muster <name of the Source the index is on>.<file index extension>. Die Indexerweiterungen sind .bai oder.crai.

Verwenden von gehostetem oder lokalem IGV für den Zugriff auf Lesesätze

IGV ist ein Genombrowser, der zur Analyse von BAM- und CRAM-Dateien verwendet wird. Er benötigt sowohl die Datei als auch den Index, da jeweils nur ein Teil des Genoms angezeigt wird. IGV kann heruntergeladen und lokal verwendet werden, und es gibt Anleitungen zur Erstellung eines von AWS gehosteten IGV. Die öffentliche Webversion wird nicht unterstützt, da sie CORS benötigt.

Lokales IGV ist für den Zugriff auf Dateien auf die lokale AWS Konfiguration angewiesen. Stellen Sie sicher, dass der in dieser Konfiguration verwendeten Rolle eine Richtlinie zugewiesen ist, die kms: Decrypt- und s3: GetObject -Berechtigungen für die s3-URI der Lesesätze, auf die zugegriffen wird, aktiviert. Danach können Sie in IGV „Datei > Aus URL laden“ verwenden und den URI für die Quelle und den Index einfügen. Alternativ URLs kann Presigned auf dieselbe Weise generiert und verwendet werden, wodurch die AWS-Konfiguration umgangen wird. Beachten Sie, dass CORS beim Amazon S3 S3-URI-Zugriff nicht unterstützt wird, sodass Anfragen, die auf CORS basieren, nicht unterstützt werden.

Das Beispiel AWS Hosted IGV stützt sich auf AWS Cognito, um die richtigen Konfigurationen und Berechtigungen innerhalb der Umgebung zu erstellen. Stellen Sie sicher, dass eine Richtlinie erstellt wurde, die die GetObject Berechtigungen KMS:Decrypt und s3: für die Amazon S3 S3-URI der Lesesätze aktiviert, auf die zugegriffen wird, und fügen Sie diese Richtlinie der Rolle hinzu, die dem Cognito-Benutzerpool zugewiesen ist. Danach können Sie in IGV „Datei > Von URL laden“ verwenden und den URI für die Quelle und den Index eingeben. Alternativ URLs kann Presigned auf dieselbe Weise generiert und verwendet werden, wodurch die AWS-Konfiguration umgangen wird.

Beachten Sie, dass der Sequenzspeicher nicht auf der Registerkarte „Amazon“ angezeigt wird, da dort nur Buckets angezeigt werden, die Ihnen in der Region gehören, in der das AWS Profil konfiguriert ist.

Mit Samtools oder in HTSlib HealthOmics

HTSlib ist die Kernbibliothek, die von mehreren Tools wie Samtools, RSAMTools und anderen gemeinsam genutzt wird. PySam Verwenden Sie HTSlib Version 1.20 oder höher, um nahtlose Unterstützung für Amazon S3 Access Points zu erhalten. Für ältere Versionen der HTSlib Bibliothek können Sie die folgenden Problemumgehungen verwenden:

Legen Sie die Umgebungsvariable für den HTS Amazon S3 S3-Host fest mit:export HTS_S3_HOST="s3.region.amazonaws.com".
Generieren Sie eine vorsignierte URL für die Dateien, die Sie verwenden möchten. Wenn ein BAM oder CRAM verwendet wird, stellen Sie sicher, dass sowohl für die Datei als auch für den Index eine vorsignierte URL generiert wird. Danach können beide Dateien mit den Bibliotheken verwendet werden.
Verwenden Sie Mountpoint, um das Sequenzspeicher- oder Lesesatzpräfix in derselben Umgebung zu mounten, in der Sie Bibliotheken verwenden HTSlib . Von hier aus kann über lokale Dateipfade auf die Dateien zugegriffen werden.

Mit Mountpoint HealthOmics

Mountpoint for Amazon S3 ist ein einfacher Dateiclient mit hohem Durchsatz zum Mounten eines Amazon S3 S3-Buckets als lokales Dateisystem. Mit Mountpoint für Amazon S3 können Ihre Anwendungen über Dateioperationen wie Öffnen und Lesen auf in Amazon S3 gespeicherte Objekte zugreifen. Mountpoint for Amazon S3 übersetzt diese Operationen automatisch in Amazon S3-Objekt-API-Aufrufe, sodass Ihre Anwendungen über eine Dateischnittstelle auf den elastischen Speicher und den Durchsatz von Amazon S3 zugreifen können.

Mountpoint kann mithilfe der Mountpoint-Installationsanweisungen installiert werden. Mountpoint verwendet das AWS-Profil, das für die Installation lokal ist und auf einer Amazon S3 S3-Präfixebene funktioniert. Stellen Sie sicher, dass das verwendete Profil über eine Richtlinie verfügt, die die Berechtigungen s3:GetObject, s3: ListBucket und kms: Decrypt für das Amazon S3 S3-URI-Präfix der Lesesätze oder Sequenzspeicher, auf die zugegriffen wird, aktiviert. Danach kann der Bucket mithilfe des folgenden Pfads bereitgestellt werden:


mount-s3 access point arn local path to mount --prefix prefix to sequence store or read set --region region

Verwenden CloudFront mit HealthOmics

Amazon CloudFront ist ein Content Delivery Network (CDN) -Service, der auf hohe Leistung, Sicherheit und Entwicklerkomfort ausgelegt ist. Kunden, die diesen Service nutzen möchten, CloudFront müssen mit dem Serviceteam zusammenarbeiten, um den CloudFront Vertrieb zu aktivieren. Arbeiten Sie mit Ihrem Account-Team zusammen, um das HealthOmics Serviceteam zu engagieren.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Lesesätze exportieren

Read-Sets werden aktiviert