Features von S3 Tables Zugehörige Services

Arbeiten mit Amazon S3 Tables und Tabellen-Buckets

Amazon S3 Tables bieten S3-Speicher, der für Analyse-Workloads optimiert ist und über Features verfügt, die darauf ausgelegt sind, die Abfrageleistung kontinuierlich zu verbessern und die Speicherkosten für Tabellen zu senken. S3 Tables wurden speziell für die Speicherung von tabellarischen Daten wie täglichen Kauftransaktionen, Streaming-Sensordaten oder Anzeigenimpressionen entwickelt. Tabellarische Daten stellen Daten in Spalten und Zeilen dar, wie in einer Datenbanktabelle.

Die Daten in S3 Tables werden in einem neuen Bucket-Typ gespeichert: einem Tabellen-Bucket, der Tabellen als Unterressourcen speichert. Tabellen-Buckets unterstützen das Speichern von Tabellen in Apache Iceberg . Mithilfe von Standard-SQL-Anweisungen können Sie Ihre Tabellen mit Abfrage-Engines abfragen, die Iceberg, wie Amazon Athena, Amazon Redshift und Apache Spark.

Themen

Features von S3 Tables

Speziell entwickelter Speicher für Tabellen

S3-Tabellen-Buckets wurden speziell für Tabellen entwickelt. Tabellen-Buckets bieten bieten eine höhere TPS-Rate (Transaktionen pro Sekunde) und einen besseren Abfragedurchsatz als selbstverwaltete Tabellen in Allzweck-S3-Buckets. Tabellen-Buckets bieten dieselbe Beständigkeit, Verfügbarkeit und Skalierbarkeit wie andere Bucket-Typen in Amazon S3.

Integrierte Unterstützung für Apache Iceberg

Tabellen in Ihren Tabellen-Buckets werden gespeichert in Apache IcebergFormat. Sie können diese Tabellen mit Standard-SQL in Abfrage-Engines abfragen, die Folgendes unterstützen Iceberg. Iceberg verfügt über eine Vielzahl von Funktionen zur Optimierung der Abfrageleistung, einschließlich Schemaentwicklung und Partitionsentwicklung.

Mit Iceberg, können Sie die Organisation Ihrer Daten ändern, sodass sie sich im Laufe der Zeit weiterentwickeln können, ohne dass Sie Ihre Abfragen neu schreiben oder Ihre Datenstrukturen neu erstellen müssen. Iceberg ist darauf ausgelegt, Datenkonsistenz und Zuverlässigkeit zu gewährleisten, indem es Transaktionen unterstützt. Damit Sie Probleme beheben und Zeitreiseabfragen durchführen können, haben Sie die Möglichkeit, nachzuverfolgen, wie sich Daten im Laufe der Zeit ändern, und Rollbacks auf Verlaufsversionen durchzuführen.

Automatisierte Tabellenoptimierung

Um Ihre Tabellen für Abfragen zu optimieren, führt S3 kontinuierlich automatische Wartungsvorgänge wie Komprimierung, Snapshot-Verwaltung und Entfernung nicht referenzierter Dateien durch. Diese Operationen erhöhen die Tabellenleistung, indem kleinere Objekte in weniger, größere Dateien komprimiert werden. Wartungsarbeiten reduzieren auch Ihre Speicherkosten, da ungenutzte Objekte entfernt werden. Diese automatisierte Wartung optimiert den Betrieb von Data Lakes in großem Maßstab, indem der Bedarf an manueller Tabellenpflege reduziert wird. Für jede Tabelle und jeden Tabellen-Bucket können Sie die Wartungskonfigurationen anpassen.

Zugriffsverwaltung und Sicherheit

Sie können den Zugriff für Tabellen-Buckets und einzelne Tabellen mit AWS Identity and Access Management (IAM)-Richtlinien und Service-Kontrollrichtlinien in AWS Organizations verwalten. S3 Tables verwendet einen anderen Service-Namespace als Amazon S3: den Namespace s3tables. Daher können Sie Richtlinien speziell für den S3-Tables-Service und seine Ressourcen entwerfen. Sie können Richtlinien entwerfen, um Zugriff auf einzelne Tabellen, alle Tabellen innerhalb eines Tabellen-Namespace oder ganze Tabellen-Buckets zu erteilen. Alle Einstellungen von Amazon S3 Block Public Access sind für Table-Buckets immer aktiviert und können nicht deaktiviert werden.

Integration mit AWS Analysediensten

Sie können Ihre Amazon S3 S3-Tabellen-Buckets automatisch über die S3-Konsole in Amazon SageMaker Lakehouse integrieren. Diese Integration ermöglicht es AWS Analysediensten, Ihre Tabellendaten automatisch zu erkennen und auf diese zuzugreifen. AWS Glue Data Catalog Nach der Integration können Sie mithilfe von Analysediensten wie Amazon Athena, Amazon Redshift und mehr mit Ihren Tabellen arbeiten. QuickSight Weitere Informationen zur Funktionsweise der Integration finden Sie unter. Integration von Amazon S3 S3-Tabellen mit AWS Analysediensten

Zugehörige Services

Sie können Folgendes AWS-Services mit S3-Tabellen verwenden, um Ihre spezifischen Analyseanwendungen zu unterstützen.

Amazon Athena – Athena ist ein interaktiver Abfrageservice, den Sie nutzen können, um mit Standard-SQL Daten direkt in Amazon S3 zu analysieren. Sie können Athena auch verwenden, um Datenanalysen interaktiv auszuführen, indem Sie Apache Spark ohne Ressourcen planen, konfigurieren oder verwalten zu müssen. Wenn du rennst Apache Spark Bewerbungen auf Athena reichen Sie ein Spark Code für die Verarbeitung und direkt die Ergebnisse erhalten.
AWS Glue— AWS Glue ist ein serverloser Datenintegrationsdienst, mit dem Sie Daten aus mehreren Quellen ermitteln, aufbereiten, verschieben und integrieren können. Sie können ihn AWS Glue für Analysen, maschinelles Lernen (ML) und Anwendungsentwicklung verwenden. AWS Glue umfasst außerdem zusätzliche Tools für Produktivität und Datenoperationen für die Erstellung, Ausführung von Jobs und Implementierung von Geschäftsabläufen.
Amazon EMR — Amazon EMR ist eine verwaltete Cluster-Plattform, die den Betrieb von Big-Data-Frameworks vereinfacht, wie Apache Hadoop and Apache Spark, AWS um riesige Datenmengen zu verarbeiten und zu analysieren.
Amazon Redshift – Amazon Redshift ist ein Data-Warehouse-Service in Petabytegröße in der Cloud. Sie können Amazon Redshift Serverless verwenden, um auf Daten zuzugreifen und diese zu analysieren, ohne alle Konfigurationen eines bereitgestellten Data Warehouse verwenden zu müssen. Ressourcen werden automatisch bereitgestellt und die Data-Warehouse-Kapazität wird intelligent skaliert, um eine schnelle Leistung selbst für anspruchsvollste und unvorhersehbare Workloads zu erzielen. Es fallen keine Kosten an, wenn das Data Warehouse inaktiv ist, Sie zahlen also nur für das, was Sie tatsächlich nutzen. Sie können Daten laden und sofort mit der Abfrage beginnen. Hierfür können Sie Amazon Redshift Query Editor v2 oder Ihr bevorzugtes Business Intelligence (BI)-Tool nutzen.
QuickSight— QuickSight ist ein Geschäftsanalyse-Service, mit dem Sie Visualisierungen erstellen, Ad-hoc-Analysen durchführen und schnell geschäftliche Erkenntnisse aus Ihren Daten gewinnen können. QuickSight Die QuickSight superschnelle, parallele, In-Memory-Calculation Engine (SPICE) ermöglicht eine nahtlose Erkennung von AWS Datenquellen und ermöglicht eine schnelle und reaktionsschnelle Abfrageleistung.
AWS Lake Formation— Lake Formation ist ein verwalteter Service, der den Prozess zur Einrichtung, Sicherung und Verwaltung Ihrer Data Lakes optimiert. Lake Formation unterstützt Sie bei der Erkennung Ihrer Datenquellen und der anschließenden Katalogisierung, Bereinigung und Transformation der Daten. Mit Lake Formation erhalten Sie eine detaillierte Zugriffskontrolle für Ihre Data Lake-Daten auf Amazon S3 und deren Metadaten in AWS Glue Data Catalog.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Belastbarkeitstests

Tutorial: Erste Schritte mit S3 Tables