Abfrage externer Daten mit Amazon Redshift Spectrum - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Abfrage externer Daten mit Amazon Redshift Spectrum

Mit Amazon Redshift Spectrum können Sie effektiv strukturierte und halbstrukturierte Daten aus Dateien in Amazon S3 abfragen und abrufen, ohne die Daten in Amazon-Redshift-Tabellen laden zu müssen. Redshift-Spectrum-Abfragen nutzen massive Parallelität zur sehr schnellen Ausführung bei sehr großen Datensätzen. Ein großer Teil der Verarbeitung findet auf der Redshift-Spectrum-Ebene statt, und die meisten Daten bleiben in Amazon S3. Mehrere Cluster können denselben Datensatz in Amazon S3 gleichzeitig abfragen, ohne dass Kopien der Daten für jeden Cluster erstellt werden müssen.

Übersicht zu Amazon Redshift Spectrum

Amazon Redshift Spectrum befindet sich auf dedizierten Amazon-Redshift-Servern, die von Ihrem Cluster unabhängig sind. Amazon Redshift verschiebt viele datenverarbeitungsintensive Aufgaben, wie etwa die Prädikatfilterung und -aggregierung, auf die Redshift-Spectrum-Ebene. So verwenden Redshift Spectrum-Abfragen viel weniger der Verarbeitungskapazität Ihres Clusters als andere Abfragen. Dazu kann Redshift Spectrum in intelligenter Weise skaliert werden. Auf der Grundlage der Anforderungen Ihrer Abfragen kann Redshift Spectrum potenziell Tausende von Instances nutzen und so sehr umfangreiche parallele Verarbeitungsmöglichkeiten bieten.

Sie erstellen Redshift Spectrum-Tabellen, indem Sie die Struktur für Ihre Dateien definieren und diese als Tabellen in einem externen Datenkatalog registrieren. Der externe Datenkatalog kann AWS Glue der im Lieferumfang von Amazon Athena enthaltene Datenkatalog oder Ihr eigener Apache Hive-Metastore sein. Sie können externe Tabellen von Amazon Redshift aus erstellen und verwalten, DDL-Befehle (Data Definition Language) nutzen oder jedes andere Tool verwenden, das sich mit dem externen Datenkatalog verbinden kann. Änderungen an dem externen Datenkatalog sind sofort für jeden Ihrer Amazon-Redshift-Cluster verfügbar.

Sie können optional die externen Tabellen auf einer oder mehreren Spalten partitionieren. Die Definition von Partitionen als Teil der externen Tabelle kann die Leistung verbessern. Diese Verbesserung beruht darauf, dass der Amazon-Redshift-Abfrageoptimierer Partitionen, die keine Daten für die Abfrage enthalten, entfernt.

Nachdem Ihre Redshift-Spectrum-Tabellen definiert wurden, können Sie die Tabellen wie jede andere Amazon-Redshift-Tabelle abfragen oder verbinden. Redshift Spectrum unterstützt keine Aktualisierungsvorgänge auf externen Tabellen. Sie können Redshift Spectrum-Tabellen zu mehreren Amazon Redshift Redshift-Clustern hinzufügen und dieselben Daten auf Amazon S3 von jedem Cluster in derselben AWS Region abfragen. Wenn Sie Amazon-S3-Datendateien aktualisieren, stehen diese Daten sofort zur Abfrage von allen Ihren Amazon-Redshift-Clustern aus zur Verfügung.

Der AWS Glue Datenkatalog, auf den Sie zugreifen, ist möglicherweise verschlüsselt, um die Sicherheit zu erhöhen. Wenn der AWS Glue Katalog verschlüsselt ist, benötigen Sie den Schlüssel AWS Key Management Service (AWS KMS) für AWS Glue , um auf den AWS Glue Katalog zuzugreifen. AWS Glue Die Katalogverschlüsselung ist nicht in allen AWS Regionen verfügbar. Eine Liste der unterstützten AWS Regionen finden Sie unter Verschlüsselung und sicheren Zugriff für AWS Glue im AWS Glue Entwicklerhandbuch.Weitere Informationen zur AWS Glue Datenkatalogverschlüsselung finden Sie unter Verschlüsseln Ihres AWS Glue Datenkatalogs im AWS Glue Entwicklerhandbuch.

Anmerkung

Sie können die Details für Redshift-Spectrum-Tabellen nicht mit den gleichen Ressourcen anzeigen, die Sie für Amazon-Redshift-Standardtabellen verwenden, wie PG_TABLE_DEF, STV_TBL_PERM, PG_CLASS oder information_schema. Wenn Ihr Business Intelligence- oder Analyse-Tool externe Redshift Spectrum-Tabellen nicht erkennt, konfigurieren Sie Ihre Anwendung für die Ausführung von Abfragen für SVV_EXTERNAL_TABLES und SVV_EXTERNAL_COLUMNS.

Amazon-Redshift-Spectrum-Regionen

Redshift Spectrum ist dort verfügbar AWS-Regionen , wo Amazon Redshift verfügbar ist, sofern in der regionsspezifischen Dokumentation nichts anderes angegeben ist. Informationen zur AWS-Region Verfügbarkeit in kommerziellen Regionen finden Sie unter Service-Endpunkte für die Redshift-API in der. Allgemeine Amazon Web Services-Referenz

Überlegungen zu Amazon Redshift Spectrum

Beachten Sie die folgenden Überlegungen bei der Verwendung von Amazon Redshift Spectrum:

  • Der Amazon Redshift Redshift-Cluster und der Amazon S3 S3-Bucket müssen sich in derselben AWS Region befinden.

  • Redshift Spectrum bietet keine Unterstützung für Enhanced VPC Routing mit bereitgestellten Clustern. Möglicherweise müssen Sie weitere Konfigurationsschritte ausführen, um auf Ihre Amazon-S3-Daten zuzugreifen. Weitere Informationen finden Sie unter Redshift Spectrum und Enhanced VPC Routing im Amazon-Redshift-Verwaltungshandbuch.

  • Redshift Spectrum unterstützt Amazon-S3-Zugriffspunkt-Aliase. Weitere Informationen finden Sie unter Verwenden eines Alias im Bucket-Stil für Ihren Zugriffspunkt im Amazon-Simple-Storage-Service-Benutzerhandbuch. Redshift Spectrum unterstützt jedoch keine VPC mit Amazon-S3-Zugriffspunkt-Aliase. Weitere Informationen finden Sie unter Redshift Spectrum und Enhanced VPC Routing im Amazon-Redshift-Verwaltungshandbuch.

  • Sie können keine Aktualisierungs- oder Löschoperationen für externe Tabellen ausführen. Um eine neue externe Tabelle im angegebenen Schema zu erstellen, können Sie CREATE EXTERNAL TABLE verwenden. Weitere Hinweise zu CREATE EXTERNAL TABLE finden Sie unter CREATE EXTERNAL TABLE. Um die Ergebnisse einer SELECT-Abfrage in vorhandene externe Tabellen in externen Katalogen einzufügen, können Sie INSERT (externe Tabelle) verwenden. Weitere Informationen zu INSERT (externe Tabelle) finden Sie unter INSERT (externe Tabelle).

  • Sofern Sie keine verwenden AWS Glue Data Catalog , die für AWS Lake Formation aktiviert ist, können Sie Benutzerberechtigungen für eine externe Tabelle nicht steuern. Sie gewähren oder widerrufen stattdessen die Berechtigungen für das externe Schema. Weitere Informationen zur Arbeit mit AWS Lake Formation finden Sie unterVerwenden von Redshift Spectrum mit AWS Lake Formation.

  • Um Redshift Spectrum-Abfragen auszuführen, benötigt der Datenbankbenutzer die Berechtigung, temporäre Tabellen in der Datenbank zu erstellen. Das folgende Beispiel erteilt der Benutzergruppe spectrumdb temporäre Berechtigungen für die Datenbank spectrumusers.

    grant temp on database spectrumdb to group spectrumusers;

    Weitere Informationen finden Sie unter GRANT.

  • Wenn Sie den Athena-Datenkatalog oder den AWS Glue Datenkatalog als Metadatenspeicher verwenden, finden Sie weitere Informationen unter Kontingente und Grenzwerte im Amazon Redshift Management Guide.

  • Redshift Spectrum unterstützt Amazon EMR nicht mit Kerberos.