Erste Schritte zum Abfragen Ihres Data Lake - Amazon Redshift

Erste Schritte zum Abfragen Ihres Data Lake

Mit Amazon Redshift Spectrum können Sie Daten in Amazon-S3-Dateien abfragen, ohne die Daten in Amazon-Redshift-Tabellen laden zu müssen. Sie können Daten in vielen Formaten abfragen, darunter Parquet, ORC, RCFile, TextFile, SequenceFile, RegexSerde, OpenCSV und AVRO. Um die Struktur der Dateien in Amazon S3 zu definieren, erstellen Sie externe Schemata und Tabellen. Anschließend verwenden Sie einen externen Datenkatalog wie AWS Glue oder Ihren eigenen Apache-Hive-Metastore. Änderungen an einem der Datenkatalogtypen sind sofort für jeden Ihrer Amazon-Redshift-Cluster verfügbar.

Nachdem Ihre Daten bei einem AWS Glue-Datenkatalog registriert und mit AWS Lake Formation aktiviert wurden, können Sie sie mit Redshift Spectrum abfragen.

Redshift Spectrum befindet sich auf dedizierten Amazon-Redshift-Servern, die von Ihrem Cluster unabhängig sind. Redshift Spectrum verschiebt viele datenverarbeitungsintensive Aufgaben, wie etwa die Prädikatfilterung und -aggregierung, auf die Redshift-Spectrum-Ebene. Redshift Spectrum lässt sich auch intelligent skalieren, um die Vorteile der massiv parallelen Verarbeitung zu nutzen.

Sie können die externen Tabellen in einer oder mehreren Spalten partitionieren, um die Abfrageleistung durch Partitionseliminierung zu optimieren. Sie können die externen Tabellen mit Amazon-Redshift-Tabellen abfragen und verknüpfen. Sie können externe Tabellen von mehreren Amazon-Redshift-Clustern abrufen und die Amazon-S3-Daten aus jedem Cluster in derselben AWS-Region abfragen. Wenn Sie Amazon-S3-Datendateien aktualisieren, stehen diese Daten sofort zur Abfrage von allen Ihren Amazon-Redshift-Clustern aus zur Verfügung.

Weitere Informationen zu Redshift Spectrum, einschließlich zur Arbeit mit Redshift Spectrum und Data Lakes, finden Sie unter Erste Schritte mit Amazon Redshift Spectrum im Datenbankentwicklerhandbuch zu Amazon Redshift.