查詢您的資料湖 - Amazon Redshift

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

查詢您的資料湖

您可以使用 Amazon Redshift Spectrum 查詢 Amazon S3 檔案中的資料,而無需將資料載入 Amazon Redshift 資料表。Amazon Redshift 提供專為儲存在 Amazon Redshift 叢集和 Amazon S3 資料湖中的非常大型資料集的快速線上分析處理 (OLAP) 而設計的SQL功能。您可以查詢多種格式的資料,包括實木地板ORCRCFile TextFile、、 SequenceFile、 RegexSerde、、CSV、開啟和AVRO。若要在 Amazon S3 中定義檔案的結構,請建立外部結構描述和資料表。然後,您可以使用外部資料目錄,例如 AWS Glue 或您自己的 Apache Hive 中繼存放區。您的任何 Amazon Redshift 叢集都可以立即變更外部資料目錄。

在資料目錄中註冊並啟用 AWS Glue 資料之後 AWS Lake Formation,您可以使用 Redshift Spectrum 進行查詢。

Redshift Spectrum 位於獨立於您叢集之外的專屬 Amazon Redshift 伺服器上。Redshift Spectrum 會推送許多 (例如述詞篩選和彙整等) 運算密集的工作到 Redshift Spectrum 層。Redshift Spectrum 還可以智智慧擴充以利用大規模並行處理。

您可以在一或多個欄上對外部資料表進行分割,以最佳化資料分割的查詢效能。您可以使用 Amazon Redshift 資料表查詢和連接外部資料表。您可以從多個 Amazon Redshift 叢集存取外部表格,並從同一 AWS 區域中的任何叢集查詢 Amazon S3 資料。當您更新 Amazon S3 資料檔案時,資料可立即從任何 Amazon Redshift 叢集進行查詢。

如需 Redshift Spectrum 的相關資訊,包括如何使用 Redshift Spectrum 和資料湖,請參閱《Amazon Redshift 資料庫開發人員指南》中的 Amazon Redshift Spectrum 入門