支援的 SerDes 和資料格式 - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的 SerDes 和資料格式

Athena 支援建立資料表和查詢 CSV、TSV、自訂分隔和 JSON 格式的資料;Hadoop 相關格式的資料:ORC、Apache Avro 和 Parquet;來自 Logstash 的日誌、AWS CloudTrail 日誌和 Apache WebServer 日誌。

注意

本節所列的格式由 Athena 用於讀取資料。如需有關 Athena 執行 CTAS 查詢時用於寫入資料的格式的資訊,請參閱 從查詢結果建立資料表 (CTAS)

若要在 Athena 中建立資料表和查詢這些格式的資料,請指定序列化程式-還原序列化程式類別 (SerDe),讓 Athena 知道使用何種格式及如何剖析資料。

下表列出 Athena 中支援的資料格式及其對應的 SerDe 程式庫。

SerDe 是自訂程式庫,可指示 Athena 所用的資料目錄如何處理資料。若要指定 SerDe 類型,請在 Athena 中,在 CREATE TABLE 陳述式的 ROW FORMAT 部分中明確列出 SerDe 類型。在某些情況下,您可以省略 SerDe 名稱,因為對於某些類型的資料格式,Athena 預設會使用一些 SerDe 類型。

支援的資料格式和 SerDes
資料格式 說明 Athena 中支援的 SerDe 類型
Amazon Ion Amazon Ion 是由 Amazon 開發及開放原始碼的豐富類型、自行描述的資料格式,是 JSON 的超集。 使用 Amazon Ion Hive SerDe

Apache Avro

Hadoop 中用於存放資料的格式,使用以 JSON 為基礎的結構描述來存放記錄值。

使用 Avro SerDe

Apache Parquet

Hadoop 中的資料的單欄式儲存格式。

使用 木地板 SerDe 和 SNAPPY 壓縮。

Apache WebServer 日誌

Apache WebServer 中存放日誌的格式。

使用 GROK SerDe正則表 SerDe

CloudTrail日誌

CloudTrail 中存放日誌的格式。

CSV (逗號分隔值)

對於 CSV 的資料,每一行代表一筆資料記錄,而每一筆記錄由一或多個欄位組成 (以逗號分隔)。

自訂分隔

對於此格式的資料,每一行代表一筆資料記錄,而記錄以自訂單一字元分隔符號隔開。

使用 LazySimpleSerDe 適用於 CSV、TSV 和自訂分隔檔案,並指定自訂單一字元分隔符號。

JSON (JavaScript 物件標記法)

對於 JSON 資料,每一行代表一筆資料記錄,而每一筆記錄由屬性/值對組成 (以逗號分隔)。

Logstash 日誌

Logstash 中存放日誌的格式。

使用 GROK SerDe

ORC (Optimized Row Columnar,最佳化列單欄式)

Hive 資料的最佳化單欄式儲存格式。

使用 獸人 SerDe 和 ZLIB 壓縮。

TSV (定位字元分隔值)

對於 TSV 的資料,每一行代表一筆資料記錄,而每一筆記錄由一或多個欄位組成 (以定位字元分隔)。

使用 LazySimpleSerDe 適用於 CSV、TSV 和自訂分隔檔案,並將分隔符號字元指定為 FIELDS TERMINATED BY '\t'