SerDe 為您的資料選擇 - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SerDe 為您的資料選擇

下表列出 Athena 支援的資料格式及其對應的程式 SerDe 庫。

支援的資料格式和 SerDes
資料格式 描述 SerDe Athena 支援的類型
Amazon Ion Amazon Ion 是一種類型豐富的自我描述資料格式,是 Amazon 開發和開放原始碼的JSON超集合。 使用 Amazon 離子蜂巢 SerDe

Apache Avro

在 Hadoop 中儲存資料的格式,該格式使用JSON基於結構描述的記錄值。

使用 阿夫羅 SerDe

Apache Parquet

Hadoop 中的資料的單欄式儲存格式。

使用木地板 SerDe和SNAPPY壓縮。

阿帕奇 WebServer 日志

一種在 Apache 中存儲日誌的格式 WebServer。

使用 GROK SerDe正則表 SerDe

CloudTrail 日誌

用於儲存記錄的格式 CloudTrail。

CSV(逗號分隔值)

對於中的資料CSV,每一行代表一個資料記錄,每個記錄由一個或多個欄位組成,以逗號分隔。

自訂分隔

對於此格式的資料,每一行代表一筆資料記錄,而記錄以自訂單一字元分隔符號隔開。

使用 懶惰簡單 SerDe 的 CSVTSV,和自定義分隔的文件,並指定自訂單一字元分隔符號。

JSON(JavaScript 對象符號)

對於JSON數據,每一行代表一個數據記錄,每個記錄由屬性-值對和數組組成,用逗號分隔。

Logstash 日誌

Logstash 中存放日誌的格式。

使用 GROK SerDe

ORC(最佳化列欄)

Hive 資料的最佳化單欄式儲存格式。

使用ORC SerDe和ZLIB壓縮。

TSV(定位點分隔值)

對於中的資料TSV,每一行代表一個資料記錄,每個記錄由一個或多個欄位組成,並以定位字元分隔。

使用 懶惰簡單 SerDe 的 CSVTSV,和自定義分隔的文件,並將分隔符號字元指定為 FIELDS TERMINATED BY '\t'