本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SerDe 為您的資料選擇
下表列出 Athena 支援的資料格式及其對應的程式 SerDe 庫。
資料格式 | 描述 | SerDe Athena 支援的類型 |
---|---|---|
Amazon Ion | Amazon Ion 是一種類型豐富的自我描述資料格式,是 Amazon 開發和開放原始碼的JSON超集合。 | 使用 Amazon 離子蜂巢 SerDe。 |
Apache Avro |
在 Hadoop 中儲存資料的格式,該格式使用JSON基於結構描述的記錄值。 |
使用 阿夫羅 SerDe。 |
Apache Parquet |
Hadoop 中的資料的單欄式儲存格式。 |
使用木地板 SerDe和SNAPPY壓縮。 |
阿帕奇 WebServer 日志 |
一種在 Apache 中存儲日誌的格式 WebServer。 |
使用 GROK SerDe 或 正則表 SerDe。 |
CloudTrail 日誌 |
用於儲存記錄的格式 CloudTrail。 |
|
CSV(逗號分隔值) |
對於中的資料CSV,每一行代表一個資料記錄,每個記錄由一個或多個欄位組成,以逗號分隔。 |
|
自訂分隔 |
對於此格式的資料,每一行代表一筆資料記錄,而記錄以自訂單一字元分隔符號隔開。 |
使用 懶惰簡單 SerDe 的 CSVTSV,和自定義分隔的文件,並指定自訂單一字元分隔符號。 |
JSON(JavaScript 對象符號) |
對於JSON數據,每一行代表一個數據記錄,每個記錄由屬性-值對和數組組成,用逗號分隔。 |
|
Logstash 日誌 |
Logstash 中存放日誌的格式。 |
使用 GROK SerDe。 |
ORC(最佳化列欄) |
Hive 資料的最佳化單欄式儲存格式。 |
使用ORC SerDe和ZLIB壓縮。 |
TSV(定位點分隔值) |
對於中的資料TSV,每一行代表一個資料記錄,每個記錄由一個或多個欄位組成,並以定位字元分隔。 |
使用 懶惰簡單 SerDe 的 CSVTSV,和自定義分隔的文件,並將分隔符號字元指定為 |