メニュー
Amazon Athena
ユーザーガイド

サポートされる SerDes およびデータ形式

Athena は、次のファイルからのテーブルの作成とデータのクエリをサポートしています: CSV、TSV、カスタム区切り、JSON の各形式のファイル、Hadoop 関連形式 (ORC、Apache Avro、Parquet) のファイル、および Logstash、AWS CloudTrail ログ、Apache WebServer ログのログファイル。

Athena で上記形式のファイルからテーブルの作成とデータのクエリを行うには、シリアライザー/デシリアライザークラス (SerDe) を指定して、使用する形式とデータの解析方法を Athena に指示します。

次の表は、Athena でサポートされているデータ形式および対応する SerDe ライブラリの一覧です。

SerDe は、Athena で使用されているデータカタログに対してデータの処理方法を指示するカスタムライブラリです。SerDe タイプを指定するには、Athena で CREATE TABLE ステートメントの ROW FORMAT 部分に明示的に SerDe 名を追加します。SerDe 名を省略できる場合もあります。ファイル形式によっては、Athena でデフォルトで特定の SerDe タイプが使用されるためです。

サポートされるデータ形式と SerDe

データ形式 説明 Athena でサポートされる SerDe タイプ

CSV (カンマ区切り値)

CSV ファイルでは、各行がデータレコードを表し、各レコードはコンマで区切られた 1 つ以上のフィールドで構成されます。

TSV (タブ区切り値)

TSV ファイルでは、各行がデータレコードを表し、各レコードはタブで区切られた 1 つ以上のフィールドで構成されます。

CSV、TSV、およびカスタム区切りファイル用の LazySimpleSerDe を使用し、区切り文字を FIELDS TERMINATED BY '\t' として指定します。

カスタム区切りファイル

このファイル形式では、各行がデータレコードを表し、レコード間はカスタム区切り記号で区切られます。

CSV、TSV、およびカスタム区切りファイル用の LazySimpleSerDe を使用し、カスタム区切り記号を指定します。

JSON (JavaScript Object Notation)

JSON ファイルでは、各行がデータレコードを表します。各レコードは属性/値のペアと配列で構成され、それぞれがカンマで区切られます。

Apache Avro

Hadoop にデータを保存する形式であり、JSON ベースのスキーマをレコード値として使用します。

Avro SerDe を使用します。

ORC (Optimized Row Columnar)

Hive データの最適化された列指向ストレージの形式。

ORC SerDe および ZLIB 圧縮を使用します。

Apache Parquet

Hadoop のデータの列指向ストレージ形式。

Parquet SerDe および SNAPPY 圧縮を使用します。

Logstash ログファイル

Logstash にログファイルを保存する形式。

Grok SerDe を使用します。

Apache WebServer ログファイル

Apache WebServer にログファイルを保存する形式。

Apache Web Server ログの処理用の RegexSerDe を使用します。

CloudTrail ログファイル

CloudTrail にログファイルを保存する形式。

  • CloudTrail SerDe を使用して CloudTrail ログの大半のフィールドをクエリします。

  • サービスに依存する形式を持ついくつかのフィールドで OpenX JSON SerDe を使用します。詳細については、「CloudTrail SerDe」を参照してください。