サポートされる SerDes とデータ形式 - Amazon Athena

「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」

サポートされる SerDes とデータ形式

Athena では、テーブルの作成と CSV、TSV、カスタム区切り、JSON の各形式のデータのクエリをサポートしています。Hadoop 関連形式のデータです。ORC、Apache Avro、Parquet; ログは Logstash、AWS CloudTrail ログ、Apache WebServer ログを示します。

注記

このセクションに記載されている形式は Athena でデータの読み取りに使用されます。CTAS クエリの実行時に Athena がデータの書き込みに使用する形式については、「クエリ結果からのテーブルの作成 (CTAS)」を参照してください。

Athena で上記形式からテーブルの作成とデータのクエリを行うには、シリアライザー/デシリアライザークラス (SerDe) を指定して、使用する形式とデータの解析方法を Athena に指示します。

この表は、Athena でサポートされているデータ形式および対応する SerDe ライブラリの一覧です。

は、SerDe で使用するデータカタログにデータの処理方法を指示するカスタムライブラリです。Athenaタイプを指定するには、SerDe の ROW FORMAT ステートメントの CREATE TABLE 部分に明示的にリストします。Athenaでは、特定のタイプのデータ形式に対して一部の SerDe タイプがデフォルトで使用されるため、Athena 名を省略できる場合があります。SerDe

サポートされているデータ形式と SerDes
データ形式 説明 SerDe でサポートされている タイプ Athena

CSV (カンマ区切り値)

CSV のデータでは、各行がデータレコードを表し、各レコードはカンマで区切られた 1 つ以上のフィールドで構成されます。

TSV (タブ区切り値)

TSV のデータでは、各行がデータレコードを表し、各レコードはタブで区切られた 1 つ以上のフィールドで構成されます。

CSV、TSV、およびカスタム区切りファイルのLazySimpleSerDe を使用し、区切り文字を FIELDS TERMINATED BY '\t' に指定します。

カスタム区切り

この形式のデータでは、各行がデータレコードを表し、レコード間は 1 文字のカスタム区切り文字で区切られます。

CSV、TSV、およびカスタム区切りファイルのLazySimpleSerDe を使用し、1 文字のカスタム区切り文字を指定します。

JSON (JavaScript Object Notation)

JSON データでは、各行がデータレコードを表します。各レコードは属性/値のペアと配列で構成され、それぞれがカンマで区切られます。

Apache Avro

Hadoop にデータを保存する形式であり、JSON ベースのスキーマをレコード値として使用します。

表示 SerDe を使用する

ORC (Optimized Row Columnar)

Hive データの最適化された列指向ストレージの形式。

ORC SerDe および ZLIB 圧縮を使用します。

Apache Parquet

Hadoop のデータの列指向ストレージ形式。

Parquet SerDe および SNAPPY 圧縮を使用します。

Logstash ログ

Logstash にログを保存する形式。

Grok SerDe を使用する

Apache WebServer ログ

Apache WebServer にログを保存する形式。

Grok SerDe または 正規表現 SerDe を使用します。

CloudTrail ログ

CloudTrail にログを保存する形式。

  • CloudTrail SerDe を使用して、CloudTrail ログのほとんどのフィールドをクエリします。

  • サービスに依存する形式を持ついくつかのフィールドで OpenX JSON SerDe を使用します。詳細については、「CloudTrail SerDe」を参照してください。