Format yang didukung SerDes dan data - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Format yang didukung SerDes dan data

Athena mendukung pembuatan tabel dan kueri data dariCSV,, dibatasi khususTSV, dan format; data dari JSON format terkait Hadoop:, Apache Avro dan Parquet; log dari LogstashORC, log, dan log Apache. AWS CloudTrail WebServer

catatan

Format yang tercantum dalam bagian ini digunakan oleh Athena untuk membaca data. Untuk informasi tentang format yang digunakan Athena untuk menulis data saat menjalankan CTAS kueri, lihat. Membuat tabel dari hasil query (CTAS)

Untuk membuat tabel dan data kueri dalam format ini di Athena, tentukan kelas serializer-deserializer (SerDe) sehingga Athena tahu format mana yang digunakan dan cara mengurai data.

Tabel ini mencantumkan format data yang didukung di Athena dan pustaka yang sesuai SerDe.

A SerDe adalah pustaka khusus yang memberi tahu katalog data yang digunakan oleh Athena cara menangani data. Anda menentukan SerDe jenis dengan mencantumkannya secara eksplisit di ROW FORMAT bagian CREATE TABLE pernyataan Anda di Athena. Dalam beberapa kasus, Anda dapat menghilangkan SerDe nama karena Athena menggunakan SerDe beberapa jenis secara default untuk jenis format data tertentu.

Format data yang didukung dan SerDes
Format data Deskripsi SerDe jenis yang didukung di Athena
Amazon Ion Amazon Ion adalah format data yang kaya ketik dan mendeskripsikan diri yang merupakan superset, JSON dikembangkan, dan bersumber terbuka oleh Amazon. Gunakan Sarang Ion Amazon SerDe.

Apache Avro

Format untuk menyimpan data di Hadoop yang menggunakan skema JSON berbasis untuk nilai rekaman.

Gunakan AvroSerDe.

Apache Parquet

Sebuah format untuk penyimpanan kolumnar data di Hadoop.

Gunakan Parket SerDe dan SNAPPY kompresi.

Log Apache WebServer

Format untuk menyimpan log di Apache WebServer.

Gunakan Grok SerDe atauRegex SerDe.

CloudTrail log

Format untuk menyimpan log masuk CloudTrail.

CSV(Nilai yang Dipisahkan Koma)

Untuk data diCSV, setiap baris mewakili catatan data, dan setiap catatan terdiri dari satu atau lebih bidang, dipisahkan dengan koma.

Dibatasi Khusus

Untuk data dalam format ini, setiap baris mewakili catatan data, dan catatan dipisahkan oleh pembatas karakter tunggal kustom.

Gunakan LazySimpleSerDe untuk CSV, TSV, dan file yang dibatasi khusus dan tentukan pembatas karakter tunggal kustom.

JSON(Notasi JavaScript Objek)

Untuk JSON data, setiap baris mewakili catatan data, dan setiap catatan terdiri dari pasangan nilai atribut dan array, dipisahkan dengan koma.

Log logstash

Format untuk menyimpan log di Logstash.

Gunakan Grok SerDe.

ORC(Kolom Baris yang Dioptimalkan)

Format untuk penyimpanan kolumnar data Hive yang dioptimalkan.

Gunakan ORC SerDe dan ZLIB kompresi.

TSV(Nilai yang Dipisahkan Tab)

Untuk data diTSV, setiap baris mewakili catatan data, dan setiap catatan terdiri dari satu atau lebih bidang, dipisahkan oleh tab.

Gunakan LazySimpleSerDe untuk CSV, TSV, dan file yang dibatasi khusus dan tentukan karakter pemisah sebagaiFIELDS TERMINATED BY '\t'.