Menggunakan format Ion di AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan format Ion di AWS Glue

AWSGlue mengambil data dari sumber dan menulis data ke target yang disimpan dan diangkut dalam berbagai format data. Jika data Anda disimpan atau diangkut dalam format data Ion, dokumen ini memperkenalkan fitur yang tersedia untuk menggunakan data Anda di GlueAWS.

AWSGlue mendukung menggunakan format Ion. Format ini mewakili struktur data (yang tidak berbasis baris atau kolom) dalam representasi biner dan teks biasa yang dapat dipertukarkan. Untuk pengenalan format oleh penulis, lihat Amazon Ion. (Untuk informasi lebih lanjut, lihat Spesifikasi Amazon Ion.)

Anda dapat menggunakan AWS Glue untuk membaca file Ion dari Amazon S3. Anda dapat membaca bzip dan gzip mengarsipkan yang berisi file Ion dari S3. Anda mengonfigurasi perilaku kompresi pada Parameter koneksi S3 alih-alih dalam konfigurasi yang dibahas di halaman ini.

Tabel berikut menunjukkan operasi AWS Glue umum mana yang mendukung opsi format Ion.

Baca Tulis Streaming dibaca Kelompokkan file kecil Bookmark tugas
Didukung Tidak didukung Tidak didukung Didukung Tidak didukung

Contoh: Baca file dan folder Ion dari S3

Prasyarat: Anda akan memerlukan jalur S3 (s3path) ke file Ion atau folder yang ingin Anda baca.

Konfigurasi: Dalam opsi fungsi Anda, tentukanformat="json". Dalam Andaconnection_options, gunakan paths kunci untuk menentukan Andas3path. Anda dapat mengonfigurasi bagaimana pembaca berinteraksi dengan S3 di file. connection_options Untuk detailnya, lihat Jenis dan opsi koneksi untuk ETL di AWS Glue:Referensi opsi koneksi Amazon S3.

Skrip AWS Glue ETL berikut menunjukkan proses membaca file Ion atau folder dari S3:

Python

Untuk contoh ini, gunakan metode create_dynamic_frame.from_options.

# Example: Read ION from S3 from pyspark.context import SparkContext from awsglue.context import GlueContext sc = SparkContext.getOrCreate() glueContext = GlueContext(sc) dynamicFrame = glueContext.create_dynamic_frame.from_options( connection_type="s3", connection_options={"paths": ["s3://s3path"]}, format="ion" )
Scala

Untuk contoh ini, gunakan operasi getSourceWithFormat.

// Example: Read ION from S3 import com.amazonaws.services.glue.util.JsonOptions import com.amazonaws.services.glue.GlueContext import org.apache.spark.SparkContext object GlueApp { def main(sysArgs: Array[String]): Unit = { val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark) val dynamicFrame = glueContext.getSourceWithFormat( connectionType="s3", format="ion", options=JsonOptions("""{"paths": ["s3://s3path"], "recurse": true}""") ).getDynamicFrame() } }

Referensi konfigurasi ion

Tidak ada nilai format_options untuk format="ion".