Versi AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Versi AWS Glue

Anda dapat mengonfigurasi parameter AWS Glue versi saat menambahkan atau memperbarui pekerjaan. AWS GlueVersi ini menentukan versi Apache Spark dan Python yang mendukung. AWS Glue Versi Python menunjukkan versi yang didukung untuk pekerjaan jenis Spark. Tabel berikut mencantumkan versi AWS Glue yang tersedia, versi Spark dan Python yang sesuai, dan perubahan fungsi lainnya.

Versi AWS Glue

AWS Glue versi Versi lingkungan runtime yang didukung Versi Java yang didukung Perubahan fungsionalitas
AWS Glue4.0 Versi lingkungan percikan
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue4.0 adalah versi terbaru dariAWS Glue. Ada beberapa pengoptimalan dan peningkatan yang dibangun ke dalam AWS Glue rilis ini, seperti:

  • Banyak peningkatan fungsionalitas Spark dari Spark 3.1 ke Spark 3.3:

    • Beberapa peningkatan fungsionalitas saat dipasangkan dengan Panda. Untuk informasi selengkapnya, lihat Apa yang Baru di Spark 3.3.

    • Pengoptimalan tambahan dikembangkan di Amazon EMR.

    • Tingkatkan ke Sistem File EMR (EMRFS) 2.53.

  • Migrasi Log4j 2 dari Log4j 1.x

  • Beberapa pembaruan modul Python dari AWS Glue 3.0, seperti versi upgrade dari Boto.

  • Upgrade beberapa konektor, termasuk konektor Amazon Redshift default. Lihat Lampiran C: Peningkatan konektor.

  • Upgrade beberapa driver JDBC. Lihat Lampiran B: Peningkatan driver JDBC.

  • Diperbarui dengan konektor Amazon Redshift baru dan driver JDBC.

  • Dukungan asli untuk kerangka kerja danau data terbuka dengan Apache Hudi, Delta Lake, dan Apache Iceberg.

  • Dukungan asli untuk Plugin Penyimpanan Cloud Shuffle berbasis Amazon S3 (plugin Apache Spark) untuk menggunakan Amazon S3 untuk pengocokan dan kapasitas penyimpanan elastis.

Batasan

Berikut ini adalah batasan dengan AWS Glue 4.0:

  • AWS Gluepembelajaran mesin dan transformasi informasi identifikasi pribadi (PII) belum tersedia di 4.0. AWS Glue

Untuk informasi selengkapnya tentang migrasi ke AWS Glue versi 4.0, lihatMigrasi AWS Glue untuk pekerjaan Spark ke versi 4.0 AWS Glue.

Versi lingkungan Ray
  • Sinar 2.4.0

    Python 3.9

N/A

Membangun dan menjalankan aplikasi Python terdistribusi dengan AWS Glue untuk Ray.

  • Mendukung distribusi data Ray-2.4.0 () ray[data] dengan Python 3.9. Untuk informasi lebih lanjut tentang rilis Ray ini, lihat Ray-2.4.0 di repositori Ray. GitHub

  • Mendukung pemasangan pustaka Python tambahan ke lingkungan runtime. Ray2.4 Untuk informasi selengkapnya, lihat Modul Python tambahan untuk pekerjaan Ray.

  • Mengintegrasikan log dan metrik dari pekerjaan Ray dengan Amazon. CloudWatch Untuk informasi selengkapnya, lihat Pemecahan masalah AWS Glue untuk kesalahan Ray dari log dan Memantau pekerjaan Ray dengan metrik.

  • Mengagregat dan memvisualisasikan metrik untuk pekerjaan Ray di AWS Glue Studio, di setiap halaman menjalankan pekerjaan.

  • Mendukung distribusi file ke setiap direktori kerja di seluruh cluster Anda, menumpahkan objek dari penyimpanan objek Ray ke Amazon S3, dan mengontrol jumlah minimum node pekerja yang dialokasikan untuk pekerjaan Ray Anda. Untuk informasi selengkapnya, lihat Menggunakan parameter pekerjaan di pekerjaan Ray.

Keterbatasan pada pekerjaan Ray di AWS Glue 4.0

  • AWS Glue sesi interaktif untuk Ray tetap dalam pratinjau untuk rilis ini.

  • AWS Glue untuk integrasi Ray dengan Amazon VPC saat ini tidak tersedia. Sumber daya dalam VPC tidak AWS akan dapat diakses tanpa rute umum. Untuk informasi selengkapnya tentang penggunaan AWS Glue dengan Amazon VPC, lihat. AWS Glue dan titik akhir VPC antarmuka (AWS PrivateLink)

  • AWS Glue untuk Ray tersedia di AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (Oregon), Asia Pasifik (Tokyo), dan Eropa (Irlandia).

AWS Glue3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Selain upgrade mesin Spark ke 3.0, ada pengoptimalan dan peningkatan yang dibangun ke dalam AWS Glue rilis ini, seperti:

  • Membangun Perpustakaan AWS Glue ETL terhadap Spark 3.0, yang merupakan rilis utama untuk Spark.

  • Pekerjaan streaming didukung pada AWS Glue 3.0.

  • Termasuk optimasi runtime AWS Glue Spark baru untuk kinerja dan keandalan:

    • Pemrosesan kolumnar dalam memori yang lebih cepat berdasarkan Apache Arrow untuk membaca data CSV.

    • Eksekusi berbasis SIM untuk pembacaan vektor dengan data CSV.

    • Peningkatan Spark juga mencakup pengoptimalan tambahan yang dikembangkan di Amazon EMR.

    • EMRFS yang ditingkatkan dari 2,38 menjadi 2,46 memungkinkan fitur baru dan perbaikan bug untuk akses Amazon S3.

  • Memutakhirkan beberapa dependensi yang diperlukan untuk versi Spark baru. Lihat Lampiran A: peningkatan ketergantungan penting.

  • Driver JDBC yang ditingkatkan untuk sumber data kami yang didukung secara native. Lihat Lampiran B: Peningkatan driver JDBC.

Batasan

Berikut ini adalah batasan dengan AWS Glue 3.0:

  • AWS GlueTransformasi pembelajaran mesin belum tersedia di AWS Glue 3.0.

  • Beberapa konektor Spark khusus tidak berfungsi dengan AWS Glue 3.0 jika bergantung pada Spark 2.4 dan tidak memiliki kompatibilitas dengan Spark 3.1.

Untuk informasi selengkapnya tentang migrasi ke AWS Glue versi 3.0, lihatMigrasi AWS Glue untuk pekerjaan Spark ke versi 3.0 AWS Glue.

AWS Glue2.0 (usang, akhir dukungan)
  • Spark versi 2.4.3

  • Python 3.7

N/A

Selain fitur yang disediakan dalam AWS Glue versi 1.0, AWS Glue versi 2.0 juga menyediakan:

  • Peningkatan infrastruktur untuk menjalankan tugas ETL Apache Spark di AWS Glue dengan waktu pemulaian yang berkurang.

  • Pencatatan default sekarang real time, dengan aliran terpisah untuk driver dan pelaksana, serta output dan kesalahan.

  • Support untuk menentukan modul Python tambahan atau versi yang berbeda pada tingkat tugas.

catatan

AWS Glueversi 2.0 berbeda dari AWS Glue versi 1.0 untuk beberapa dependensi dan versi karena perubahan arsitektur yang mendasarinya. Validasi AWS Glue pekerjaan Anda sebelum bermigrasi di seluruh rilis AWS Glue versi utama.

Untuk informasi selengkapnya tentang fitur dan batasan AWS Glue versi 2.0, lihatMenjalankan pekerjaan Spark ETL dengan waktu startup yang berkurang.

AWS Glue1.0 (usang, akhir dukungan)
  • Spark versi 2.4.3

  • Python 2.7

  • Python 3.6

N/A

Anda dapat menyimpan bookmark tugas untuk format Parket dan ORC di tugas ETL AWS Glue (menggunakan AWS Glue versi 1.0). Sebelumnya, Anda hanya dapat menandai format sumber Amazon S3 umum seperti JSON, CSV, Apache Avro, dan XMLdalam pekerjaan ETL. AWS Glue

Ketika menetapkan opsi format untuk input dan output ETL, Anda dapat menentukan untuk menggunakan Apache Avro pembaca/penulis format 1.8 untuk men-support penulisan dan pembacaan Avro jenis logis (menggunakan AWS Glue versi 1.0). Sebelumnya, hanya Avro pembaca/penulis format versi 1.7 yang didukung.

Jenis koneksi DynamoDB mendukung opsi penulis (AWS Gluemenggunakan versi 1.0).

Batasan

Berikut ini adalah batasan dengan AWS Glue 1.0:

  • AWS GlueVersi 0.9 dan 1.0 tidak tersedia di Asia Pasifik (Jakarta) (ap-southeast-3), Timur Tengah (UEA) (me-central-1), atau Wilayah baru lainnya di masa mendatang.

AWS Glue0.9 (usang, akhir dukungan)
  • Spark versi 2.2.1

  • Python 2.7

N/A

Pekerjaan yang dibuat tanpa menentukan AWS Glue versi default ke AWS Glue 0.9.

Batasan

Berikut ini adalah batasan dengan AWS Glue 0,9:

  • AWS GlueVersi 0.9 dan 1.0 tidak tersedia di Asia Pasifik (Jakarta) (ap-southeast-3), Timur Tengah (UEA) (me-central-1), atau Wilayah baru lainnya di masa mendatang.