Bekerja dengan pekerjaan di AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bekerja dengan pekerjaan di AWS Glue

AWS Glue Pekerjaan merangkum skrip yang terhubung ke data sumber Anda, memprosesnya, dan kemudian menuliskannya ke target data Anda. Biasanya, pekerjaan menjalankan skrip ekstrak, transformasi, dan load (ETL). Tugas juga dapat menjalankan skrip Python tujuan umum (tugas shell Python.) pemicu AWS Glue dapat memulai tugas berdasarkan jadwal atau peristiwa, atau sesuai permintaan. Anda dapat memantau eksekusi tugas untuk memahami metrik waktu aktif seperti status penyelesaian, durasi, dan waktu mulai.

Anda dapat menggunakan skrip yang AWS Glue menghasilkan atau Anda dapat menyediakan skrip Anda sendiri. Dengan skema sumber dan lokasi target atau skema, pembuat AWS Glue kode dapat secara otomatis membuat skrip Apache Spark API (). PySpark Anda dapat menggunakan skrip ini sebagai titik awal dan mengedit skrip tersebut untuk memenuhi tujuan Anda.

AWS Glue dapat menulis file output dalam beberapa format data, termasuk JSONCSV, ORC (Optimized Row Columnar), Apache Parquet, dan Apache Avro. Untuk beberapa format data, format-format kompresi umum dapat ditulis.

AWS Glue mendukung jenis pekerjaan berikut:

  • Pekerjaan Spark dijalankan di lingkungan Apache Spark yang dikelola oleh. AWS Glue Tugas ini memproses data dalam batch.

  • ETLPekerjaan streaming mirip dengan pekerjaan Spark, kecuali bahwa ia bekerja ETL pada aliran data. Menggunakan kerangka kerja Apache Spark Structured Streaming. Beberapa fitur pekerjaan Spark tidak tersedia untuk ETL pekerjaan streaming.

  • Pekerjaan shell Python menjalankan skrip Python sebagai shell dan mendukung versi Python yang bergantung pada versi yang Anda gunakan. AWS Glue Anda dapat menggunakan tugas ini untuk menjadwalkan dan menjalankan tugas-tugas yang tidak memerlukan lingkungan Apache Spark.

  • Ray adalah kerangka kerja komputasi terdistribusi open-source yang dapat Anda gunakan untuk meningkatkan beban kerja, dengan fokus pada Python. AWS Glue Pekerjaan Ray dan sesi interaktif memungkinkan Anda menggunakan Ray di dalamnya AWS Glue.

Bagian berikut memberikan informasi tentang ETL dan pekerjaan Ray di AWS Glue.