AWS Sistem tipe Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Sistem tipe Glue

AWS Glue menggunakan beberapa jenis sistem untuk menyediakan antarmuka serbaguna melalui sistem data yang menyimpan data dengan cara yang sangat berbeda. Dokumen ini membedakan sistem tipe AWS Glue dan standar data.

AWS Jenis Katalog Data Glue

Katalog Data adalah registri tabel dan bidang yang disimpan dalam berbagai sistem data, metastore. Ketika komponen AWS Glue, seperti AWS Glue crawler dan AWS Glue with Spark jobs, menulis ke Katalog Data, mereka melakukannya dengan sistem tipe internal untuk melacak jenis bidang. Nilai-nilai ini ditampilkan di kolom Tipe data dari skema tabel di AWS Glue Console. Sistem tipe ini didasarkan pada sistem tipe Apache Hive. Untuk informasi selengkapnya tentang sistem tipe Apache Hive, lihat Jenis di wiki Apache Hive. Untuk informasi lebih lanjut tentang jenis dan dukungan tertentu, contoh disediakan di AWS Glue Console, sebagai bagian dari Schema Builder.

Validasi, kompatibilitas, dan penggunaan lainnya

Katalog Data tidak memvalidasi jenis yang ditulis untuk mengetik bidang. Ketika komponen AWS Glue membaca dan menulis ke Katalog Data, mereka akan kompatibel satu sama lain. AWS Komponen Glue juga bertujuan untuk menjaga kompatibilitas tingkat tinggi dengan jenis Hive. Namun, komponen AWS Glue tidak menjamin kompatibilitas dengan semua jenis Hive. Ini memungkinkan interoperabilitas dengan alat seperti Athena DDL saat bekerja dengan tabel di Katalog Data.

Karena Katalog Data tidak memvalidasi tipe, layanan lain dapat menggunakan Katalog Data untuk melacak jenis menggunakan sistem yang secara ketat sesuai dengan sistem tipe Hive, atau sistem lainnya.

Jenis AWS Glue dengan skrip Spark

Saat skrip AWS Glue with Spark menafsirkan atau mengubah kumpulan data, kami menyediakanDynamicFrame, representasi dalam memori dari kumpulan data Anda seperti yang digunakan dalam skrip Anda. Tujuan dari A DynamicFrame mirip dengan Spark DataFrame — ini memodelkan dataset Anda sehingga Spark dapat menjadwalkan dan mengeksekusi transformasi pada data Anda. Kami menjamin bahwa jenis representasi saling DynamicFrame kompatibel dengan DataFrame dengan menyediakan toDF dan fromDF metode.

Jika informasi tipe dapat disimpulkan atau diberikan kepada aDataFrame, dapat disimpulkan atau diberikan kepada aDynamicFrame, kecuali didokumentasikan lain. Ketika kami menyediakan pembaca atau penulis yang dioptimalkan untuk format data tertentu, jika Spark dapat membaca atau menulis data Anda, pembaca dan penulis kami yang disediakan akan dapat, tunduk pada batasan yang didokumentasikan. Untuk informasi lebih lanjut tentang pembaca dan penulis, lihatOpsi format data untuk input dan output untuk Spark AWS Glue.

Jenis Pilihan

DynamicFramesmenyediakan mekanisme untuk memodelkan bidang dalam kumpulan data yang nilainya mungkin memiliki tipe yang tidak konsisten pada disk di seluruh baris. Misalnya, bidang dapat menyimpan nomor yang disimpan sebagai string di baris tertentu, dan bilangan bulat di baris lain. Mekanisme ini adalah tipe dalam memori yang disebutChoice. Kami menyediakan transformasi seperti ResolveChoice metode, untuk menyelesaikan kolom Choice menjadi tipe beton. AWS Glue ETL tidak akan menulis jenis Pilihan ke Katalog Data dalam operasi normal; Jenis pilihan hanya ada dalam konteks model DynamicFrame memori kumpulan data. Untuk contoh penggunaan jenis Pilihan, lihatContoh kode: Persiapan data menggunakan ResolveChoice, Lambda, dan ApplyMapping.

AWS Jenis Glue Crawler

Crawler bertujuan untuk menghasilkan skema yang konsisten dan dapat digunakan untuk kumpulan data Anda, lalu menyimpannya di Katalog Data untuk digunakan di komponen AWS Glue lainnya dan Athena. Crawler menangani jenis seperti yang dijelaskan di bagian sebelumnya pada Katalog Data,AWS Jenis Katalog Data Glue. Untuk menghasilkan tipe yang dapat digunakan dalam skenario tipe “Pilihan”, di mana kolom berisi nilai dua atau lebih jenis, Crawler akan membuat struct tipe yang memodelkan tipe potensial.