Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS Sistem tipe Glue
AWS Glue menggunakan beberapa jenis sistem untuk menyediakan antarmuka serbaguna melalui sistem data yang menyimpan data dengan cara yang sangat berbeda. Dokumen ini mendisambiguasi sistem tipe AWS Glue dan standar data.
AWS Jenis Katalog Data Glue
Katalog Data adalah registri tabel dan bidang yang disimpan dalam berbagai sistem data, metastore. Ketika komponen AWS Glue, seperti AWS Glue crawler dan AWS Glue with Spark jobs, menulis ke Katalog Data, mereka melakukannya dengan sistem tipe internal untuk melacak jenis bidang. Nilai-nilai ini ditampilkan di kolom Tipe data dari skema tabel di AWS Glue Console. Sistem tipe ini didasarkan pada sistem tipe Apache Hive. Untuk informasi selengkapnya tentang sistem tipe Apache Hive, lihat Jenis di wiki
Validasi, kompatibilitas, dan penggunaan lainnya
Katalog Data tidak memvalidasi jenis yang ditulis untuk mengetik bidang. Ketika komponen AWS Glue membaca dan menulis ke Katalog Data, mereka akan kompatibel satu sama lain. AWS Komponen Glue juga bertujuan untuk menjaga tingkat kompatibilitas yang tinggi dengan jenis Hive. Namun, komponen AWS Glue tidak menjamin kompatibilitas dengan semua jenis Hive. Ini memungkinkan interoperabilitas dengan alat seperti Athena DDL saat bekerja dengan tabel di Katalog Data.
Karena Katalog Data tidak memvalidasi tipe, layanan lain dapat menggunakan Katalog Data untuk melacak jenis menggunakan sistem yang secara ketat sesuai dengan sistem tipe Hive, atau sistem lainnya.
Jenis AWS Glue dengan skrip Spark
Saat skrip AWS Glue with Spark menafsirkan atau mengubah kumpulan data, kami menyediakanDynamicFrame
, representasi dalam memori dari kumpulan data Anda seperti yang digunakan dalam skrip Anda. Tujuan dari A DynamicFrame
mirip dengan Spark DataFrame
— ini memodelkan dataset Anda sehingga Spark dapat menjadwalkan dan mengeksekusi transformasi pada data Anda. Kami menjamin bahwa jenis representasi saling DynamicFrame
kompatibel dengan DataFrame
dengan menyediakan toDF
dan fromDF
metode.
Jika informasi tipe dapat disimpulkan atau diberikan kepada aDataFrame
, dapat disimpulkan atau diberikan kepada aDynamicFrame
, kecuali didokumentasikan lain. Ketika kami menyediakan pembaca atau penulis yang dioptimalkan untuk format data tertentu, jika Spark dapat membaca atau menulis data Anda, pembaca dan penulis kami yang disediakan akan dapat, tunduk pada batasan yang didokumentasikan. Untuk informasi lebih lanjut tentang pembaca dan penulis, lihatOpsi format data untuk input dan output untuk Spark AWS Glue.
Jenis Pilihan
DynamicFrames
menyediakan mekanisme untuk memodelkan bidang dalam kumpulan data yang nilainya mungkin memiliki tipe yang tidak konsisten pada disk di seluruh baris. Misalnya, bidang dapat menyimpan nomor yang disimpan sebagai string di baris tertentu, dan bilangan bulat di baris lain. Mekanisme ini adalah tipe dalam memori yang disebutChoice
. Kami menyediakan transformasi seperti ResolveChoice
metode, untuk menyelesaikan kolom Choice menjadi tipe beton. AWS Glue tidak ETL akan menulis jenis Pilihan ke Katalog Data dalam operasi normal; Jenis pilihan hanya ada dalam konteks model DynamicFrame memori kumpulan data. Untuk contoh penggunaan jenis Pilihan, lihatContoh kode: Persiapan data menggunakan ResolveChoice, Lambda, dan ApplyMapping.
AWS Jenis Glue Crawler
Crawler bertujuan untuk menghasilkan skema yang konsisten dan dapat digunakan untuk kumpulan data Anda, lalu menyimpannya di Katalog Data untuk digunakan di komponen AWS Glue lainnya dan Athena. Crawler menangani tipe seperti yang dijelaskan pada bagian Katalog Data sebelumnya. AWS Jenis Katalog Data Glue Untuk menghasilkan tipe yang dapat digunakan dalam skenario tipe “Pilihan”, di mana kolom berisi nilai dua atau lebih jenis, Crawler akan membuat struct
tipe yang memodelkan tipe potensial.