Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan Presto dengan AWS Katalog data Glue
Menggunakan rilis Amazon EMR versi 5.10.0 dan kemudian, Anda dapat menentukan AWS Glue Katalog Data sebagai metastore Hive default untuk Presto. Kami merekomendasikan konfigurasi ini ketika Anda memerlukan metastore persisten atau metastore bersama oleh kelompok yang berbeda, Layanan, aplikasi, atauAkun AWS.
AWS Glue adalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya yang membuatnya sederhana dan hemat biaya untuk mengkategorikan data Anda, membersihkannya, memperkayanya, dan memindahkannya dengan andal di antara berbagai toko data. Parameter AWS Katalog Data Glue menyediakan repositori metadata terpadu di berbagai sumber data dan format data, mengintegrasikan dengan Amazon EMR serta Amazon RDS, Amazon Redshift, Redshift Spectrum Redena, Athena, dan aplikasi yang kompatibel dengan metastore Apache Hive. AWS Glue crawler dapat secara otomatis menyimpulkan skema dari sumber data di Amazon S3 dan menyimpan metadata terkait dalam Katalog Data. Untuk informasi selengkapnya tentang Katalog Data, lihat Mengisi AWS Katalog data Glue di AWS Panduan Developer Glue.
Biaya terpisah berlaku untuk AWS Glue. Ada tarif bulanan untuk menyimpan dan mengakses metadata di Katalog Data, tarif per jam ditagih per menit untuk AWS Glue pekerjaan ETL dan runtime crawler, dan tarif per jam ditagih per menit untuk setiap endpoint pengembangan ditetapkan. Katalog Data memungkinkan Anda untuk menyimpan hingga satu juta objek tanpa biaya. Jika Anda menyimpan lebih dari satu juta objek, Anda dikenakan biaya USD$1 untuk setiap 100.000 objek lebih dari satu juta. Sebuah objek dalam Katalog Data adalah tabel, partisi, atau database. Untuk informasi lebih lanjut, lihat Harga Glue
Jika Anda membuat tabel menggunakan Amazon Athena atau Amazon Redshift Spectrum sebelum 14 Agustus 2017, database dan tabel disimpan dalam katalog yang dikelola Athena, yang terpisah dari AWS Katalog Data Glue. Untuk mengintegrasikan Amazon EMR dengan tabel ini, Anda harus meng-upgrade ke AWS Katalog Data Glue. Untuk informasi lebih lanjut, lihat Mengupgrade ke AWS Katalog data Glue di Panduan Pengguna Amazon Athena.
Menentukan AWS Katalog Data Glue sebagai metastore
Anda dapat menentukan properti AWS Glue Katalog Data sebagai metastore menggunakan AWS Management Console, AWS CLI, atau Amazon EMR API. Ketika Anda menggunakan CLI atau API, Anda menggunakan klasifikasi konfigurasi untuk Presto untuk menentukan Katalog Data. Selain itu, dengan Amazon EMR 5.16.0 dan kemudian, Anda dapat menggunakan klasifikasi konfigurasi untuk menentukan Katalog Data yang berbedaAkun AWS. Bila menggunakan konsol, Anda dapat menentukan Katalog Data menggunakan Opsi lanjutan atau Opsi cepat.
Untuk menentukan AWS Glue Katalog Data sebagai default Hive metastore menggunakan konsol
-
Buka konsol Amazon EMR di https://console.aws.amazon.com/emr
. -
Pilih Buat Kluster, Buka opsi tingkat lanjut.
-
Di bawah Konfigurasi Software Pilih Rilis dari emr-5.10-0 atau versi lebih baru dan pilih Presto.
-
Pilih Gunakan untuk metadata tabel Presto, pilih Selanjutnya, dan kemudian menyelesaikan pengaturan lain untuk cluster Anda yang sesuai untuk aplikasi Anda.
Untuk menentukan AWS Glue Katalog Data sebagai metastore Hive default menggunakan klasifikasi konfigurasi
Untuk contoh cara menentukan klasifikasi konfigurasi berikut ketika Anda membuat sebuah cluster, lihat Konfigurasikan aplikasi.
Amazon EMR 5.16.0 dan kemudian
-
Mengatur
hive.metastore
Properti keglue
Seperti yang ditunjukkan dalam contoh JSON berikut.[ { "Classification": "presto-connector-hive", "Properties": { "hive.metastore": "glue" } } ]
Untuk menentukan Katalog Data yang berbedaAkun AWS, tambahkan
hive.metastore.glue.catalogid
properti seperti yang ditunjukkan dalam contoh JSON berikut. Ganti
dengan AWS akun Katalog Data. Menggunakan Katalog Data yang lain tidakAkun AWS tersedia menggunakan Amazon EMR versi 5.15.0 dan sebelumnya.acct-id
[ { "Classification": "presto-connector-hive", "Properties": { "hive.metastore": "glue", "hive.metastore.glue.catalogid": "
acct-id
" } } ]Amazon EMR 5.10.0 melalui 5.15.0
Mengatur
hive.metastore.glue.datacatalog.enabled
Properti ketrue
, seperti yang ditunjukkan dalam contoh JSON berikut:[ { "Classification": "presto-connector-hive", "Properties": { "hive.metastore.glue.datacatalog.enabled": "true" } } ]
Amazon EMR 6.1.0 dan kemudian menggunakan PrestoSQL (Trino)
Dimulai dengan EMR versi 6.1.0, PrestoSQL juga mendukung Glue sebagai default Hive metastore. Penggunaan
prestosql-connector-hive
klasifikasi konfigurasi dan mengaturhive.metastore
Properti keglue
, seperti yang ditunjukkan dalam contoh JSON berikut.Amazon EMR versi 6.4.0 dan yang lebih baru menggunakan nama baru Trino, bukan PrestoSQL. Jika Anda menggunakan Trino, ganti
dalam klasifikasi konfigurasi berikut denganprestosql-connector-hive
trino-connector-hive
.[ { "Classification": "
prestosql-connector-hive
", "Properties": { "hive.metastore": "glue" } } ]
Untuk beralih metastores pada cluster berjalan lama, Anda dapat secara manual menetapkan nilai-nilai ini sesuai untuk versi rilis Anda dengan menghubungkan ke node master, mengedit nilai properti di /etc/presto/conf/catalog/hive.properties
file secara langsung, dan restart Presto server (sudo restart
presto-server
). Jika Anda menggunakan metode ini dengan Amazon EMR 5.15.0 dan sebelumnya, pastikan bahwa hive.table-statistics-enabled
diatur ke false
. Pengaturan ini tidak diperlukan ketika menggunakan versi rilis 5.16.0 dan yang lebih baru; namun demikian, tabel dan partisi statistik tidak didukung.
Izin IAM
Profil contoh EC2 untuk cluster harus memiliki izin IAM untuk AWS Tindakan Glue. Selain itu, jika Anda mengaktifkan enkripsi untukAWS Glue Katalog Data objek, peran juga harus diizinkan untuk mengenkripsi, mendekripsi dan menghasilkan yangAWS KMS key digunakan untuk enkripsi.
Izin tindakan Glue AWS
Jika Anda menggunakan profil instans EC2 default untuk Amazon EMR, tidak ada tindakan yang diperlukan. Kebijakan yangAmazonElasticMapReduceforEC2Role
dikelola yang melekat padaEMR_EC2_DefaultRole
memungkinkan semua tindakanAWS Glue yang diperlukan. Namun, jika Anda menentukan profil contoh EC2 kustom dan izin, Anda harus mengkonfigurasi sesuai TindakanAWS Glue. Gunakan AmazonElasticMapReduceforEC2Role
Kebijakan yang dikelola sebagai titik awal. Untuk informasi lebih lanjut, lihat Peran layanan untuk instans EC2 klaster (profil instans EC2) dalam Panduan Manajemen Amazon EMR.
Izin untuk mengenkripsi dan mendekripsi AWS Katalog data Glue
Profil instans Anda memerlukan izin untuk mengenkripsi dan mendekripsi data menggunakan kunci Anda. Anda tidak perlu mengkonfigurasi izin ini jika kedua pernyataan berikut berlaku:
-
Anda mengaktifkan enkripsi untuk objek Katalog DataAWS Glue menggunakan kunciAWS terkelola untuk Glue.
-
Anda menggunakan klaster yangAkun AWS sama dengan Katalog DataAWS Glue.
Jika tidak, Anda harus menambahkan pernyataan berikut ini ke kebijakan izin yang dilampirkan ke profil instans EC2 Anda.
[ { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:Encrypt", "kms:GenerateDataKey" ], "Resource": "arn:aws:kms:
region
:acct-id
:key/12345678-1234-1234-1234-123456789012
" } ] } ]
Untuk informasi lebih lanjut tentang AWS Enkripsi Katalog Data Glue, lihat Mengenkripsi katalog data Anda di AWS Panduan Developer Glue.
Izin berbasiskan sumber daya
Jika Anda menggunakan AWS Glue dalam hubungannya dengan Hive, Spark, atau Presto di Amazon EMR, AWS Glue mendukung kebijakan berbasis sumber daya untuk mengontrol akses ke sumber daya Katalog Data. Sumber daya ini termasuk database, tabel, koneksi, dan fungsi yang ditetapkan pengguna. Untuk informasi lebih lanjut, lihat AWS Kebijakan sumber daya Glue di AWS Panduan Developer Glue.
Saat menggunakan kebijakan berbasis sumber daya untuk membatasi akses ke AWS Glue dari dalam Amazon EMR, kepala sekolah yang Anda tentukan dalam kebijakan izin harus peran ARN terkait dengan profil contoh EC2 yang ditentukan ketika cluster dibuat. Misalnya, untuk kebijakan berbasis sumber daya yang dilampirkan ke katalog, Anda dapat menentukan peran ARN untuk peran layanan default untuk contoh cluster EC2, EMR_EC2_DefaultRole
sebagaiPrincipal
, menggunakan format yang ditunjukkan dalam contoh berikut:
arn:aws:iam::
acct-id
:role/EMR_EC2_DefaultRole
Parameter ID akt-
bisa berbeda dari AWS ID akun Glue. Hal ini memungkinkan akses dari cluster EMR di account yang berbeda. Anda dapat menentukan beberapa kepala sekolah, masing-masing dari akun yang berbeda.
Pertimbangan saat menggunakan AWS Katalog data Glue
Pertimbangkan item berikut saat menggunakan AWS Katalog Data Glue sebagai metastore dengan Presto:
Mengganti nama tabel dari dalam Glue AWS tidak didukung.
Bila Anda membuat tabel Hive tanpa menentukan
LOCATION
, data tabel disimpan di lokasi yang ditentukan olehhive.metastore.warehouse.dir
properti. Secara default, ini adalah lokasi di HDFS. Jika gugus lain perlu mengakses tabel, gagal kecuali memiliki izin yang memadai untuk gugus yang dibuat tabel. Selain itu, karena penyimpanan HDFS sementara, jika gugus berakhir, data tabel hilang, dan tabel harus diciptakan kembali. Kami sarankan Anda menentukanLOCATION
di Amazon S3 saat Anda membuat tabel Hive menggunakan AWS Glue. Atau, Anda dapat menggunakanhive-site
klasifikasi konfigurasi untuk menentukan lokasi di Amazon S3 untukhive.metastore.warehouse.dir
, yang berlaku untuk semua tabel Hive. Jika tabel dibuat di lokasi HDFS dan cluster yang dibuat itu masih berjalan, Anda dapat memperbarui lokasi tabel untuk Amazon S3 dari dalam AWS Glue. Untuk informasi lebih lanjut, lihat Bekerja dengan Tabel pada AWS Glue console di AWS Panduan Developer Glue.Nilai partisi yang berisi tanda kutip dan apostrof tidak didukung, misalnya,
PARTITION (owner="Doe's").
Statistik kolom
didukung untuk emr-5.31.0 dan yang lebih baru. Menggunakan Otorisasi hive
tidak didukung. Sebagai alternatif, pertimbangkan untuk menggunakan AWSKebijakan Berbasis Sumber Daya Glue. Untuk informasi selengkapnya, lihat Gunakan Kebijakan Berbasis Sumber Daya untuk Amazon EMR Access ke AWS Katalog data Glue.