Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon DataZone mulai cepat dengan data AWS Glue
Selesaikan langkah-langkah mulai cepat berikut untuk menjalankan alur kerja produsen data dan konsumen data lengkap di Amazon DataZone dengan data AWS Glue sampel.
Langkah Quickstart
Langkah 1 - Buat DataZone domain Amazon dan portal data
Bagian ini menjelaskan langkah-langkah membuat DataZone domain Amazon dan portal data untuk alur kerja ini.
Selesaikan prosedur berikut untuk membuat DataZone domain Amazon. Untuk informasi selengkapnya tentang DataZone domain Amazon, lihat DataZone Terminologi dan konsep Amazon.
-
Arahkan ke DataZone konsol Amazon di https://console.aws.amazon.com/datazone
, masuk, lalu pilih Buat domain. catatan
Jika Anda ingin menggunakan DataZone domain Amazon yang ada untuk alur kerja ini, pilih Lihat domain, lalu pilih domain yang ingin Anda gunakan, lalu lanjutkan ke Langkah 2 membuat proyek penerbitan.
-
Pada halaman Buat domain, berikan nilai untuk bidang berikut:
-
Nama - tentukan nama untuk domain Anda. Untuk keperluan alur kerja ini, Anda dapat menghubungi pemasaran domain ini.
-
Deskripsi - tentukan deskripsi domain opsional.
-
Enkripsi data - data Anda dienkripsi secara default dengan kunci yang AWS memiliki dan mengelola untuk Anda. Untuk kasus penggunaan ini, Anda dapat meninggalkan pengaturan enkripsi data default.
Untuk informasi selengkapnya tentang menggunakan kunci terkelola pelanggan, lihatEnkripsi data saat istirahat untuk Amazon DataZone. Jika Anda menggunakan kunci KMS Anda sendiri untuk enkripsi data, Anda harus menyertakan pernyataan berikut dalam default AmazonDataZoneDomainExecutionRole Anda.
-
Akses layanan - biarkan yang dipilih secara default Gunakan opsi peran default tidak berubah.
catatan
Jika Anda menggunakan DataZone domain Amazon yang ada untuk alur kerja ini, Anda dapat memilih opsi Gunakan peran layanan yang ada, lalu pilih peran yang ada dari menu tarik-turun.
-
Di bawah Pengaturan cepat, pilih Siapkan akun ini untuk konsumsi dan penerbitan data. Opsi ini memungkinkan DataZone cetak biru Amazon bawaan dari Data lake dan gudang Data, dan mengonfigurasi izin yang diperlukan, sumber daya, proyek default, dan data lake default dan profil lingkungan gudang data untuk akun ini. Untuk informasi selengkapnya tentang DataZone cetak biru Amazon, lihat. DataZone Terminologi dan konsep Amazon
-
Simpan kolom yang tersisa di bawah Detail izin tidak berubah.
catatan
Jika Anda memiliki DataZone domain Amazon yang sudah ada, Anda dapat memilih opsi Gunakan peran layanan yang ada dan kemudian memilih peran yang ada dari menu tarik-turun untuk peran Glue Manage Access, peran Redshift Manage Access, dan peran Penyediaan.
-
Jaga agar bidang di bawah Tag tidak berubah.
-
Pilih Create domain (Buat domain).
-
-
Setelah domain berhasil dibuat, pilih domain ini, dan pada halaman ringkasan domain, catat URL portal data untuk domain ini. Anda dapat menggunakan URL ini untuk mengakses portal DataZone data Amazon Anda untuk menyelesaikan langkah-langkah lainnya dalam alur kerja ini. Anda juga dapat menavigasi ke portal data dengan memilih Buka portal data.
catatan
Dalam rilis Amazon saat ini DataZone, setelah domain dibuat, URL yang dihasilkan untuk portal data tidak dapat dimodifikasi.
Pembuatan domain dapat memakan waktu beberapa menit untuk menyelesaikannya. Tunggu domain memiliki status Tersedia sebelum melanjutkan ke langkah berikutnya.
Langkah 2 - Buat proyek penerbitan
Bagian ini menjelaskan langkah-langkah yang diperlukan untuk membuat proyek penerbitan untuk alur kerja ini.
-
Setelah Anda menyelesaikan Langkah 1 di atas dan membuat domain, Anda akan melihat Selamat Datang di Amazon DataZone! jendela. Di jendela ini, pilih Buat proyek.
-
Tentukan nama proyek, misalnya, untuk alur kerja ini, Anda dapat menamainya SalesDataPublishingProject, lalu biarkan bidang lainnya tidak berubah, lalu pilih Buat.
Langkah 3 - Ciptakan lingkungan
Bagian ini menjelaskan langkah-langkah yang diperlukan untuk membuat lingkungan untuk alur kerja ini.
-
Setelah Anda menyelesaikan Langkah 2 di atas dan membuat proyek Anda, Anda akan melihat jendela Proyek Anda siap digunakan. Di jendela ini, pilih Buat lingkungan.
-
Pada halaman Buat lingkungan, tentukan yang berikut ini dan kemudian pilih Buat lingkungan.
-
Tentukan nilai untuk yang berikut:
-
Nama - tentukan nama untuk lingkungan. Untuk panduan ini, Anda bisa menyebutnya.
Default data lake environment
-
Deskripsi - tentukan deskripsi untuk lingkungan.
-
Profil lingkungan - pilih profil DataLakeProfilelingkungan. Ini memungkinkan Anda menggunakan Amazon DataZone dalam alur kerja ini untuk bekerja dengan data di Amazon S3, AWS Glue Catalog, dan Amazon Athena.
-
Untuk panduan ini, jaga agar bidang lainnya tidak berubah.
-
-
Pilih Buat lingkungan.
Langkah 4 - Menghasilkan data untuk penerbitan
Bagian ini menjelaskan langkah-langkah yang diperlukan untuk menghasilkan data untuk penerbitan dalam alur kerja ini.
-
Setelah Anda menyelesaikan langkah 3 di atas, dalam
SalesDataPublishingProject
proyek Anda, di panel sebelah kanan, di bawah alat Analytics, pilih Amazon Athena. Ini membuka editor kueri Athena menggunakan kredensi proyek Anda untuk otentikasi. Pastikan bahwa lingkungan penerbitan Anda dipilih di dropdown DataZone lingkungan Amazon dan<environment_name>%_pub_db
database dipilih seperti pada editor kueri. -
Untuk panduan ini, Anda menggunakan skrip kueri Create Table as Select (CTAS) untuk membuat tabel baru yang ingin Anda publikasikan ke Amazon. DataZone Di editor kueri Anda, jalankan skrip CTAS ini untuk membuat
mkt_sls_table
tabel yang dapat Anda publikasikan dan sediakan untuk pencarian dan berlangganan.CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561
Pastikan tabel mkt_sls_table berhasil dibuat di bagian Tabel dan tampilan di sisi kiri. Sekarang Anda memiliki aset data yang dapat dipublikasikan ke dalam DataZone katalog Amazon.
Langkah 5 - Kumpulkan metadata dari Glue AWS
Bagian ini menjelaskan langkah pengumpulan metadata dari AWS Glue untuk alur kerja ini.
-
Setelah Anda menyelesaikan langkah 4 di atas, di portal DataZone data Amazon, pilih
SalesDataPublishingProject
proyek, lalu pilih tab Data, lalu pilih Sumber data di panel sebelah kiri. -
Pilih sumber yang dibuat sebagai bagian dari proses pembuatan lingkungan.
-
Pilih Run di sebelah menu dropdown Action dan kemudian pilih tombol refresh. Setelah sumber data berjalan selesai, aset ditambahkan ke DataZone inventaris Amazon.
Langkah 6 - Kurasi dan publikasikan aset data
Bagian ini menjelaskan langkah-langkah kurasi dan penerbitan aset data dalam alur kerja ini.
-
Setelah Anda menyelesaikan langkah 5 di atas, di portal DataZone data Amazon, pilih
SalesDataPublishingProject
proyek yang Anda buat pada langkah sebelumnya, pilih tab Data, pilih Data inventaris di panel sebelah kiri, dan temukan tabel.mkt_sls_table
-
Buka halaman detail
mkt_sls_table
aset untuk melihat nama bisnis yang dibuat secara otomatis. Pilih ikon metadata yang dihasilkan secara otomatis untuk melihat nama aset dan kolom yang dibuat secara otomatis. Anda dapat menerima atau menolak setiap nama satu per satu atau memilih Terima semua untuk menerapkan nama yang dihasilkan. Secara opsional, Anda juga dapat menambahkan formulir metadata yang tersedia ke aset Anda dan memilih istilah glosarium untuk mengklasifikasikan data Anda. -
Pilih Publikasikan aset untuk mempublikasikan
mkt_sls_table
aset.
Langkah 7 - Buat proyek untuk analisis data
Bagian ini menjelaskan langkah-langkah pembuatan proyek untuk analisis data. Ini adalah awal dari langkah-langkah konsumen data dari alur kerja ini.
-
Setelah Anda menyelesaikan langkah 6 di atas, di portal DataZone data Amazon, pilih Buat proyek dari menu drop-down Project.
-
Pada halaman Buat proyek, tentukan nama proyek, misalnya, untuk alur kerja ini, Anda dapat menamainya MarketingDataAnalysisProject, lalu biarkan bidang lainnya tidak berubah, lalu pilih Buat.
Langkah 8 - Buat lingkungan untuk analisis data
Bagian ini menjelaskan langkah-langkah menciptakan lingkungan untuk analisis data.
-
Setelah Anda menyelesaikan langkah 7 di atas, di portal DataZone data Amazon, pilih
MarketingDataAnalysisProject
proyek, lalu pilih tab Lingkungan, lalu pilih Buat lingkungan. -
Pada halaman Buat lingkungan, tentukan yang berikut ini dan kemudian pilih Buat lingkungan.
-
Nama - tentukan nama untuk lingkungan. Untuk panduan ini, Anda bisa menyebutnya.
Default data lake environment
-
Deskripsi - tentukan deskripsi untuk lingkungan.
-
Profil lingkungan - pilih profil DataLakeProfilelingkungan bawaan.
-
Untuk panduan ini, jaga agar bidang lainnya tidak berubah.
-
Langkah 9 - Cari katalog data dan berlangganan data
Bagian ini menjelaskan langkah-langkah mencari katalog data dan berlangganan data.
-
Setelah Anda menyelesaikan langkah 8 di atas, di portal DataZone data Amazon, pilih DataZone ikon Amazon, dan di bidang DataZone Pencarian Amazon, cari aset data menggunakan kata kunci (misalnya, 'katalog' atau 'penjualan') di bilah Pencarian portal data.
Jika perlu, terapkan filter atau penyortiran, dan setelah Anda menemukan aset Data Penjualan Produk, Anda dapat memilihnya untuk membuka halaman detail aset.
-
Pada halaman detail aset Data Penjualan Katalog, pilih Berlangganan.
-
Dalam dialog Subscribe, pilih project MarketingDataAnalysisProjectkonsumen Anda dari dropdown, lalu tentukan alasan permintaan berlangganan Anda, lalu pilih Subscribe.
Langkah 10 - Menyetujui permintaan berlangganan
Bagian ini menjelaskan langkah-langkah menyetujui permintaan berlangganan.
-
Setelah Anda menyelesaikan langkah 9 di atas, di portal DataZone data Amazon, pilih SalesDataPublishingProjectproyek yang Anda gunakan untuk menerbitkan aset Anda.
-
Pilih tab Data, lalu Data yang dipublikasikan, lalu pilih Permintaan masuk.
-
Sekarang Anda dapat melihat baris untuk permintaan baru yang membutuhkan persetujuan. Pilih Lihat permintaan. Berikan alasan untuk persetujuan dan pilih Menyetujui.
Langkah 11 - Buat kueri dan analisis data di Amazon Athena
Sekarang setelah Anda berhasil menerbitkan aset ke DataZone katalog Amazon dan berlangganan, Anda dapat menganalisisnya.
-
Di portal DataZone data Amazon, pilih proyek MarketingDataAnalysisProjectkonsumen Anda dan kemudian, dari panel sebelah kanan, di bawah alat Analytics, pilih tautan Data kueri dengan Amazon Athena. Ini membuka editor kueri Amazon Athena menggunakan kredensil proyek Anda untuk otentikasi. Pilih lingkungan MarketingDataAnalysisProjectkonsumen dari dropdown Amazon DataZone Environment di editor kueri dan kemudian pilih proyek Anda
<environment_name>%sub_db
dari dropdown database. -
Anda sekarang dapat menjalankan kueri pada tabel berlangganan. Anda dapat memilih tabel dari Tabel dan Tampilan, dan kemudian memilih Pratinjau untuk memiliki pernyataan pilih di editor layar. Jalankan kueri untuk melihat hasilnya.