Memulai dengan Apache Spark di Amazon Athena - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memulai dengan Apache Spark di Amazon Athena

Untuk memulai Apache Spark di Amazon Athena, Anda harus terlebih dahulu membuat workgroup yang diaktifkan Spark. Setelah Anda beralih ke workgroup, Anda dapat membuat notebook atau membuka notebook yang ada. Ketika Anda membuka notebook di Athena, sesi baru dimulai untuk itu secara otomatis dan Anda dapat bekerja dengannya langsung di editor notebook Athena.

catatan

Pastikan Anda membuat grup kerja berkemampuan Spark sebelum Anda mencoba membuat buku catatan.

Membuat grup kerja berkemampuan Spark di Athena

Anda dapat menggunakankelompok kerjadi Athena untuk mengelompokkan pengguna, tim, aplikasi, atau beban kerja, dan untuk melacak biaya. Untuk menggunakan Apache Spark di Amazon Athena, Anda membuat grup kerja Amazon Athena yang menggunakan mesin Spark.

catatan

Kelompok kerja yang diaktifkan Apache Spark dapat menggunakan editor notebook Athena, tetapi bukan editor kueri Athena. Hanya kelompok kerja Athena SQL yang dapat menggunakan editor kueri Athena.

Untuk membuat grup kerja yang diaktifkan Spark di Athena
  1. Buka konsol Athena dihttps://console.aws.amazon.com/athena/

  2. Jika panel navigasi konsol tidak terlihat, pilih menu ekspansi di sebelah kiri.

    
                            Pilih menu ekspansi.
  3. Di panel navigasi, pilihKelompok kerja.

  4. Pada Grup Kerja, pilih Buat grup kerja.

  5. UntukNama Workgroup, masukkan nama untuk workgroup Apache Spark Anda.

  6. (Opsional) UntukDeskripsi, masukkan deskripsi untuk kelompok kerja Anda.

  7. UntukMesin analitik, pilihPercikan Apache.

    catatan

    Setelah Anda membuat grup kerja, jenis mesin analitik grup kerja tidak dapat diubah. Misalnya, grup kerja Athena engine versi 3 tidak dapat diubah menjadiPySparkversi mesin 3 workgroup.

  8. Untuk keperluan tutorial ini, pilihNyalakan contoh notebook. Fitur opsional ini menambahkan contoh notebook dengan namaexample-notebook-random_stringke workgroup Anda dan menambahkanAWS Glueizin terkait yang digunakan notebook untuk membuat, menampilkan, dan menghapus database dan tabel tertentu di akun Anda, dan membaca izin di Amazon S3 untuk kumpulan data sampel. Untuk melihat izin tambahan, pilihLihat rincian izin tambahan.

    catatan

    Menjalankan contoh notebook mungkin dikenakan beberapa biaya tambahan.

  9. UntukKonfigurasi tambahan, lakukan salah satu dari berikut ini:

    • GunakanGunakan defaultpengaturan. Opsi ini adalah default dan membantu Anda memulai dengan grup kerja berkemampuan Spark Anda. Dengan opsi ini, Athena membuat peran IAM dan lokasi hasil perhitungan di Amazon S3 untuk Anda. Nama peran IAM dan lokasi bucket S3 yang akan dibuat ditampilkan di kotak di bawahKonfigurasi tambahanmenuju.

    • NonaktifkanGunakan defaultpengaturan, dan kemudian lanjutkan dengan langkah-langkah diMenentukan konfigurasi workgroup Anda sendiribagian untuk mengkonfigurasi workgroup Anda secara manual.

  10. (Opsional)Tag- Gunakan opsi ini untuk menambahkan tag ke grup kerja Anda. Untuk informasi selengkapnya, lihat Menandai sumber daya Athena.

  11. Pilih Buat grup kerja. Sebuah pesan memberi tahu Anda bahwa kelompok kerja berhasil dibuat, dan kelompok kerja ditampilkan dalam daftar kelompok kerja.

Menentukan konfigurasi workgroup Anda sendiri

Jika Anda ingin menentukan peran IAM Anda sendiri dan lokasi hasil perhitungan untuk notebook Anda, ikuti langkah-langkah di bagian ini. Jika Anda memilihGunakan defaultuntukKonfigurasi tambahanpilihan, lewati bagian ini dan langsung keMembuka penjelajah notebook dan beralih kelompok kerja .

Prosedur berikut mengasumsikan Anda telah menyelesaikan langkah 1 hingga 9Untuk membuat grup kerja yang diaktifkan Spark di Athenaprosedur di bagian sebelumnya.

Untuk menentukan konfigurasi workgroup Anda sendiri
  1. Jika Anda ingin membuat atau menggunakan peran IAM Anda sendiri atau mengkonfigurasi enkripsi notebook, luaskanKonfigurasi peran IAM.

    • UntukPeran Layanan, pilih salah satu dari yang berikut ini:

      • Membuat peran layanan- Pilih opsi ini agar Athena membuat peran layanan untuk Anda. Untuk melihat izin yang diberikan peran, pilihLihat rincian izin.

      • Pilih peran layanan yang ada- Dari menu drop-down, pilih peran yang ada. Peran yang Anda pilih harus menyertakan izin di opsi pertama. Untuk informasi selengkapnya tentang izin untuk grup kerja yang mendukung notebook, lihatMemecahkan masalah kelompok kerja berkemampuan Spark.

    • UntukNotebook dan kode perhitungan enkripsi manajemen kunci, pilih salah satu opsi berikut:

      • Dimiliki oleh Amazon Athena—AWS KMSkunci dimiliki dan dikelola oleh Amazon Athena. Anda tidak dikenakan biaya tambahan untuk menggunakan kunci ini.

      • Kunci simetris yang disimpan di akun Anda, dimiliki dan dikelola oleh Anda- Untuk opsi ini, lakukan salah satu hal berikut:

        • Untuk menggunakan kunci yang ada, gunakan kotak pencarian untuk memilihAWS KMSatau masukkan kunci ARN.

        • Untuk membuat kunci diAWS KMSkonsol, pilihBuat sebuahAWS KMSkunci. Peran eksekusi Anda harus memiliki izin untuk menggunakan kunci yang Anda buat.

      penting

      Ketika Anda mengubahAWS KMS keyuntuk workgroup, notebook yang dikelola sebelum pembaruan masih mereferensikan kunci KMS lama. Notebook yang dikelola setelah pembaruan menggunakan kunci KMS baru. Untuk memperbarui notebook lama untuk mereferensikan kunci KMS baru, ekspor dan kemudian impor masing-masing notebook lama. Jika Anda menghapus kunci KMS lama sebelum memperbarui referensi notebook lama ke kunci KMS baru, notebook lama tidak lagi dapat didekripsi dan tidak dapat dipulihkan.

      Perilaku ini juga berlaku untuk pembaruanalias, yang merupakan nama ramah untuk kunci KMS. Ketika Anda memperbarui alias kunci KMS untuk menunjuk ke kunci KMS baru, notebook yang dikelola sebelum pembaruan alias masih mereferensikan kunci KMS lama, dan notebook yang dikelola setelah pembaruan alias menggunakan kunci KMS baru. Pertimbangkan poin-poin ini sebelum memperbarui kunci atau alias KMS Anda.

  2. Jika Anda ingin menentukan pengaturan hasil perhitungan Anda sendiri, perluasPengaturan hasil perhitungan, dan kemudian pilih dari opsi berikut.

    • Buat bucket S3 baru- Opsi ini membuat bucket Amazon S3 di akun Anda untuk hasil perhitungan Anda. Nama bucket memiliki formataccount_id-region-athena-results-bucket-alphanumeric_iddan menggunakan pengaturan ACL dinonaktifkan, akses publik diblokir, versi dinonaktifkan, dan pemilik bucket diberlakukan.

    • Pilih lokasi S3 yang ada— Untuk opsi ini, lakukan hal berikut:

      • Masukkan jalur S3 ke lokasi yang ada di kotak pencarian, atau pilihJelajahi S3untuk memilih ember dari daftar.

        catatan

        Bila Anda memilih lokasi yang ada di Amazon S3, jangan tambahkan garis miring ke depan (/) ke lokasi. Melakukan hal itu menyebabkan link ke lokasi hasil perhitungan padahalaman rincian perhitunganuntuk menunjuk ke direktori yang salah. Jika ini terjadi, edit lokasi hasil workgroup untuk menghapus garis miring ke depan.

      • (Opsional) PilihLihatuntuk membukaEmberhalaman konsol Amazon S3 tempat Anda dapat melihat informasi lebih lanjut tentang bucket yang ada yang Anda pilih.

      • (Opsional) UntukPemilik bucket yang diharapkan, masukkanAWSID akun yang Anda harapkan menjadi pemilik bucket lokasi keluaran hasil kueri Anda. Kami menyarankan Anda memilih opsi ini sebagai ukuran keamanan tambahan bila memungkinkan. Jika ID akun pemilik bucket tidak cocok dengan ID yang Anda tentukan, upaya untuk mengeluarkan ke bucket akan gagal. Untuk informasi mendalam, lihatMemverifikasi kepemilikan bucket dengan kondisi pemilik bucketdi dalamPanduan Pengguna Amazon S3.

      • (Opsional) PilihTetapkan kontrol penuh pemilik bucket atas hasil kuerijika lokasi hasil perhitungan Anda dimiliki oleh akun lain dan Anda ingin memberikan kontrol penuh atas hasil kueri Anda ke akun lain.

  3. (Opsional) PilihEnkripsi hasil perhitungan, dan kemudian pilih salah satu dari yang berikut ini:

    • SSE_S3- Ini adalah kunci enkripsi sisi server yang dikelola S3.

    • SSE_KMS- Kunci yang Anda berikan. UntukPilihAWS KMSkunci, Anda dapat memilih salah satu dari yang berikut:

      • GunakanAWSkunci yang dimiliki— Gunakan kunci yangAWSmemiliki dan mengelola untuk Anda.

      • Pilih yang berbedaAWS KMSkunci (lanjutan)- Pilih atau buat kunci.

        • Untuk menggunakan kunci yang ada, gunakan kotak pencarian untuk memilihAWS KMSatau masukkan kunci ARN.

        • Untuk membuat kunci di konsol KMS, pilihBuat sebuahAWS KMSkunci. Setelah Anda selesai membuat kunci di konsol KMS, kembali keBuat workgroupdi konsol Athena, dan kemudian menggunakanPilihAWS KMSkunci atau masukkan ARNkotak pencarian untuk memilih kunci yang baru saja Anda buat.

  4. (Opsional)Pengaturan lainnya- Perluas opsi ini untuk mengaktifkan atau menonaktifkanPublikasikanCloudWatchmetrikpilihan untuk workgroup. Bidang ini dipilih secara default. Untuk informasi selengkapnya, lihat Memantau perhitungan Apache Spark denganCloudWatchmetrik.

  5. (Opsional)Tag- Gunakan opsi ini untuk menambahkan tag ke grup kerja Anda. Untuk informasi selengkapnya, lihat Menandai sumber daya Athena.

  6. Pilih Buat grup kerja. Sebuah pesan memberi tahu Anda bahwa kelompok kerja berhasil dibuat, dan kelompok kerja ditampilkan dalam daftar kelompok kerja.

Membuka penjelajah notebook dan beralih kelompok kerja

Sebelum Anda dapat menggunakan Spark enabled workgroup yang baru saja Anda buat, Anda harus beralih ke workgroup. Untuk mengganti grup kerja yang diaktifkan Spark, Anda dapat menggunakanKelompok kerjaopsi di Notebook explorer atau editor Notebook.

catatan

Sebelum memulai, periksa apakah browser Anda tidak memblokir cookie pihak ketiga. Browser apa pun yang memblokir cookie pihak ketiga baik secara default atau sebagai pengaturan yang diaktifkan pengguna akan mencegah notebook diluncurkan. Untuk informasi lebih lanjut tentang mengelola cookie, lihat:

Untuk membuka notebook explorer dan beralih workgroup
  1. Di panel navigasi, pilihPenjelajah notebook.

  2. GunakanKelompok kerjapilihan di kanan atas konsol untuk memilih Spark diaktifkan workgroup yang Anda buat. Contoh notebook ditampilkan dalam daftar notebook.

    Anda dapat menggunakan penjelajah notebook dengan cara berikut:

    • Pilih nama buku catatan yang ditautkan untuk membuka buku catatan di sesi baru.

    • Untuk mengganti nama, menghapus, atau mengekspor buku catatan Anda, gunakanAksimenu.

    • Untuk mengimpor file notebook, pilihImpor berkas.

    • Untuk membuat notebook, pilihBuat notebook.

Menjalankan contoh notebook

Contoh notebook meminta data dari kumpulan data perjalanan taksi New York City yang tersedia untuk umum. Notebook memiliki contoh yang menunjukkan cara bekerja dengan SparkDataFrames, Spark SQL, danAWS Glue Data Catalog.

Untuk menjalankan contoh notebook
  1. Di Notebook explorer, pilih nama yang ditautkan dari contoh notebook.

    Ini memulai sesi notebook dengan parameter default dan membuka notebook di editor notebook. Sebuah pesan memberi tahu Anda bahwa sesi Apache Spark baru telah dimulai menggunakan parameter default (20 DPU maksimum).

  2. Untuk menjalankan sel secara berurutan dan amati hasilnya, pilihJalankantombol sekali untuk setiap sel di notebook.

    • Gulir ke bawah untuk melihat hasilnya dan tampilkan sel baru.

    • Untuk sel yang memiliki perhitungan, progress bar menunjukkan persentase selesai, waktu berlalu, dan waktu yang tersisa.

    • Contoh notebook membuat database sampel dan tabel di akun Anda. Sel terakhir menghilangkan ini sebagai langkah pembersihan.

catatan

Jika Anda mengubah nama folder, tabel, atau database di notebook contoh, pastikan perubahan tersebut tercermin dalam peran IAM yang Anda gunakan. Jika tidak, notebook dapat gagal berjalan karena izin yang tidak mencukupi.

Mengedit detail sesi

Setelah memulai sesi notebook, Anda dapat mengedit detail sesi seperti format tabel, enkripsi, batas waktu idle sesi, dan jumlah unit pemrosesan data (DPU) bersamaan maksimum yang ingin Anda gunakan. DPU adalah ukuran relatif daya pemrosesan yang terdiri dari 4 vCPU kapasitas komputasi dan 16 GB memori.

Untuk mengedit detail sesi
  1. Di editor notebook, dariSesimenu di kanan atas, pilihEdit sesi.

  2. DalamEdit detail sesikotak dialog, diSifat percikanbagian, pilih atau masukkan nilai untuk opsi berikut:

    • Format tabel tambahan— PilihYayasan Linux Delta Danau,Apache,Gunung Es Apache, atauAdat.

      • Untukkuala,Hudi, atauGunung espilihan tabel, properti tabel yang diperlukan untuk format tabel yang sesuai secara otomatis disediakan untuk Anda diEdit dalam tabeldanEdit di JSONpilihan. Untuk informasi selengkapnya tentang penggunaan format tabel ini, lihatMenggunakan format tabel non-Hive di Amazon Athena untuk Apache Spark.

      • Untuk menambah atau menghapus properti tabel untukAdatatau jenis tabel lainnya, gunakanEdit dalam tabeldanEdit di JSONpilihan.

      • UntukEdit dalam tabelpilihan, pilihTambahkan propertiuntuk menambahkan properti, atauHapusuntuk menghapus properti. Untuk memasukkan nama properti dan nilainya, gunakanKuncidanNilaikotak.

      • UntukEdit di JSONpilihan, gunakan editor teks JSON untuk mengedit konfigurasi secara langsung.

        • Untuk menyalin teks JSON ke clipboard, pilihSalin.

        • Untuk menghapus semua teks dari editor JSON, pilihJelas.

        • Untuk mengonfigurasi pembungkus garis atau memilih tema warna untuk editor JSON, pilih ikon pengaturan (roda gigi).

    • Aktifkan enkripsi Spark -- Pilih opsi ini untuk mengenkripsi data yang ditulis ke disk dan dikirim melalui node jaringan Spark. Untuk informasi selengkapnya, lihat Mengaktifkan enkripsi Apache Spark.

  3. DalamParameter sesibagian, pilih atau masukkan nilai untuk opsi berikut:

    • Batas waktu siaga sesi- Pilih atau masukkan nilai antara 1 dan 480 menit. Defaultnya adalah 20.

    • Ukuran koordinator- SEBUAHkoordinatoradalah pelaksana khusus yang mengatur pekerjaan pemrosesan dan mengelola pelaksana lain dalam sesi notebook. Saat ini, 1 DPU adalah nilai default dan hanya mungkin.

    • Ukuran pelaksana- Sebuahpelaksanaadalah unit komputasi terkecil yang dapat diminta sesi notebook dari Athena. Saat ini, 1 DPU adalah nilai default dan hanya mungkin.

    • Nilai konkuren maks- Jumlah maksimum DPU yang dapat berjalan secara bersamaan. Defaultnya adalah 20, minimum adalah 3, dan maksimum adalah 60. Meningkatkan nilai ini tidak secara otomatis mengalokasikan sumber daya tambahan, tetapi Athena akan mencoba untuk mengalokasikan hingga maksimum yang ditentukan ketika beban komputasi membutuhkannya dan ketika sumber daya tersedia.

  4. Pilih Save (Simpan).

  5. DiKonfirmasi editprompt, pilihKonfirmasi.

    Athena menyimpan notebook Anda dan memulai sesi baru dengan parameter yang Anda tentukan. Spanduk di editor notebook memberi tahu Anda bahwa sesi baru telah dimulai dengan parameter yang dimodifikasi.

    catatan

    Athena mengingat pengaturan sesi Anda untuk notebook. Jika Anda mengedit parameter sesi dan kemudian mengakhiri sesi, Athena menggunakan parameter sesi yang Anda konfigurasi saat berikutnya Anda memulai sesi untuk notebook.

Melihat detail sesi dan perhitungan

Setelah Anda menjalankan notebook, Anda dapat melihat detail sesi dan perhitungan Anda.

Untuk melihat detail sesi dan perhitungan
  1. DariSesimenu di kanan atas, pilihLihat rincian.

    • YangSesi saat initab menampilkan informasi tentang sesi saat ini, termasuk ID sesi, waktu pembuatan, status, dan kelompok kerja.

    • YangSejarahtab mencantumkan ID sesi untuk sesi sebelumnya. Untuk melihat detail sesi sebelumnya, pilihSejarahtab, dan kemudian pilih ID sesi dalam daftar.

    • YangPerhitunganbagian menunjukkan daftar perhitungan yang berjalan di sesi.

  2. Untuk melihat detail perhitungan, pilih ID perhitungan.

  3. PadaRincian perhitunganhalaman, Anda dapat melakukan hal berikut:

    • Untuk melihat kode untuk perhitungan, lihatKodebagian.

    • Untuk melihat hasil perhitungan, pilihHasiltab.

    • Untuk mengunduh hasil yang Anda lihat dalam format teks, pilihUnduh hasil.

    • Untuk melihat informasi tentang hasil perhitungan di Amazon S3, pilihLihat di S3.

Mengakhiri sesi

Untuk mengakhiri sesi notebook
  1. Di editor notebook, dariSesimenu di kanan atas, pilihMengakhiri.

  2. DiKonfirmasikan penghentian sesiprompt, pilihKonfirmasi. Notebook Anda disimpan dan Anda dikembalikan ke editor notebook.

catatan

Menutup tab notebook di editor notebook tidak dengan sendirinya mengakhiri sesi untuk notebook aktif. Jika Anda ingin memastikan bahwa sesi dihentikan, gunakanSesi,Mengakhiripilihan.

Membuat notebook Anda sendiri

Setelah Anda membuat Spark diaktifkan Athena workgroup, Anda dapat membuat notebook Anda sendiri.

Untuk membuat notebook
  1. Jika panel navigasi konsol tidak terlihat, pilih menu ekspansi di sebelah kiri.

  2. Di panel navigasi konsol Athena, pilihPenjelajah notebookatauEditor buku catatan.

  3. Lakukan salah satu dari berikut:

    • DalamPenjelajah notebook, pilihBuat notebook.

    • DalamEditor buku catatan, pilihBuat notebook, atau pilih ikon plus (+) untuk menambahkan notebook.

  4. DalamBuat notebookkotak dialog, untukNama Notebook, masukkan nama.

  5. (Opsional) PerluasSifat percikan, dan kemudian pilih atau masukkan nilai untuk opsi berikut:

    • Format tabel tambahan— PilihYayasan Linux Delta Danau,Apache,Gunung Es Apache, atauAdat.

      • Untukkuala,Hudi, atauGunung espilihan tabel, properti tabel yang diperlukan untuk format tabel yang sesuai secara otomatis disediakan untuk Anda diEdit dalam tabeldanEdit di JSONpilihan. Untuk informasi selengkapnya tentang penggunaan format tabel ini, lihatMenggunakan format tabel non-Hive di Amazon Athena untuk Apache Spark.

      • Untuk menambah atau menghapus properti tabel untukAdatatau jenis tabel lainnya, gunakanEdit dalam tabeldanEdit di JSONpilihan.

      • UntukEdit dalam tabelpilihan, pilihTambahkan propertiuntuk menambahkan properti, atauHapusuntuk menghapus properti. Untuk memasukkan nama properti dan nilainya, gunakanKuncidanNilaikotak.

      • UntukEdit di JSONpilihan, gunakan editor teks JSON untuk mengedit konfigurasi secara langsung.

        • Untuk menyalin teks JSON ke clipboard, pilihSalin.

        • Untuk menghapus semua teks dari editor JSON, pilihJelas.

        • Untuk mengonfigurasi pembungkus garis atau memilih tema warna untuk editor JSON, pilih ikon pengaturan (roda gigi).

    • Aktifkan enkripsi Spark -- Pilih opsi ini untuk mengenkripsi data yang ditulis ke disk dan dikirim melalui node jaringan Spark. Untuk informasi selengkapnya, lihat Mengaktifkan enkripsi Apache Spark.

  6. (Opsional) PerluasParameter sesi, dan kemudian pilih atau masukkan nilai untuk opsi berikut:

    • Batas waktu siaga sesi- pilih atau masukkan nilai antara 1 dan 480 menit. Defaultnya adalah 20.

    • Ukuran koordinator- SEBUAHkoordinatoradalah pelaksana khusus yang mengatur pekerjaan pemrosesan dan mengelola pelaksana lain dalam sesi notebook. Saat ini, 1 DPU adalah nilai default dan hanya mungkin. DPU (unit pemrosesan data) adalah ukuran relatif daya pemrosesan yang terdiri dari 4 vCPU kapasitas komputasi dan memori 16 GB.

    • Ukuran pelaksana- Sebuahpelaksanaadalah unit komputasi terkecil yang dapat diminta sesi notebook dari Athena. Saat ini, 1 DPU adalah nilai default dan hanya mungkin.

    • Nilai konkuren maks- Jumlah maksimum DPU yang dapat berjalan secara bersamaan. Defaultnya adalah 20 dan maksimum adalah 60. Meningkatkan nilai ini tidak secara otomatis mengalokasikan sumber daya tambahan, tetapi Athena akan mencoba untuk mengalokasikan hingga maksimum yang ditentukan ketika beban komputasi membutuhkannya dan ketika sumber daya tersedia.

  7. Pilih Create (Buat). Notebook Anda terbuka di sesi baru di editor notebook.

Membuka notebook yang dibuat sebelumnya

Untuk membuka notebook yang dibuat sebelumnya
  1. Jika panel navigasi konsol tidak terlihat, pilih menu ekspansi di sebelah kiri.

  2. Di panel navigasi konsol Athena, pilihEditor buku catatanatauPenjelajah notebook.

  3. Lakukan salah satu dari berikut:

    • DalamEditor buku catatan, pilih buku catatan diNotebook terbaruatauNotebook yang disimpandaftar. Notebook terbuka di sesi baru.

    • DalamPenjelajah notebook, pilih nama buku catatan dalam daftar. Notebook terbuka di sesi baru.

Untuk informasi selengkapnya tentang mengelola file notebook Anda, lihatMengelola file notebook.