Memulai dengan Apache Spark di Amazon Athena - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memulai dengan Apache Spark di Amazon Athena

Untuk memulai dengan Apache Spark di Amazon Athena, Anda harus terlebih dahulu membuat workgroup yang diaktifkan Spark. Setelah beralih ke workgroup, Anda dapat membuat buku catatan atau membuka buku catatan yang ada. Ketika Anda membuka buku catatan di Athena, sesi baru dimulai untuk itu secara otomatis dan Anda dapat bekerja dengannya langsung di editor notebook Athena.

catatan

Pastikan Anda membuat workgroup yang diaktifkan Spark sebelum mencoba membuat buku catatan.

Membuat workgroup berkemampuan Spark di Athena

Anda dapat menggunakan kelompok kerja di Athena untuk mengelompokkan pengguna, tim, aplikasi, atau beban kerja, dan untuk melacak biaya. Untuk menggunakan Apache Spark di Amazon Athena, Anda membuat workgroup Amazon Athena yang menggunakan mesin Spark.

catatan

Workgroup yang diaktifkan Apache Spark dapat menggunakan editor notebook Athena, tetapi bukan editor kueri Athena. Hanya workgroup Athena SQL yang dapat menggunakan editor kueri Athena.

Untuk membuat workgroup berkemampuan Spark di Athena
  1. Buka konsol Athena di https://console.aws.amazon.com/athena/

  2. Jika panel navigasi konsol tidak terlihat, pilih menu ekspansi di sebelah kiri.

    Pilih menu ekspansi.
  3. Di panel navigasi, pilih Workgroups.

  4. Pada Grup Kerja, pilih Buat grup kerja.

  5. Untuk nama Workgroup, masukkan nama untuk workgroup Apache Spark Anda.

  6. (Opsional) Untuk Deskripsi, masukkan deskripsi untuk grup kerja Anda.

  7. Untuk mesin Analytics, pilih Apache Spark.

    catatan

    Setelah Anda membuat grup kerja, jenis mesin analitik workgroup tidak dapat diubah. Misalnya, workgroup mesin Athena versi 3 tidak dapat diubah menjadi workgroup PySpark engine versi 3.

  8. Untuk keperluan tutorial ini, pilih Aktifkan contoh notebook. Fitur opsional ini menambahkan contoh buku catatan dengan nama example-notebook-random_string ke grup kerja Anda dan menambahkan izin AWS Glue terkait -yang digunakan notebook untuk membuat, menampilkan, dan menghapus database dan tabel tertentu di akun Anda, dan membaca izin di Amazon S3 untuk kumpulan data sampel. Untuk melihat izin yang ditambahkan, pilih Lihat detail izin tambahan.

    catatan

    Menjalankan contoh notebook mungkin dikenakan biaya tambahan.

  9. Untuk konfigurasi tambahan, lakukan salah satu hal berikut:

    • Gunakan pengaturan Gunakan default. Opsi ini adalah default dan membantu Anda memulai dengan workgroup berkemampuan SPARK Anda. Dengan opsi ini, Athena membuat peran IAM dan lokasi hasil perhitungan di Amazon S3 untuk Anda. Nama peran IAM dan lokasi bucket S3 yang akan dibuat ditampilkan di kotak di bawah judul Konfigurasi tambahan.

    • Nonaktifkan pengaturan Gunakan default, lalu lanjutkan dengan langkah-langkah di Menentukan konfigurasi workgroup Anda sendiri bagian untuk mengonfigurasi grup kerja Anda secara manual.

  10. (Opsional) Tag - Gunakan opsi ini untuk menambahkan tag ke workgroup Anda. Untuk informasi selengkapnya, lihat Menandai sumber daya Athena.

  11. Pilih Buat grup kerja. Pesan memberi tahu Anda bahwa workgroup berhasil dibuat, dan workgroup ditampilkan dalam daftar workgroup.

Menentukan konfigurasi workgroup Anda sendiri

Jika Anda ingin menentukan peran IAM Anda sendiri dan lokasi hasil perhitungan untuk buku catatan Anda, ikuti langkah-langkah di bagian ini. Jika Anda memilih Gunakan default untuk opsi Konfigurasi tambahan, lewati bagian ini dan langsung ke. Membuka penjelajah notebook dan beralih kelompok kerja

Prosedur berikut mengasumsikan Anda telah menyelesaikan langkah 1 hingga 9 dari Untuk membuat grup kerja yang diaktifkan Spark di Athena prosedur di bagian sebelumnya.

Untuk menentukan konfigurasi workgroup Anda sendiri
  1. Jika Anda ingin membuat atau menggunakan peran IAM Anda sendiri atau mengonfigurasi enkripsi notebook, perluas konfigurasi peran IAM.

    • Untuk Peran Layanan, pilih salah satu dari berikut ini:

      • Buat peran layanan — Pilih opsi ini agar Athena membuat peran layanan untuk Anda. Untuk melihat izin yang diberikan peran, pilih Lihat detail izin.

      • Pilih peran layanan yang ada — Dari menu tarik-turun, pilih peran yang ada. Peran yang Anda pilih harus menyertakan izin di opsi pertama. Untuk informasi selengkapnya tentang izin untuk grup kerja berkemampuan notebook, lihat. Memecahkan masalah grup kerja berkemampuan SPARK

    • Untuk manajemen kunci enkripsi Notebook dan kode perhitungan, pilih salah satu opsi berikut:

      • Dimiliki oleh Amazon Athena — AWS KMS Kuncinya dimiliki dan dikelola oleh Amazon Athena. Anda tidak dikenakan biaya tambahan untuk menggunakan kunci ini.

      • Kunci simetris yang disimpan di akun Anda, dimiliki dan dikelola oleh Anda — Untuk opsi ini, lakukan salah satu hal berikut:

        • Untuk menggunakan kunci yang ada, gunakan kotak pencarian untuk memilih AWS KMS atau memasukkan kunci ARN.

        • Untuk membuat kunci di AWS KMS konsol, pilih Buat AWS KMS kunci. Peran eksekusi Anda harus memiliki izin untuk menggunakan kunci yang Anda buat.

      penting

      Saat Anda mengubah AWS KMS keyuntuk grup kerja, buku catatan yang dikelola sebelum pembaruan masih mereferensikan kunci KMS lama. Notebook dikelola setelah pembaruan menggunakan kunci KMS baru. Untuk memperbarui notebook lama untuk referensi kunci KMS baru, ekspor dan kemudian impor masing-masing notebook lama. Jika Anda menghapus kunci KMS lama sebelum memperbarui referensi notebook lama ke kunci KMS baru, notebook lama tidak lagi dapat didekripsi dan tidak dapat dipulihkan.

      Perilaku ini juga berlaku untuk pembaruan alias, yang merupakan nama ramah untuk kunci KMS. Saat Anda memperbarui alias kunci KMS untuk menunjuk ke kunci KMS baru, notebook yang dikelola sebelum pembaruan alias masih mereferensikan kunci KMS lama, dan notebook yang dikelola setelah pembaruan alias menggunakan kunci KMS baru. Pertimbangkan poin-poin ini sebelum memperbarui kunci atau alias KMS Anda.

  2. Jika Anda ingin menentukan pengaturan hasil perhitungan Anda sendiri, perluas Pengaturan hasil perhitungan, lalu pilih dari opsi berikut.

    • Buat bucket S3 baru — Opsi ini membuat bucket Amazon S3 di akun Anda untuk hasil perhitungan Anda. Nama bucket memiliki format account_id-region-athena-results-bucket-alphanumeric_id dan menggunakan pengaturan ACL dinonaktifkan, akses publik diblokir, versi dinonaktifkan, dan pemilik bucket diberlakukan.

    • Pilih lokasi S3 yang ada — Untuk opsi ini, lakukan hal berikut:

      • Masukkan jalur S3 ke lokasi yang sudah ada di kotak pencarian, atau pilih Browse S3 untuk memilih bucket dari daftar.

        catatan

        Saat Anda memilih lokasi yang ada di Amazon S3, jangan tambahkan garis miring (/) ke lokasi. Melakukan hal itu menyebabkan tautan ke lokasi hasil perhitungan pada halaman detail perhitungan mengarah ke direktori yang salah. Jika ini terjadi, edit lokasi hasil grup kerja untuk menghapus garis miring ke depan.

      • (Opsional) Pilih Lihat untuk membuka halaman Bucket di konsol Amazon S3 tempat Anda dapat melihat informasi selengkapnya tentang bucket yang sudah ada yang Anda pilih.

      • (Opsional) Untuk pemilik bucket yang diharapkan, masukkan ID AWS akun yang Anda harapkan sebagai pemilik bucket lokasi keluaran hasil kueri Anda. Kami menyarankan Anda memilih opsi ini sebagai tindakan keamanan tambahan bila memungkinkan. Jika ID akun pemilik bucket tidak cocok dengan ID yang Anda tentukan, upaya untuk menampilkan ke bucket akan gagal. Untuk informasi lebih lanjut, lihat Memverifikasi kepemilikan bucket dengan kondisi pemilik bucket di Panduan Pengguna Amazon S3.

      • (Opsional) Pilih Tetapkan kontrol penuh pemilik bucket atas hasil kueri jika lokasi hasil perhitungan Anda dimiliki oleh akun lain dan Anda ingin memberikan kontrol penuh atas hasil kueri Anda ke akun lain.

  3. (Opsional) Pilih Enkripsi hasil perhitungan, lalu pilih salah satu dari berikut ini:

    • SSE_S3 - Ini adalah kunci enkripsi sisi server yang dikelola S3.

    • SSE_KMS — Kunci yang Anda berikan. Untuk Pilih AWS KMS kunci, Anda dapat memilih salah satu dari berikut ini:

      • Gunakan kunci yang AWS dimiliki — Gunakan kunci yang AWS memiliki dan mengelola untuk Anda.

      • Pilih AWS KMS kunci yang berbeda (lanjutan) - Pilih atau buat kunci.

        • Untuk menggunakan kunci yang ada, gunakan kotak pencarian untuk memilih AWS KMS atau memasukkan kunci ARN.

        • Untuk membuat kunci di konsol KMS, pilih Buat AWS KMS kunci. Setelah Anda selesai membuat kunci di konsol KMS, kembali ke halaman Buat grup kerja di konsol Athena, lalu gunakan tombol Pilih tombol atau masukkan kotak pencarian ARN untuk memilih AWS KMS kunci yang baru saja Anda buat.

  4. (Opsional) Pengaturan lainnya - Perluas opsi ini untuk mengaktifkan atau menonaktifkan opsi Publikasikan CloudWatch metrik untuk grup kerja. Bidang ini dipilih secara default. Untuk informasi selengkapnya, lihat Memantau perhitungan Apache Spark denganCloudWatchmetrik.

  5. (Opsional) Tag - Gunakan opsi ini untuk menambahkan tag ke workgroup Anda. Untuk informasi selengkapnya, lihat Menandai sumber daya Athena.

  6. Pilih Buat grup kerja. Pesan memberi tahu Anda bahwa workgroup berhasil dibuat, dan workgroup ditampilkan dalam daftar workgroup.

Membuka penjelajah notebook dan beralih kelompok kerja

Sebelum Anda dapat menggunakan workgroup yang diaktifkan Spark yang baru saja Anda buat, Anda harus beralih ke workgroup. Untuk mengganti workgroup yang diaktifkan Spark, Anda dapat menggunakan opsi Workgroup di Notebook explorer atau editor Notebook.

catatan

Sebelum Anda mulai, periksa apakah browser Anda tidak memblokir cookie pihak ketiga. Browser apa pun yang memblokir cookie pihak ketiga baik secara default atau sebagai pengaturan yang diaktifkan pengguna akan mencegah notebook diluncurkan. Untuk informasi selengkapnya tentang mengelola cookie, lihat:

Untuk membuka penjelajah notebook dan beralih kelompok kerja
  1. Di panel navigasi, pilih Notebook explorer.

  2. Gunakan opsi Workgroup di kanan atas konsol untuk memilih workgroup yang diaktifkan Spark yang Anda buat. Contoh notebook ditampilkan dalam daftar notebook.

    Anda dapat menggunakan penjelajah notebook dengan cara berikut:

    • Pilih nama buku catatan yang ditautkan untuk membuka buku catatan di sesi baru.

    • Untuk mengganti nama, menghapus, atau mengekspor buku catatan Anda, gunakan menu Tindakan.

    • Untuk mengimpor file notebook, pilih Impor file.

    • Untuk membuat buku catatan, pilih Buat buku catatan.

Menjalankan contoh notebook

Notebook sampel menanyakan data dari dataset perjalanan taksi New York City yang tersedia untuk umum. Notebook ini memiliki contoh yang menunjukkan cara bekerja dengan Spark DataFrames, Spark SQL, dan. AWS Glue Data Catalog

Untuk menjalankan contoh notebook
  1. Di Notebook explorer, pilih nama tertaut dari contoh notebook.

    Ini memulai sesi notebook dengan parameter default dan membuka notebook di editor notebook. Sebuah pesan memberi tahu Anda bahwa sesi Apache Spark baru telah dimulai menggunakan parameter default (20 DPU maksimum).

  2. Untuk menjalankan sel secara berurutan dan mengamati hasilnya, pilih tombol Run sekali untuk setiap sel di notebook.

    • Gulir ke bawah untuk melihat hasilnya dan tampilkan sel baru.

    • Untuk sel yang memiliki perhitungan, bilah kemajuan menunjukkan persentase selesai, waktu berlalu, dan waktu yang tersisa.

    • Notebook contoh membuat database sampel dan tabel di akun Anda. Sel terakhir menghilangkan ini sebagai langkah pembersihan.

catatan

Jika Anda mengubah nama folder, tabel, atau database di buku catatan contoh, pastikan perubahan tersebut tercermin dalam peran IAM yang Anda gunakan. Jika tidak, notebook dapat gagal berjalan karena izin yang tidak mencukupi.

Mengedit detail sesi

Setelah memulai sesi buku catatan, Anda dapat mengedit detail sesi seperti format tabel, enkripsi, batas waktu idle sesi, dan jumlah maksimum unit pemrosesan data (DPU) bersamaan yang ingin Anda gunakan. DPU adalah ukuran relatif daya pemrosesan yang terdiri dari 4 vCPU kapasitas komputasi dan 16 GB memori.

Untuk mengedit detail sesi
  1. Di editor buku catatan, dari menu Sesi di kanan atas, pilih Edit sesi.

  2. Dalam kotak dialog Edit detail sesi, di bagian Properti percikan, pilih atau masukkan nilai untuk opsi berikut:

    • Format tabel tambahan — Pilih Linux Foundation Delta Lake, Apache Hudi, Apache Iceberg, atau Custom.

      • Untuk opsi tabel Delta, Hudi, atau Iceberg, properti tabel yang diperlukan untuk format tabel yang sesuai secara otomatis disediakan untuk Anda dalam opsi Edit dalam tabel dan Edit di JSON. Untuk informasi selengkapnya tentang menggunakan format tabel ini, lihatMenggunakan format tabel non-Hive di Amazon Athena untuk Apache Spark.

      • Untuk menambah atau menghapus properti tabel untuk Kustom atau jenis tabel lainnya, gunakan opsi Edit dalam tabel dan Edit di JSON.

      • Untuk opsi Edit dalam tabel, pilih Tambahkan properti untuk menambahkan properti, atau Hapus untuk menghapus properti. Untuk memasukkan nama properti dan nilainya, gunakan kotak Kunci dan Nilai.

      • Untuk opsi Edit di JSON, gunakan editor teks JSON untuk mengedit konfigurasi secara langsung.

        • Untuk menyalin teks JSON ke clipboard, pilih Salin.

        • Untuk menghapus semua teks dari editor JSON, pilih Hapus.

        • Untuk mengonfigurasi pembungkus garis atau memilih tema warna untuk editor JSON, pilih ikon pengaturan (roda gigi).

    • Aktifkan enkripsi Spark - — Pilih opsi ini untuk mengenkripsi data yang ditulis ke disk dan dikirim melalui node jaringan Spark. Untuk informasi selengkapnya, lihat Mengaktifkan enkripsi Apache Spark.

  3. Di bagian Parameter sesi, pilih atau masukkan nilai untuk opsi berikut:

    • Waktu tunggu siaga sesi - Pilih atau masukkan nilai antara 1 dan 480 menit. Defaultnya adalah 20.

    • Ukuran koordinator - Koordinator adalah eksekutor khusus yang mengatur pekerjaan pemrosesan dan mengelola pelaksana lain dalam sesi notebook. Saat ini, 1 DPU adalah nilai default dan hanya mungkin.

    • Ukuran pelaksana - Eksekutor adalah unit komputasi terkecil yang dapat diminta oleh sesi notebook dari Athena. Saat ini, 1 DPU adalah nilai default dan hanya mungkin.

    • Nilai konkuren maksimum - Jumlah maksimum DPU yang dapat berjalan secara bersamaan. Defaultnya adalah 20, minimum adalah 3, dan maksimum adalah 60. Meningkatkan nilai ini tidak secara otomatis mengalokasikan sumber daya tambahan, tetapi Athena akan berusaha mengalokasikan hingga maksimum yang ditentukan ketika beban komputasi memerlukannya dan ketika sumber daya tersedia.

  4. Pilih Simpan.

  5. Pada prompt Konfirmasi edit, pilih Konfirmasi.

    Athena menyimpan notebook Anda dan memulai sesi baru dengan parameter yang Anda tentukan. Spanduk di editor notebook memberi tahu Anda bahwa sesi baru telah dimulai dengan parameter yang dimodifikasi.

    catatan

    Athena mengingat pengaturan sesi Anda untuk notebook. Jika Anda mengedit parameter sesi dan kemudian mengakhiri sesi, Athena menggunakan parameter sesi yang Anda konfigurasikan saat berikutnya Anda memulai sesi untuk buku catatan.

Melihat sesi dan detail perhitungan

Setelah Anda menjalankan buku catatan, Anda dapat melihat sesi dan detail perhitungan Anda.

Untuk melihat detail sesi dan perhitungan
  1. Dari menu Sesi di kanan atas, pilih Lihat detail.

    • Tab Sesi saat ini menampilkan informasi tentang sesi saat ini, termasuk ID sesi, waktu pembuatan, status, dan grup kerja.

    • Tab Riwayat mencantumkan ID sesi untuk sesi sebelumnya. Untuk melihat detail sesi sebelumnya, pilih tab Riwayat, lalu pilih ID sesi dalam daftar.

    • Bagian Perhitungan menunjukkan daftar perhitungan yang berjalan di sesi.

  2. Untuk melihat detail perhitungan, pilih ID perhitungan.

  3. Pada halaman Detail perhitungan, Anda dapat melakukan hal berikut:

    • Untuk melihat kode perhitungan, lihat bagian Kode.

    • Untuk melihat hasil perhitungan, pilih tab Hasil.

    • Untuk mengunduh hasil yang Anda lihat dalam format teks, pilih Unduh hasil.

    • Untuk melihat informasi tentang hasil perhitungan di Amazon S3, pilih Lihat di S3.

Mengakhiri sesi

Untuk mengakhiri sesi notebook
  1. Di editor buku catatan, dari menu Sesi di kanan atas, pilih Terminate.

  2. Pada prompt Konfirmasi penghentian sesi, pilih Konfirmasi. Notebook Anda disimpan dan Anda dikembalikan ke editor notebook.

catatan

Menutup tab notebook di editor notebook tidak dengan sendirinya mengakhiri sesi untuk notebook aktif. Jika Anda ingin memastikan bahwa sesi dihentikan, gunakan opsi Session, Terminate.

Membuat buku catatan Anda sendiri

Setelah Anda membuat workgroup Athena yang diaktifkan Spark, Anda dapat membuat buku catatan Anda sendiri.

Untuk membuat buku catatan
  1. Jika panel navigasi konsol tidak terlihat, pilih menu ekspansi di sebelah kiri.

  2. Di panel navigasi konsol Athena, pilih Notebook explorer atau Notebook editor.

  3. Lakukan salah satu tindakan berikut:

    • Di penjelajah Notebook, pilih Buat buku catatan.

    • Di editor Notebook, pilih Buat buku catatan, atau pilih ikon plus (+) untuk menambahkan buku catatan.

  4. Di kotak dialog Buat buku catatan, untuk nama Notebook, masukkan nama.

  5. (Opsional) Perluas properti Spark, lalu pilih atau masukkan nilai untuk opsi berikut:

    • Format tabel tambahan — Pilih Linux Foundation Delta Lake, Apache Hudi, Apache Iceberg, atau Custom.

      • Untuk opsi tabel Delta, Hudi, atau Iceberg, properti tabel yang diperlukan untuk format tabel yang sesuai secara otomatis disediakan untuk Anda dalam opsi Edit dalam tabel dan Edit di JSON. Untuk informasi selengkapnya tentang menggunakan format tabel ini, lihatMenggunakan format tabel non-Hive di Amazon Athena untuk Apache Spark.

      • Untuk menambah atau menghapus properti tabel untuk Kustom atau jenis tabel lainnya, gunakan opsi Edit dalam tabel dan Edit di JSON.

      • Untuk opsi Edit dalam tabel, pilih Tambahkan properti untuk menambahkan properti, atau Hapus untuk menghapus properti. Untuk memasukkan nama properti dan nilainya, gunakan kotak Kunci dan Nilai.

      • Untuk opsi Edit di JSON, gunakan editor teks JSON untuk mengedit konfigurasi secara langsung.

        • Untuk menyalin teks JSON ke clipboard, pilih Salin.

        • Untuk menghapus semua teks dari editor JSON, pilih Hapus.

        • Untuk mengonfigurasi pembungkus garis atau memilih tema warna untuk editor JSON, pilih ikon pengaturan (roda gigi).

    • Aktifkan enkripsi Spark - — Pilih opsi ini untuk mengenkripsi data yang ditulis ke disk dan dikirim melalui node jaringan Spark. Untuk informasi selengkapnya, lihat Mengaktifkan enkripsi Apache Spark.

  6. (Opsional) Perluas parameter Sesi, lalu pilih atau masukkan nilai untuk opsi berikut:

    • Waktu tunggu siaga sesi - pilih atau masukkan nilai antara 1 dan 480 menit. Defaultnya adalah 20.

    • Ukuran koordinator - Koordinator adalah eksekutor khusus yang mengatur pekerjaan pemrosesan dan mengelola pelaksana lain dalam sesi notebook. Saat ini, 1 DPU adalah nilai default dan hanya mungkin. DPU (data processing unit) adalah ukuran relatif daya pemrosesan yang terdiri dari 4 vCPU kapasitas komputasi dan 16 GB memori.

    • Ukuran pelaksana - Eksekutor adalah unit komputasi terkecil yang dapat diminta oleh sesi notebook dari Athena. Saat ini, 1 DPU adalah nilai default dan hanya mungkin.

    • Nilai konkuren maksimum - Jumlah maksimum DPU yang dapat berjalan secara bersamaan. Defaultnya adalah 20 dan maksimum adalah 60. Meningkatkan nilai ini tidak secara otomatis mengalokasikan sumber daya tambahan, tetapi Athena akan berusaha mengalokasikan hingga maksimum yang ditentukan ketika beban komputasi memerlukannya dan ketika sumber daya tersedia.

  7. Pilih Buat. Notebook Anda terbuka di sesi baru di editor notebook.

Membuka buku catatan yang dibuat sebelumnya

Untuk membuka notebook yang dibuat sebelumnya
  1. Jika panel navigasi konsol tidak terlihat, pilih menu ekspansi di sebelah kiri.

  2. Di panel navigasi konsol Athena, pilih Editor buku catatan atau penjelajah Notebook.

  3. Lakukan salah satu tindakan berikut:

    • Di Editor buku catatan, pilih buku catatan di buku catatan terbaru atau daftar buku catatan tersimpan. Notebook dibuka di sesi baru.

    • Di Notebook explorer, pilih nama buku catatan dalam daftar. Notebook dibuka di sesi baru.

Untuk informasi selengkapnya tentang mengelola file buku catatan Anda, lihatMengelola file notebook.