Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Meluncurkan server sejarah Spark
Anda dapat menggunakan server riwayat Spark untuk memvisualisasikan log Spark pada infrastruktur Anda sendiri. Anda dapat melihat visualisasi yang sama di AWS Glue konsol untuk AWS Glue pekerjaan berjalan pada versi AWS Glue 4.0 atau yang lebih baru dengan log yang dihasilkan dalam format Standar (bukan warisan). Untuk informasi selengkapnya, lihat Memantau pekerjaan menggunakan UI web Apache Spark.
Anda dapat meluncurkan server riwayat Spark menggunakan AWS CloudFormation templat yang menghosting server pada sebuah EC2 instance, atau meluncurkan secara lokal menggunakan Docker.
Topik
Meluncurkan server riwayat Spark dan melihat UI Spark menggunakan AWS CloudFormation
Anda dapat menggunakan AWS CloudFormation template untuk memulai server riwayat Apache Spark dan melihat UI web Spark. Templat ini adalah contoh yang harus Anda modifikasi untuk memenuhi kebutuhan Anda.
Untuk memulai server riwayat Spark dan melihat UI Spark menggunakan AWS CloudFormation
-
Pilih salah satu tombol Luncurkan Tumpukan dalam tabel berikut. Ini meluncurkan tumpukan di AWS CloudFormation konsol.
-
Pada halaman Tentukan templat, pilih Selanjutnya.
-
Di halaman Tentukan detail tumpukan, masukkan Nama tumpukan. Masukkan informasi tambahan di bawah Parameter.
-
Konfigurasi Spark UI
Berikan informasi berikut ini:
-
Rentang alamat IP — Rentang alamat IP yang dapat digunakan untuk melihat Spark UI. Jika Anda ingin membatasi akses dari rentang alamat IP tertentu, maka Anda harus menggunakan nilai kustom.
-
Port server riwayat — Port untuk Spark UI. Anda dapat menggunakan nilai default.
-
Direktori log peristiwa - Pilih lokasi di mana log peristiwa Spark disimpan dari AWS Glue titik akhir pekerjaan atau pengembangan. Anda harus menggunakan
s3a://
untuk skema path log peristiwa. -
Lokasi paket Spark — Anda dapat menggunakan nilai default.
-
Path keystore — Path keystore SSL/TLS untuk HTTPS. Jika Anda ingin menggunakan file keystore kustom, Anda dapat menentukan path S3 di sini
s3://path_to_your_keystore_file
. Jika Anda membiarkan parameter ini kosong, maka keystore berbasis sertifikat self-signed akan dihasilkan dan digunakan. -
Kata sandi keystore - Masukkan kata sandi keystore SSL/TLS untuk HTTPS.
-
-
EC2 konfigurasi contoh
Saat diminta, berikan informasi berikut:
-
Jenis instans — Jenis EC2 instans Amazon yang menghosting server riwayat Spark. Karena template ini meluncurkan EC2 instans Amazon di akun Anda, EC2 biaya Amazon akan dibebankan di akun Anda secara terpisah.
-
ID AMI terbaru — ID AMI dari Amazon Linux 2 untuk instans server riwayat Spark. Anda dapat menggunakan nilai default.
-
ID VPC — ID virtual private cloud (VPC) untuk instans server riwayat Spark. Anda dapat menggunakan salah satu yang VPCs tersedia di akun Anda Menggunakan VPC default dengan ACL Jaringan default tidak disarankan. Untuk informasi selengkapnya, lihat VPC Default dan Subnet Default dan Membuat VPC di Panduan Pengguna Amazon VPC.
-
ID Subnet — ID untuk instans server riwayat Spark. Anda dapat menggunakan salah satu subnet di VPC Anda. Anda harus dapat mencapai jaringan dari klien Anda ke subnet tersebut. Jika Anda ingin mengakses melalui internet, maka Anda harus menggunakan subnet publik yang memiliki gateway internet di tabel rute.
-
-
Pilih Berikutnya.
-
-
Pada halaman Configure stack options, untuk menggunakan kredensyal pengguna saat ini untuk menentukan cara CloudFormation membuat, memodifikasi, atau menghapus sumber daya dalam tumpukan, pilih Berikutnya. Anda juga dapat menentukan peran di bagian Izin yang akan digunakan, bukan izin pengguna saat ini, lalu pilih Berikutnya.
-
Pada halaman Tinjau, tinjau templat.
Pilih Saya mengakui yang AWS CloudFormation mungkin membuat sumber daya IAM, lalu pilih Buat tumpukan.
-
Tunggu tumpukan yang akan dibuat.
-
Buka tab Output.
-
Salin URL SparkUiPublicUrljika Anda menggunakan subnet publik.
-
Salin URL SparkUiPrivateUrljika Anda menggunakan subnet pribadi.
-
-
Buka peramban web, dan tempel di URL. Hal ini memungkinkan Anda mengakses server dengan menggunakan HTTPS pada port yang ditentukan. Peramban Anda mungkin tidak mengenali sertifikat server, di mana Anda harus mengganti perlindungannya dan terus melanjutkan.
Meluncurkan server riwayat Spark dan melihat UI Spark menggunakan Docker
Jika Anda lebih suka akses lokal (tidak memiliki EC2 instance untuk server riwayat Apache Spark), Anda juga dapat menggunakan Docker untuk memulai server riwayat Apache Spark dan melihat UI Spark secara lokal. Dockerfile ini adalah contoh yang Anda harus modifikasi untuk memenuhi kebutuhan Anda.
Prasyarat
Untuk informasi tentang cara menginstal Docker di laptop Anda lihat Komunitas Docker Engine
Untuk memulai server riwayat Spark dan melihat Spark UI secara lokal menggunakan Docker
-
Unduh file dari GitHub.
Unduh Dockerfile dan dari
pom.xml
AWS Glue contoh kode. -
Tentukan apakah Anda ingin menggunakan kredensyal pengguna atau kredensyal pengguna gabungan untuk mengakses. AWS
-
Untuk menggunakan kredensyal pengguna saat ini untuk mengakses AWS, dapatkan nilai yang akan digunakan untuk
AWS_ACCESS_KEY_ID
danAWS_SECRET_ACCESS_KEY
dalam perintah.docker run
Untuk informasi lebih lanjut, lihat Mengelola access key untuk pengguna IAM dalam Panduan Pengguna IAM. -
Untuk menggunakan pengguna federasi SAMP 2.0 untuk mengakses AWS, dapatkan nilai untuk,
AWS_ACCESS_KEY_ID
,AWS_SECRET_ACCESS_KEY
dan.AWS_SESSION_TOKEN
Untuk informasi selengkapnya, lihat Meminta kredensyal keamanan sementara
-
-
Tentukan lokasi direktori log peristiwa Anda, untuk digunakan dalam
docker run
perintah. -
Buat gambar Docker menggunakan file di direktori lokal, menggunakan nama
glue/sparkui
, dan taglatest
.$ docker build -t glue/sparkui:latest .
-
Buat dan mulai wadah docker.
Dalam perintah berikut, gunakan nilai yang diperoleh sebelumnya pada langkah 2 dan 3.
-
Untuk membuat wadah docker menggunakan kredensyal pengguna Anda, gunakan perintah yang mirip dengan berikut ini
docker run -itd -e SPARK_HISTORY_OPTS="$SPARK_HISTORY_OPTS -Dspark.history.fs.logDirectory=s3a://
path_to_eventlog
-Dspark.hadoop.fs.s3a.access.key=AWS_ACCESS_KEY_ID
-Dspark.hadoop.fs.s3a.secret.key=AWS_SECRET_ACCESS_KEY
" -p 18080:18080 glue/sparkui:latest "/opt/spark/bin/spark-class org.apache.spark.deploy.history.HistoryServer" -
Untuk membuat wadah docker menggunakan kredensyal sementara, gunakan
org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider
sebagai penyedia, dan berikan nilai kredensi yang diperoleh pada langkah 2. Untuk informasi selengkapnya, lihat Menggunakan Kredensyal Sesi dengan AWSCredentials Penyedia Sementara di dokumentasiHadoop: Integrasi dengan Amazon Web Services. docker run -itd -e SPARK_HISTORY_OPTS="$SPARK_HISTORY_OPTS -Dspark.history.fs.logDirectory=s3a://
path_to_eventlog
-Dspark.hadoop.fs.s3a.access.key=AWS_ACCESS_KEY_ID
-Dspark.hadoop.fs.s3a.secret.key=AWS_SECRET_ACCESS_KEY
-Dspark.hadoop.fs.s3a.session.token=AWS_SESSION_TOKEN
-Dspark.hadoop.fs.s3a.aws.credentials.provider=org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider" -p 18080:18080 glue/sparkui:latest "/opt/spark/bin/spark-class org.apache.spark.deploy.history.HistoryServer"
catatan
Parameter konfigurasi ini berasal dari Hadoop-AWS Modul
. Anda mungkin perlu menambahkan konfigurasi spesifik berdasarkan kasus penggunaan Anda. Misalnya: pengguna di wilayah terisolasi perlu mengkonfigurasi file spark.hadoop.fs.s3a.endpoint
. -
-
Buka
http://localhost:18080
di browser Anda untuk melihat UI Spark secara lokal.