Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Melakukan konfigurasi AWS Glue sesi interaktif untuk Jupyter dan AWS Glue Studio buku catatan
Pengantar Sihir Jupyter
Jupyter Magics adalah perintah yang dapat dijalankan di awal sel atau sebagai seluruh badan sel. Sihir dimulai dengan %
untuk sihir garis dan untuk sihir sel. %%
Line-magics seperti %region
dan %connections
dapat dijalankan dengan beberapa sihir dalam sel, atau dengan kode yang disertakan dalam badan sel seperti contoh berikut.
%region us-east-2 %connections my_rds_connection dy_f = glue_context.create_dynamic_frame.from_catalog(database='rds_tables', table_name='sales_table')
Sihir sel harus menggunakan seluruh sel dan dapat memiliki rentang perintah beberapa baris. Contoh di bawah %%sql
ini.
%%sql select * from rds_tables.sales_table
Sihir didukung oleh AWS Glue sesi interaktif untuk Jupyter
Berikut ini adalah sihir yang dapat Anda gunakan dengan AWS Glue sesi interaktif untuk notebook Jupyter.
Sesi sihir
Nama | Tipe | Deskripsi |
---|---|---|
%help
|
T/A | Kembalikan daftar deskripsi dan jenis input untuk semua perintah ajaib. |
%profile |
String | Tentukan profil dalam AWS konfigurasi Anda untuk digunakan sebagai penyedia kredensyal. |
%region |
String |
Tentukan Wilayah AWS; di mana untuk menginisialisasi sesi. Default dari Contoh: |
%idle_timeout |
Int |
Jumlah menit tidak aktif setelah sesi akan batas waktu setelah sel dieksekusi. Nilai batas waktu idle default untuk ETL sesi Spark adalah batas waktu default, 2880 menit (48 jam). Untuk jenis sesi lainnya, lihat dokumentasi untuk jenis sesi tersebut. Contoh: |
%session_id |
T/A | Kembalikan ID sesi untuk sesi yang sedang berjalan. |
%session_id_prefix |
String |
Tentukan string yang akan mendahului semua sesi IDs dalam format [session_id_prefix] - [session_id]. Jika ID sesi tidak disediakan, acak UUID akan dihasilkan. Keajaiban ini tidak didukung saat Anda menjalankan Notebook Jupyter di. AWS Glue Studio Contoh: |
%status |
Mengembalikan status saat ini AWS Glue sesi termasuk durasi, konfigurasi dan mengeksekusi pengguna/peran. | |
%stop_session
| Hentikan sesi saat ini. | |
%list_sessions |
Daftar semua sesi yang sedang berjalan berdasarkan nama dan ID. | |
%session_type |
String |
Menetapkan jenis sesi ke salah satu Streaming,ETL, atau Ray. Contoh: |
%glue_version |
String |
Versi AWS Glue untuk digunakan oleh sesi ini. Contoh: |
Sihir untuk memilih jenis pekerjaan
Nama | Tipe | Deskripsi |
---|---|---|
%streaming |
String | Mengubah jenis sesi menjadi AWS Glue Streaming. |
%etl |
String | Mengubah jenis sesi menjadi AWS Glue ETL. |
%glue_ray | String | Mengubah jenis sesi menjadi AWS Glue untuk Ray. Lihat Magics didukung oleh sesi interaktif AWS Glue Ray. |
AWS Glue untuk sihir konfigurasi Spark
%%configure
Keajaibannya adalah kamus berformat json yang terdiri dari semua parameter konfigurasi untuk sesi. Setiap parameter dapat ditentukan di sini atau melalui sihir individu.
Nama | Tipe | Deskripsi |
---|---|---|
%%configure
|
Kamus |
Tentukan kamus JSON berformat yang terdiri dari semua parameter konfigurasi untuk sesi. Setiap parameter dapat ditentukan di sini atau melalui sihir individu. Untuk daftar parameter dan contoh tentang cara menggunakan |
%iam_role |
String |
Tentukan IAM peran ARN untuk menjalankan sesi Anda. Default dari ~/.aws/configure. Contoh: |
%number_of_workers |
Int |
Jumlah pekerja dari worker_type ditentukan yang dialokasikan ketika sebuah tugas berjalan. Contoh: |
%additional_python_modules |
Daftar |
Daftar modul Python tambahan yang dipisahkan koma untuk disertakan dalam cluster Anda (bisa dari PyPI atau S3). Contoh: |
%%tags |
String |
Menambahkan tag ke sesi. Tentukan tag dalam kurung kurawal {}. Setiap pasangan nama tag diapit dalam tanda kurung (“”) dan dipisahkan dengan koma (,).
Gunakan
|
%%assume_role |
Kamus |
Tentukan kamus berformat json atau ARN string IAM peran untuk membuat sesi akses lintas akun. Contoh denganARN:
Contoh dengan kredenensi:
|
%%konfigurasi argumen sihir sel
%%configure
Keajaibannya adalah kamus berformat json yang terdiri dari semua parameter konfigurasi untuk sesi. Setiap parameter dapat ditentukan di sini atau melalui sihir individu. Lihat di bawah untuk contoh argumen yang didukung oleh sihir %%configure
sel. Gunakan --
awalan untuk menjalankan argumen yang ditentukan untuk pekerjaan tersebut. Contoh:
%%configure { "--user-jars-first": "true", "--enable-glue-datacatalog": "false" }
Untuk informasi selengkapnya tentang parameter tugas, lihatParameter Tugas.
Konfigurasi Sesi
Parameter | Jenis | Deskripsi |
---|---|---|
max_retries |
Int | Jumlah waktu maksimum berapa kali percobaan yang bisa dilakukan untuk tugas ini jika gagal.
|
max_concurrent_runs |
Int | Jumlah maksimum proses bersamaan yang diizinkan untuk suatu tugas. Contoh:
|
Parameter sesi
Parameter | Jenis | Deskripsi |
---|---|---|
--enable-spark-ui |
Boolean | Aktifkan Spark UI untuk memantau dan men-debug AWS Glue ETLpekerjaan.
|
--spark-event-logs-path |
String | Menentukan jalur Amazon S3. Saat menggunakan fitur pemantauan UI Spark. Contoh:
|
--script_location |
String | Menentukan path S3 untuk skrip yang menjalankan tugas. Contoh:
|
--SECURITY_CONFIGURATION |
String | Nama konfigurasi AWS Glue keamanan Contoh:
|
--job-language |
String | Bahasa pemrograman skrip. Menerima nilai 'scala' atau 'python'. Defaultnya adalah 'python'. Contoh:
|
--class |
String | Kelas Scala yang berfungsi sebagai titik masuk untuk skrip Scala Anda. Default-nya adalah null. Contoh:
|
--user-jars-first |
Boolean | Memprioritaskan JAR file tambahan pelanggan di classpath. Default-nya adalah null. Contoh:
|
--use-postgres-driver |
Boolean | Memprioritaskan JDBC driver Postgres di jalur kelas untuk menghindari konflik dengan pengemudi. Amazon Redshift JDBC Default-nya adalah null. Contoh:
|
--extra-files |
Daftar (string) | Jalur Amazon S3 ke file tambahan, seperti file konfigurasi yang AWS Glue salinan ke direktori kerja skrip Anda sebelum menjalankannya. Contoh:
|
--job-bookmark-option |
String | Mengontrol perilaku dari sebuah bookmark tugas. Menerima nilai 'job-bookmark-enable', '' atau job-bookmark-disable 'job-bookmark-pause'. Defaultnya adalah job-bookmark-disable ''. Contoh:
|
--TempDir |
String | Menentukan path Amazon S3 untuk sebuah bucket yang dapat digunakan sebagai direktori sementara untuk tugas itu. Default-nya adalah null. Contoh:
|
--enable-s3-parquet-optimized-committer |
Boolean | Memungkinkan pelaksana dioptimalkan-S3 EMRFS Amazon untuk menulis data Parquet ke Amazon S3. Default adalah 'benar'. Contoh:
|
--enable-rename-algorithm-v2 |
Boolean | Menetapkan versi algoritma EMRFS rename ke versi 2. Default adalah 'benar'. Contoh:
|
--enable-glue-datacatalog |
Boolean | Memungkinkan Anda untuk menggunakan AWS Glue Katalog Data sebagai metastore Apache Spark Hive. Contoh:
|
--enable-metrics |
Boolean | Memungkinkan pengumpulan metrik untuk pemrofilan tugas untuk menjalankan tugas. Default-nya adalah 'SALAH'. Contoh:
|
--enable-continuous-cloudwatch-log |
Boolean | Memungkinkan pencatatan log berkelanjutan waktu nyata untuk AWS Glue Pekerjaanan/ tugas Default-nya adalah 'SALAH'. Contoh:
|
--enable-continuous-log-filter |
Boolean | Menentukan filter standar atau tanpa filter saat Anda membuat atau mengedit tugas yang diaktifkan untuk pencatatan log berkelanjutan. Default adalah 'benar'. Contoh:
|
--continuous-log-stream-prefix |
String | Menentukan prefiks pengaliran Amazon CloudWatch log kustom untuk tugas yang diaktifkan untuk pencatatan log berkelanjutan. Default-nya adalah null. Contoh:
|
--continuous-log-conversionPattern |
String | Menentukan pola log konversi kustom untuk tugas yang diaktifkan untuk pencatatan log berkelanjutan. Default-nya adalah null. Contoh:
|
--conf |
String | Mengontrol parameter konfigurasi Spark. Ini untuk kasus penggunaan lanjutan. Gunakan --conf sebelum setiap parameter. Contoh:
|
batas waktu | Int | Menentukan jumlah waktu maksimum sesi Spark harus menunggu pernyataan selesai sebelum menghentikannya.
|
auto-scaling | Boolean | Menentukan apakah akan menggunakan auto-scaling atau tidak.
|
Pekerjaan percikan (ETL& streaming) sihir
Nama | Tipe | Deskripsi |
---|---|---|
%worker_type |
String | Standar, G.1X, atau G.2X. number_of_workers harus diatur juga. Worker_type default adalah G.1X. |
%connections |
Daftar |
Tentukan daftar koneksi yang dipisahkan koma untuk digunakan dalam sesi. Contoh:
|
%extra_py_files |
Daftar | Daftar terpisah koma file Python tambahan dari Amazon S3. |
%extra_jars |
Daftar | Daftar guci tambahan yang dipisahkan koma untuk disertakan dalam cluster. |
%spark_conf |
String | Tentukan konfigurasi percikan khusus untuk sesi Anda. Misalnya, %spark_conf spark.serializer=org.apache.spark.serializer.KryoSerializer . |
Pekerjaan Magics for Ray
Nama | Tipe | Deskripsi |
---|---|---|
%min_workers |
Int | Jumlah minimum pekerja yang dialokasikan untuk tugas Ray. Default: 1. Contoh: |
%object_memory_head |
Int | Persentase memori bebas pada node kepala instance setelah awal yang hangat. Minimum: 0. Maksimum: 100. Contoh: |
%object_memory_worker | Int | Persentase memori bebas pada node pekerja instance setelah awal yang hangat. Minimum: 0. Maksimum: 100. Contoh: |
Sihir aksi
Nama | Tipe | Deskripsi |
---|---|---|
%%sql |
String |
Jalankan SQL kode. Semua baris setelah Contoh: |
%matplot |
Sosok Matplotlib |
Visualisasikan data Anda menggunakan pustaka matplotlib. Contoh:
|
%plotly |
Sosok yang cepat |
Visualisasikan data Anda menggunakan pustaka plotly. Contoh:
|
Sesi penamaan
AWS Glue sesi interaktif adalah AWS sumber daya dan membutuhkan nama. Nama harus unik untuk setiap sesi dan mungkin dibatasi oleh IAM administrator Anda. Untuk informasi selengkapnya, lihat Sesi interaktif dengan IAM. Kernel Jupyter secara otomatis menghasilkan nama sesi unik untuk Anda. Namun sesi dapat diberi nama secara manual dengan dua cara:
-
Menggunakan file AWS Command Line Interface konfigurasi yang terletak di
~.aws/config
. Lihat Menyiapkan AWS Config dengan file. AWS Command Line Interface -
Menggunakan
%session_id_prefix
sihir. Lihat Sihir didukung oleh AWS Glue sesi interaktif untuk Jupyter .
Nama sesi dihasilkan sebagai berikut:
Ketika awalan dan session_id disediakan: nama sesi akan menjadi {prefix} - {}. UUID
Ketika tidak ada yang disediakan: nama sesi akan menjadi {UUID}.
Awalan nama sesi memungkinkan Anda mengenali sesi saat mencantumkannya di konsol AWS CLI atau.
Menentukan IAM peran untuk sesi interaktif
Anda harus menentukan peran AWS Identity and Access Management (IAM) yang akan digunakan AWS Glue ETLkode yang Anda jalankan dengan sesi interaktif.
Peran tersebut membutuhkan IAM izin yang sama dengan yang diperlukan untuk menjalankan AWS Glue Pekerjaanan/ tugas Lihat Membuat IAM peran untuk AWS Glueuntuk informasi lebih lanjut tentang membuat peran untuk AWS Glue pekerjaan dan sesi interaktif.
IAMperan dapat ditentukan dengan dua cara:
-
Menggunakan file AWS Command Line Interface konfigurasi yang terletak di
~.aws/config
(Disarankan). Untuk informasi selengkapnya, lihat Mengonfigurasi sesi dengan ~/.aws/config.catatan
Ketika
%profile
sihir digunakan, konfigurasi untukglue_iam_role
profil itu dihormati. -
Menggunakan sihir %iam_role. Untuk informasi selengkapnya, lihat Sihir didukung oleh AWS Glue sesi interaktif untuk Jupyter .
Mengkonfigurasi sesi dengan profil bernama
AWS Glue sesi interaktif menggunakan kredensyal yang sama dengan AWS Command Line Interface atau boto3, dan sesi interaktif menghormati dan bekerja dengan profil bernama seperti yang AWS CLI ditemukan di (~/.aws/config
Linux dan macOS) atau (Windows). %USERPROFILE%\.aws\config
Untuk informasi selengkapnya, lihat Menggunakan profil bernama.
Sesi interaktif mengambil keuntungan dari profil bernama dengan memungkinkan AWS Glue Peran Layanan dan Awalan ID Sesi yang akan ditentukan dalam profil. Untuk mengonfigurasi peran profil, tambahkan baris untuk iam_role
kunci dan/atau session_id_prefix
profil bernama Anda seperti yang ditunjukkan di bawah ini. session_id_prefix
Tidak memerlukan tanda kutip. Misalnya, jika Anda ingin menambahkan
session_id_prefix
, masukkan nilaisession_id_prefix=myprefix
.
[default] region=us-east-1 aws_access_key_id=AKIAIOSFODNN7EXAMPLE aws_secret_access_key=wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY glue_iam_role=arn:aws:iam::<AccountID>:role/<GlueServiceRole> session_id_prefix=<prefix_for_session_names> [user1] region=eu-west-1 aws_access_key_id=AKIAI44QH8DHBEXAMPLE aws_secret_access_key=je7MtGbClwBF/2Zp9Utk/h3yCo8nvbEXAMPLEKEY glue_iam_role=arn:aws:iam::<AccountID>:role/<GlueServiceRoleUser1> session_id_prefix=<prefix_for_session_names_for_user1>
Jika Anda memiliki metode khusus untuk menghasilkan kredensyal, Anda juga dapat mengonfigurasi profil Anda untuk menggunakan credential_process
parameter dalam file Anda~/.aws/config
. Sebagai contoh:
[profile developer] region=us-east-1 credential_process = "/Users/Dave/generate_my_credentials.sh" --username helen
Anda dapat menemukan detail selengkapnya tentang sumber kredensyal melalui credential_process
parameter di sini: Sumber kredensyal dengan proses eksternal.
Jika suatu wilayah atau tidak iam_role
diatur dalam profil yang Anda gunakan, Anda harus menentukannya menggunakan %region
dan %iam_role
sihir di sel pertama yang Anda jalankan.