Mengonfigurasi properti pekerjaan untuk pekerjaan shell Python di AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengonfigurasi properti pekerjaan untuk pekerjaan shell Python di AWS Glue

Anda dapat menggunakan tugas shell Python untuk menjalankan skrip Python sebagai shell di AWS Glue. Dengan pekerjaan shell Python, Anda dapat menjalankan skrip yang kompatibel dengan Python 3.6 atau Python 3.9.

Batasan

Perhatikan batasan pekerjaan Python Shell berikut ini:

  • Anda tidak dapat menggunakan bookmark tugas dengan tugas shell Python tersebut.

  • Anda tidak dapat mengemas pustaka Python apa pun sebagai file .egg di Python 3.9+. Sebaliknya, gunakan .whl.

  • --extra-filesOpsi ini tidak dapat digunakan, karena pembatasan salinan sementara data S3.

Mendefinisikan properti pekerjaan untuk pekerjaan shell Python

Bagian ini menjelaskan mendefinisikan properti pekerjaan diAWS Glue Studio, atau menggunakan AWS CLI.

AWS Glue Studio

Saat Anda menentukan pekerjaan shell Python AndaAWS Glue Studio, Anda memberikan beberapa properti berikut:

Peran IAM

Tentukan peran AWS Identity and Access Management (IAM) yang digunakan untuk otorisasi sumber daya yang digunakan untuk menjalankan pekerjaan dan mengakses penyimpanan data. Untuk informasi selengkapnya tentang izin menjalankan tugas di AWS Glue, lihat Manajemen identitas dan akses untuk AWS Glue.

Jenis

Pilih Python shell untuk menjalankan skrip Python dengan perintah tugas bernama pythonshell.

Versi Python

Pilih versi Python. Defaultnya adalah Python 3.9. Versi yang valid adalah Python 3.6 dan Python 3.9.

Muat pustaka analitik umum (Disarankan)

Pilih opsi ini untuk menyertakan pustaka umum untuk Python 3.9 di shell Python.

Jika pustaka Anda kustom atau bertentangan dengan yang sudah diinstal sebelumnya, Anda dapat memilih untuk tidak menginstal pustaka umum. Namun, Anda dapat menginstal pustaka tambahan selain pustaka umum.

Ketika Anda memilih opsi ini, library-set opsi diatur keanalytics. Saat Anda membatalkan pilihan ini, library-set opsi diatur kenone.

Nama file skrip dan jalur Skrip

Kode dalam Skrip mendefinisikan logika prosedural tugas Anda. Anda menyediakan nama skrip dan lokasi di Amazon Simple Storage Service (Amazon S3). Konfirmasi bahwa tidak ada file dengan nama yang sama sebagai direktori skrip pada path. Untuk mem-pelajari selengkapnya tentang menggunakan skrip, lihat AWS Glue panduan pemrograman.

Skrip

Kode dalam Skrip mendefinisikan logika prosedural tugas Anda. Anda dapat membuat kode skrip dengan Python 3.6 atau Python 3.9. Anda dapat mengedit skrip diAWS Glue Studio.

Unit pengolahan data

Jumlah maksimum unit pengolahan data (DPU) AWS Glue yang dapat dialokasikan ketika tugas ini berjalan. DPU adalah ukuran relatif daya pemrosesan yang terdiri dari 4 vCPU kapasitas komputasi dan 16 GB memori. Untuk informasi selengkapnya, lihat harga AWS Glue.

Anda dapat mengatur nilai-nya ke 0,0625 atau 1. Default-nya adalah 0,0625. Dalam kedua kasus, disk lokal untuk contoh akan menjadi 20GB.

CLI

Anda juga dapat membuat pekerjaan shell Python menggunakan AWS CLI, seperti pada contoh berikut.

aws glue create-job --name python-job-cli --role Glue_DefaultRole --command '{"Name" : "pythonshell", "PythonVersion": "3.9", "ScriptLocation" : "s3://DOC-EXAMPLE-BUCKET/scriptname.py"}' --max-capacity 0.0625
catatan

Anda tidak perlu menentukan versi AWS Glue karena parameter --glue-version tidak berlaku untuk pekerjaan AWS Glue shell. Versi apa pun yang ditentukan akan diabaikan.

Pekerjaan yang Anda buat dengan AWS CLI default ke Python 3. Versi Python yang valid adalah 3 (sesuai dengan 3.6), dan 3.9. Untuk menentukan Python 3.6, tambahkan tuple ini ke parameter: --command "PythonVersion":"3"

Untuk menentukan Python 3.9, tambahkan tuple ini ke parameter: --command "PythonVersion":"3.9"

Untuk mengatur kapasitas maksimal yang digunakan oleh tugas shell Python, berikan parameter --max-capacity. Untuk tugas shell Python, parameter --allocated-capacity tidak dapat digunakan.

Pustaka yang didukung untuk pekerjaan shell Python

Dalam Python shell menggunakan Python 3.9, Anda dapat memilih set perpustakaan untuk menggunakan set perpustakaan pra-paket untuk kebutuhan Anda. Anda dapat menggunakan library-set opsi untuk memilih kumpulan perpustakaan. Nilai yang valid adalahanalytics, dannone.

Lingkungan untuk menjalankan tugas shell Python mendukung perpustakaan berikut:

Versi Python Python 3.6 Python 3.9
Set perpustakaan N/A analitik tidak satupun
avro 1.11.0
awscli 116.242 1.23.5 1.23.5
awswrangler 2.15.1
botocore 1.12.232 1.24.21 1.23.5
boto3 1.9.203 1.21.21
elasticsearch 8.2.0
numpy 1.16.2 1.22.3
panda 0.24.2 1.4.2
psycopg2 2.9.3
pyathena 2.5.3
PyGreSQL 5.0.6
PyMySQL 1.0.2
pyodbc 4.0.32
pyorc 0.6.0
konektor pergeseran merah 2.0.907
permintaan 2.22.0 2.27.1
scikit-belajar 0.20.3 1.0.2
scipy 1.2.1 1.8.0
SQLAlchemy 1.4.36
s3fs 2022.3.0

Anda dapat menggunakan perpustakaan NumPy dalam sebuah tugas shell Python untuk komputasi ilmiah. Untuk informasi lebih lanjut, lihat NumPy. Contoh berikut menunjukkan NumPy skrip yang dapat digunakan dalam pekerjaan shell Python. Skrip mencetak "Hello world" dan hasil dari beberapa perhitungan matematis.

import numpy as np print("Hello world") a = np.array([20,30,40,50]) print(a) b = np.arange( 4 ) print(b) c = a-b print(c) d = b**2 print(d)

Menyediakan pustaka Python Anda sendiri

Menggunakan PIP

Python shell menggunakan Python 3.9 memungkinkan Anda menyediakan modul Python tambahan atau versi yang berbeda di tingkat pekerjaan. Anda dapat menggunakan --additional-python-modules dengan daftar modul Python yang dipisahkan koma untuk menambahkan modul baru atau mengubah versi dari modul yang ada. Anda tidak dapat menyediakan modul Python khusus yang dihosting di Amazon S3 dengan parameter ini saat menggunakan pekerjaan shell Python.

Misalnya untuk memperbarui atau menambahkan scikit-learn modul baru gunakan kunci dan nilai berikut:"--additional-python-modules", "scikit-learn==0.21.3".

AWS Glue menggunakan Python Package Installer (pip3) untuk menginstal modul tambahan. Anda dapat meneruskan opsi pip3 tambahan di dalam nilai. --additional-python-modules Misalnya, "scikit-learn==0.21.3 -i https://pypi.python.org/simple/". Ketidakcocokan atau batasan apa pun dari pip3 berlaku.

catatan

Untuk menghindari ketidakcocokan di masa mendatang, sebaiknya gunakan library yang dibuat untuk Python 3.9.

Menggunakan file Egg atau Whl

Anda mungkin sudah memiliki satu atau beberapa perpustakaan Python yang dikemas sebagai sebuah file .egg atau .whl. Jika demikian, Anda dapat menentukannya ke tugas Anda dengan menggunakan AWS Command Line Interface (AWS CLI) pada bendera "--extra-py-files", seperti dalam contoh berikut.

aws glue create-job --name python-redshift-test-cli --role role --command '{"Name" : "pythonshell", "ScriptLocation" : "s3://MyBucket/python/library/redshift_test.py"}' --connections Connections=connection-name --default-arguments '{"--extra-py-files" : ["s3://DOC-EXAMPLE-BUCKET/EGG-FILE", "s3://DOC-EXAMPLE-BUCKET/WHEEL-FILE"]}'

Jika Anda tidak benar-benar mengetahui cara membuat sebuah file .egg atau .whl dari perpustakaan Python, maka gunakan langkah-langkah berikut. Contoh ini berlaku di macOS, Linux, dan Windows Subsystem for Linux (WSL).

Untuk membuat sebuah file .egg atau file .whl Python
  1. Buat klaster Amazon Redshift di sebuah virtual private cloud (VPC), dan tambahkan beberapa data ke tabel.

  2. Buat AWS Glue koneksi untuk kombinasi VPC- SecurityGroup -Subnet yang Anda gunakan untuk membuat cluster. Menguji apakah koneksi berhasil.

  3. Buatlah sebuah direktori bernama redshift_example, dan buatlah file bernama setup.py. Tempel kode berikut ke setup.py.

    from setuptools import setup setup( name="redshift_module", version="0.1", packages=['redshift_module'] )
  4. Pada direktori redshift_example, buat redshift_module. Pada direktori redshift_module, buat file __init__.py dan file pygresql_redshift_common.py.

  5. Biarkan file __init__.py kosong. Di pygresql_redshift_common.py, tempel kode berikut. Ganti port, db_name, pengguna, dan password_for_user dengan detail khusus untuk klaster Amazon Redshift Anda. Ganti table_name dengan nama tabel di Amazon Redshift.

    import pg def get_connection(host): rs_conn_string = "host=%s port=%s dbname=%s user=%s password=%s" % ( host, port, db_name, user, password_for_user) rs_conn = pg.connect(dbname=rs_conn_string) rs_conn.query("set statement_timeout = 1200000") return rs_conn def query(con): statement = "Select * from table_name;" res = con.query(statement) return res
  6. Jika Anda belum sampai di langkah itu, ubah ke direktori redshift_example.

  7. Lakukan salah satu hal berikut ini:

    • Untuk membuat sebuah file .egg, jalankan perintah berikut.

      python setup.py bdist_egg
    • Untuk membuat sebuah file .whl, jalankan perintah berikut.

      python setup.py bdist_wheel
  8. Menginstal dependensi yang diperlukan untuk perintah sebelumnya.

  9. Perintah tersebut membuat file di direktori dist:

    • Jika Anda membuat sebuah file egg, namanya adalah redshift_module-0.1-py2.7.egg.

    • Jika Anda membuat sebuah file roda, namanya adalah redshift_module-0.1-py2.7-none-any.whl.

    Unggah file ini ke Amazon S3.

    Dalam contoh ini, jalur file yang diunggah adalah s3://DOC-EXAMPLE-BUCKET/EGG-FILE atau s3://DOC-EXAMPLE-BUCKET/WHEEL-FILE.

  10. Buat sebuah file Python untuk digunakan sebagai skrip untuk tugas AWS Glue, dan tambahkan kode berikut ke file tersebut.

    from redshift_module import pygresql_redshift_common as rs_common con1 = rs_common.get_connection(redshift_endpoint) res = rs_common.query(con1) print "Rows in the table cities are: " print res
  11. Unggah file sebelumnya ke Amazon S3. Dalam contoh ini, jalur file yang diunggah adalah s3://DOC-EXAMPLE-BUCKET/scriptname.py.

  12. Buat sebuah tugas shell Python menggunakan skrip ini. Pada konsol AWS Glue, pada halaman Properti Tugas, tentukan path ke file .egg/.whl pada kotak Path perpustakaan Python. Jika Anda memiliki beberapa file .egg/.whl dan file Python, berikan daftar dipisahkan koma dalam kotak ini.

    Saat memodifikasi atau mengganti nama .egg, nama file harus menggunakan nama default yang dihasilkan oleh perintah "python setup.py bdist_egg" atau harus mematuhi konvensi penamaan modul Python. Untuk informasi selengkapnya, lihat bagian Panduan Gaya untuk Kode Python.

    Menggunakan AWS CLI, membuat pekerjaan dengan perintah, seperti pada contoh berikut.

    aws glue create-job --name python-redshift-test-cli --role Role --command '{"Name" : "pythonshell", "ScriptLocation" : "s3://DOC-EXAMPLE-BUCKET/scriptname.py"}' --connections Connections="connection-name" --default-arguments '{"--extra-py-files" : ["s3://DOC-EXAMPLE-BUCKET/EGG-FILE", "s3://DOC-EXAMPLE-BUCKET/WHEEL-FILE"]}'

    Ketika tugas tersebut berjalan, skrip akan mencetak baris yang dibuat dalam tabel table_name di klaster Amazon Redshift.

Gunakan AWS CloudFormation dengan pekerjaan shell Python di AWS Glue

Anda dapat menggunakan AWS CloudFormation dengan pekerjaan shell Python di. AWS Glue Berikut adalah contohnya:

AWSTemplateFormatVersion: 2010-09-09 Resources: Python39Job: Type: 'AWS::Glue::Job' Properties: Command: Name: pythonshell PythonVersion: '3.9' ScriptLocation: 's3://bucket/location' MaxRetries: 0 Name: python-39-job Role: RoleName

Grup Amazon CloudWatch Logs untuk output pekerjaan shell Python adalah. /aws-glue/python-jobs/output Untuk kesalahan, lihat grup log /aws-glue/python-jobs/error.