Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengelola dependensi Python di requirements.txt
Halaman ini menjelaskan praktik terbaik yang kami sarankan untuk menginstal dan mengelola dependensi Python dalam file untuk lingkungan Alur Kerja Terkelola Amazon requirements.txt
untuk Apache Airflow.
Daftar Isi
Menguji DAG menggunakan utilitas Amazon MWAA CLI
-
Utilitas antarmuka baris perintah (CLI) mereplikasi Alur Kerja Terkelola Amazon untuk lingkungan Apache Airflow secara lokal.
-
CLI membangun image container Docker secara lokal yang mirip dengan image produksi Amazon MWAA. Ini memungkinkan Anda menjalankan lingkungan Apache Airflow lokal untuk mengembangkan dan menguji DAG, plugin khusus, dan dependensi sebelum menerapkan ke Amazon MWAA.
-
Untuk menjalankan CLI, lihat aws-mwaa-local-runner
aktif. GitHub
Menginstal dependensi Python menggunakan PyPi Format File Persyaratan .org
Opsi satu: dependensi Python dari Indeks Paket Python
Bagian berikut menjelaskan cara menentukan dependensi Python dari Indeks Paketrequirements.txt
Opsi dua: Roda Python (.whl)
Roda Python adalah format paket yang dirancang untuk mengirimkan perpustakaan dengan artefak yang dikompilasi. Ada beberapa manfaat paket roda sebagai metode untuk menginstal dependensi di Amazon MWAA:
-
Instalasi lebih cepat - file WHL disalin ke wadah sebagai satu ZIP, dan kemudian diinstal secara lokal, tanpa harus mengunduh masing-masing.
-
Konflik yang lebih sedikit — Anda dapat menentukan kompatibilitas versi untuk paket Anda terlebih dahulu. Akibatnya, tidak perlu mengerjakan versi yang kompatibel
pip
secara rekursif. -
Ketahanan yang lebih besar — Dengan pustaka yang dihosting secara eksternal, persyaratan hilir dapat berubah, mengakibatkan ketidakcocokan versi antar kontainer di lingkungan Amazon MWAA. Dengan tidak bergantung pada sumber eksternal untuk dependensi, setiap kontainer memiliki pustaka yang sama terlepas dari kapan setiap wadah dipakai.
Kami merekomendasikan metode berikut untuk menginstal dependensi Python dari arsip roda Python () di file Anda. .whl
requirements.txt
Metode
Menggunakan plugins.zip
file di bucket Amazon S3
Penjadwal Apache Airflow, pekerja, dan server web (untuk Apache Airflow v2.2.2 dan yang lebih baru) mencari plugin khusus selama startup pada wadah Fargate yang AWS dikelola untuk lingkungan Anda di. /usr/local/airflow/plugins/
Proses ini dimulai sebelum Amazon MWAA untuk dependensi *
pip3 install -r requirements.txt
Python dan startup layanan Apache Airflow. plugins.zip
File digunakan untuk file apa pun yang tidak ingin terus diubah selama eksekusi lingkungan, atau Anda mungkin tidak ingin memberikan akses ke pengguna yang menulis DAG. Misalnya, file roda pustaka Python, file PEM sertifikat, dan file YAMAL konfigurasi.
Bagian berikut menjelaskan cara memasang roda yang ada di plugins.zip
file di bucket Amazon S3 Anda.
-
Unduh file WHL yang diperlukan Anda dapat menggunakan
pip download
dengan yang ada requirements.txt
di Amazon MWAA local-runneratau wadah Amazon Linux 2 lainnya untuk menyelesaikan dan mengunduh file roda Python yang diperlukan. $
pip3 download -r "$AIRFLOW_HOME/dags/requirements.txt" -d "$AIRFLOW_HOME/plugins"
$
cd "
$AIRFLOW_HOME
/plugins"$
zip "
$AIRFLOW_HOME
/plugins.zip" * -
Tentukan jalur di Anda
requirements.txt
. Tentukan direktori plugin di bagian atas requirements.txt Anda menggunakan--find-links
dan menginstruksikan untuk pip
tidak menginstal dari sumber lain menggunakan--no-index
, seperti yang ditunjukkan dalam berikut --find-links /usr/local/airflow/plugins --no-index
contoh roda di requirements.txt
Contoh berikut mengasumsikan Anda telah mengunggah roda dalam
plugins.zip
file di root bucket Amazon S3 Anda. Sebagai contoh:--find-links /usr/local/airflow/plugins --no-index numpy
Amazon MWAA mengambil
numpy-1.20.1-cp37-cp37m-manylinux1_x86_64.whl
roda dariplugins
folder dan menginstalnya di lingkungan Anda.
Menggunakan file WHL yang dihosting di URL
Bagian berikut menjelaskan cara memasang roda yang di-host di URL. URL harus dapat diakses publik, atau dapat diakses dari dalam VPC Amazon khusus yang Anda tentukan untuk lingkungan Amazon MWAA Anda.
-
Berikan URL. Berikan URL ke roda di Anda
requirements.txt
.contoh arsip roda pada URL publik
Contoh berikut mengunduh roda dari situs publik.
--find-links https://files.pythonhosted.org/packages/ --no-index
Amazon MWAA mengambil roda dari URL yang Anda tentukan dan menginstalnya di lingkungan Anda.
catatan
URL tidak dapat diakses dari server web pribadi yang menginstal persyaratan di Amazon MWAA v2.2.2 dan yang lebih baru.
Membuat file WHL dari DAG
Jika Anda memiliki server web pribadi menggunakan Apache Airflow v2.2.2 atau yang lebih baru dan Anda tidak dapat menginstal persyaratan karena lingkungan Anda tidak memiliki akses ke repositori eksternal, Anda dapat menggunakan DAG berikut untuk mengambil persyaratan MWAA Amazon yang ada dan mengemasnya di Amazon S3:
from airflow import DAG from airflow.operators.bash_operator import BashOperator from airflow.utils.dates import days_ago S3_BUCKET = 'my-s3-bucket' S3_KEY = 'backup/plugins_whl.zip' with DAG(dag_id="create_whl_file", schedule_interval=None, catchup=False, start_date=days_ago(1)) as dag: cli_command = BashOperator( task_id="bash_command", bash_command=f"mkdir /tmp/whls;pip3 download -r /usr/local/airflow/requirements/requirements.txt -d /tmp/whls;zip -j /tmp/plugins.zip /tmp/whls/*;aws s3 cp /tmp/plugins.zip s3://
{S3_BUCKET}
/{S3_KEY}
" )
Setelah menjalankan DAG, gunakan file baru ini sebagai Amazon MWAA Andaplugins.zip
, opsional, dikemas dengan plugin lain. Kemudian, perbarui Anda requirements.txt
sebelumnya dengan --find-links /usr/local/airflow/plugins
dan --no-index
tanpa menambahkan. --constraint
Metode ini memungkinkan Anda untuk menggunakan perpustakaan yang sama secara offline.
Opsi tiga: Dependensi Python yang dihosting pada Repo yang Sesuai /PEP-503 pribadi PyPi
Bagian berikut menjelaskan cara menginstal tambahan Apache Airflow yang di-host di URL pribadi dengan otentikasi.
-
Tambahkan nama pengguna dan kata sandi Anda sebagai opsi konfigurasi Apache Airflow. Sebagai contoh:
-
foo.user
:YOUR_USER_NAME
-
foo.pass
:YOUR_PASSWORD
-
-
Buat
requirements.txt
file Anda. Gantikan placeholder dalam contoh berikut dengan URL pribadi Anda, dan nama pengguna dan kata sandi yang telah Anda tambahkan sebagai opsi konfigurasi Apache Airflow. Sebagai contoh:--index-url https://${AIRFLOW__FOO__USER}:${AIRFLOW__FOO__PASS}@my.privatepypi.com
-
Tambahkan pustaka tambahan apa pun ke
requirements.txt
file Anda. Sebagai contoh:--index-url https://${AIRFLOW__FOO__USER}:${AIRFLOW__FOO__PASS}@my.privatepypi.com my-private-package==1.2.3
Mengaktifkan log di konsol Amazon MWAA
Peran eksekusi untuk lingkungan Amazon MWAA Anda memerlukan izin untuk mengirim log ke CloudWatch Log. Untuk memperbarui izin peran eksekusi, lihatPeran eksekusi Amazon MWAA.
Anda dapat mengaktifkan log Apache Airflow diINFO
,, WARNING
ERROR
, atau CRITICAL
level. Saat Anda memilih level log, Amazon MWAA mengirimkan log untuk level tersebut dan semua tingkat keparahan yang lebih tinggi. Misalnya, jika Anda mengaktifkan log di INFO
level tersebut, Amazon MWAA mengirimkan INFO
log danWARNING
,ERROR
, dan tingkat CRITICAL
log ke CloudWatch Log. Sebaiknya aktifkan log Apache Airflow pada INFO
level agar Scheduler dapat melihat log yang diterima untuk file. requirements.txt
![Gambar ini menunjukkan cara mengaktifkan log di tingkat INFO.](images/mwaa-console-logs-info.png)
Melihat log di konsol CloudWatch Log
Anda dapat melihat log Apache Airflow untuk Scheduler yang menjadwalkan alur kerja Anda dan mengurai folder Anda. dags
Langkah-langkah berikut menjelaskan cara membuka grup log untuk Scheduler di konsol Amazon MWAA, dan melihat log Apache Airflow di konsol Log. CloudWatch
Untuk melihat log untuk requirements.txt
-
Buka halaman Lingkungan
di konsol Amazon MWAA. -
Pilih lingkungan.
-
Pilih grup log penjadwal aliran udara di panel Pemantauan.
-
Pilih
requirements_install_ip
log masuk Aliran log. -
Anda akan melihat daftar paket yang diinstal pada lingkungan di
/usr/local/airflow/.local/bin
. Sebagai contoh:Collecting appdirs==1.4.4 (from -r /usr/local/airflow/.local/bin (line 1)) Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb28kjdsfiuyweb47389789vxbmnbjhsdgf5463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl Collecting astroid==2.4.2 (from -r /usr/local/airflow/.local/bin (line 2))
-
Tinjau daftar paket dan apakah salah satu dari ini mengalami kesalahan selama instalasi. Jika terjadi kesalahan, Anda mungkin melihat kesalahan yang mirip dengan yang berikut ini:
2021-03-05T14:34:42.731-07:00 No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4)) No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4))
Melihat kesalahan di Apache Airflow UI
Anda mungkin juga ingin memeriksa Apache Airflow UI untuk mengidentifikasi apakah kesalahan mungkin terkait dengan masalah lain. Kesalahan paling umum yang mungkin Anda temui dengan Apache Airflow di Amazon MWAA adalah:
Broken DAG: No module named
x
Jika Anda melihat kesalahan ini di Apache Airflow UI, Anda mungkin kehilangan ketergantungan yang diperlukan dalam file Anda. requirements.txt
Masuk ke Apache Airflow
Anda memerlukan Kebijakan akses Apache Airflow UI: Akses AmazonMwaa WebServer izin untuk AWS akun Anda di AWS Identity and Access Management (IAM) untuk melihat UI Apache Airflow Anda.
Untuk mengakses UI Apache Airflow Anda
-
Buka halaman Lingkungan
di konsol Amazon MWAA. -
Pilih lingkungan.
-
Pilih Buka UI Aliran Udara.
Contoh requirements.txt
skenario
Anda dapat mencampur dan mencocokkan berbagai format dalam format Andarequirements.txt
. Contoh berikut menggunakan kombinasi dari berbagai cara untuk menginstal ekstra.
contoh Ekstra di PyPi .org dan URL publik
Anda perlu menggunakan --index-url
opsi saat menentukan paket dari PyPi .org, selain paket pada URL publik, seperti URL repo yang sesuai dengan PEP 503 kustom.
aws-batch == 0.6 phoenix-letter >= 0.3 --index-url http://dist.repoze.org/zope2/2.10/simple zopelib