Bagaimana Amazon SageMaker Menjalankan Gambar Pelatihan Anda - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bagaimana Amazon SageMaker Menjalankan Gambar Pelatihan Anda

Anda dapat menggunakan skrip entrypoint khusus untuk mengotomatiskan infrastruktur untuk melatih di lingkungan produksi. Jika Anda meneruskan skrip entrypoint Anda ke wadah Docker Anda, Anda juga dapat menjalankannya sebagai skrip mandiri tanpa membangun kembali gambar Anda. SageMakermemproses gambar pelatihan Anda menggunakan skrip titik masuk kontainer Docker.

Bagian ini menunjukkan cara menggunakan entrypoint khusus tanpa menggunakan toolkit pelatihan. Jika Anda ingin menggunakan entrypoint khusus tetapi tidak terbiasa dengan cara mengonfigurasi wadah Docker secara manual, kami sarankan Anda menggunakan perpustakaan toolkit SageMaker pelatihan sebagai gantinya. Untuk informasi selengkapnya tentang cara menggunakan toolkit pelatihan, lihatMengadaptasi wadah pelatihan Anda sendiri.

Secara default, SageMaker cari skrip yang dipanggil train di dalam wadah Anda. Anda juga dapat secara manual memberikan entrypoint kustom Anda sendiri dengan menggunakan ContainerArguments dan ContainerEntrypoint parameter API. AlgorithmSpecification

Anda memiliki dua opsi berikut untuk mengonfigurasi wadah Docker Anda secara manual untuk menjalankan gambar Anda.

  • Gunakan CreateTrainingJobAPI dan wadah Docker dengan instruksi entrypoint yang terdapat di dalamnya.

  • Gunakan CreateTrainingJob API, dan teruskan skrip pelatihan Anda dari luar wadah Docker Anda.

Jika Anda meneruskan skrip pelatihan Anda dari luar wadah Docker Anda, Anda tidak perlu membangun kembali wadah Docker saat Anda memperbarui skrip Anda. Anda juga dapat menggunakan beberapa skrip berbeda untuk dijalankan di wadah yang sama.

Skrip entrypoint Anda harus berisi kode pelatihan untuk gambar Anda. Jika Anda menggunakan source_dir parameter opsional di dalam estimator, parameter tersebut harus mereferensikan jalur Amazon S3 relatif ke folder yang berisi skrip titik masuk Anda. Anda dapat mereferensikan beberapa file menggunakan source_dir parameter. Jika Anda tidak menggunakansource_dir, Anda dapat menentukan titik masuk menggunakan parameter. entry_point Untuk contoh skrip entrypoint kustom yang berisi estimator, lihat Membawa Model Anda Sendiri dengan SageMaker Mode Skrip.

SageMaker pelatihan model mendukung bucket direktori S3 Express One Zone berkinerja tinggi sebagai lokasi input data untuk mode file, mode file cepat, dan mode pipa. Anda juga dapat menggunakan bucket direktori S3 Express One Zone untuk menyimpan output pelatihan Anda. Untuk menggunakan S3 Express One Zone, berikan URI bucket direktori S3 Express One Zone, bukan bucket tujuan umum Amazon S3. Untuk informasi selengkapnya, lihat S3 Express One Zone.

Jalankan pekerjaan pelatihan dengan skrip entrypoint yang dibundel di dalam wadah Docker

SageMaker dapat menjalankan skrip titik masuk yang dibundel di dalam wadah Docker Anda.

  • Secara default, Amazon SageMaker menjalankan penampung berikut.

    docker run image train
  • SageMaker mengganti pernyataan CMD default dalam wadah dengan menentukan train argumen setelah nama gambar. Dalam wadah Docker Anda, gunakan exec bentuk ENTRYPOINT instruksi berikut.

    ENTRYPOINT ["executable", "param1", "param2", ...]

    Contoh berikut menunjukkan bagaimana menentukan instruksi entrypoint python dipanggil. k-means-algorithm.py

    ENTRYPOINT ["python", "k-means-algorithm.py"]

    execBentuk ENTRYPOINT instruksi memulai eksekusi secara langsung, bukan sebagai anak dari. /bin/sh Ini memungkinkannya menerima sinyal seperti SIGTERM dan SIGKILL dari SageMaker API. Ketentuan berikut berlaku saat menggunakan SageMaker API.

    • CreateTrainingJobAPI memiliki kondisi penghentian yang mengarahkan SageMaker untuk menghentikan pelatihan model setelah waktu tertentu.

    • Berikut ini menunjukkan StopTrainingJobAPI. API ini mengeluarkan yang setara dengan perintah batas waktu 2 menit untuk menghentikan penampung yang ditentukan dengan anggun. docker stop

      docker stop -t 120

      Perintah mencoba menghentikan wadah yang sedang berjalan dengan mengirimkan SIGTERM sinyal. Setelah batas waktu 2 menit, API mengirim SIGKILL dan menghentikan kontainer secara paksa. Jika wadah menangani SIGTERM dengan anggun dan keluar dalam waktu 120 detik sejak menerimanya, tidak ada SIGKILL yang dikirim.

    Jika Anda ingin akses ke artefak model perantara setelah SageMaker menghentikan pelatihan, tambahkan kode untuk menangani penyimpanan artefak di handler AndaSIGTERM.

  • Jika Anda berencana menggunakan perangkat GPU untuk pelatihan model, pastikan kontainer Anda nvidia-docker kompatibel. Sertakan hanya toolkit CUDA pada wadah; jangan bundel driver NVIDIA dengan gambar. Untuk informasi lebih lanjut tentangnvidia-docker, lihat NVIDIA/NVIDIA-docker.

  • Anda tidak dapat menggunakan tini penginisialisasi sebagai skrip titik masuk Anda dalam SageMaker wadah karena menjadi bingung oleh argumen dan. train serve

  • /opt/mldan semua subdirektori dicadangkan oleh SageMaker pelatihan. Saat membuat image Docker algoritme Anda, pastikan Anda tidak menempatkan data apa pun yang diperlukan oleh algoritme Anda di direktori ini. Karena jika Anda melakukannya, data mungkin tidak lagi terlihat selama pelatihan.

Untuk menggabungkan skrip shell atau Python Anda di dalam image Docker Anda, atau untuk menyediakan skrip dalam bucket Amazon S3 atau dengan menggunakan ( AWS Command Line Interface CLI), lanjutkan ke bagian berikut.

Bundel skrip shell Anda dalam wadah Docker

Jika Anda ingin menggabungkan skrip shell khusus di dalam gambar Docker Anda, gunakan langkah-langkah berikut.

  1. Salin skrip shell Anda dari direktori kerja Anda ke dalam wadah Docker Anda. Cuplikan kode berikut menyalin skrip entrypoint kustom custom_entrypoint.sh dari direktori kerja saat ini ke wadah Docker yang terletak di. mydir Contoh berikut mengasumsikan bahwa image Docker dasar telah diinstal Python.

    FROM <base-docker-image>:<tag> # Copy custom entrypoint from current dir to /mydir on container COPY ./custom_entrypoint.sh /mydir/
  2. Buat dan dorong wadah Docker ke Amazon Elastic Container Registry (Amazon ECR) dengan mengikuti petunjuk di Mendorong gambar Docker di Panduan Pengguna Amazon ECR.

  3. Luncurkan pekerjaan pelatihan dengan menjalankan AWS CLI perintah berikut.

    aws --region <your-region> sagemaker create-training-job \ --training-job-name <your-training-job-name> \ --role-arn <your-execution-role-arn> \ --algorithm-specification '{ \ "TrainingInputMode": "File", \ "TrainingImage": "<your-ecr-image>", \ "ContainerEntrypoint": ["/bin/sh"], \ "ContainerArguments": ["/mydir/custom_entrypoint.sh"]}' \ --output-data-config '{"S3OutputPath": "s3://custom-entrypoint-output-bucket/"}' \ --resource-config '{"VolumeSizeInGB":10,"InstanceCount":1,"InstanceType":"ml.m5.2xlarge"}' \ --stopping-condition '{"MaxRuntimeInSeconds": 180}'

Bundel skrip Python Anda dalam wadah Docker

Untuk menggabungkan skrip Python khusus di dalam gambar Docker Anda, gunakan langkah-langkah berikut.

  1. Salin skrip Python Anda dari direktori kerja Anda ke dalam wadah Docker Anda. Cuplikan kode berikut menyalin skrip entrypoint kustom custom_entrypoint.py dari direktori kerja saat ini ke wadah Docker yang terletak di. mydir

    FROM <base-docker-image>:<tag> # Copy custom entrypoint from current dir to /mydir on container COPY ./custom_entrypoint.py /mydir/
  2. Luncurkan pekerjaan pelatihan dengan menjalankan AWS CLI perintah berikut.

    --algorithm-specification '{ \ "TrainingInputMode": "File", \ "TrainingImage": "<your-ecr-image>", \ "ContainerEntrypoint": ["python"], \ "ContainerArguments": ["/mydir/custom_entrypoint.py"]}' \

Jalankan pekerjaan pelatihan dengan skrip titik masuk di luar wadah Docker

Anda dapat menggunakan wadah Docker Anda sendiri untuk pelatihan dan meneruskan skrip titik masuk dari luar wadah Docker. Ada beberapa manfaat untuk menyusun skrip entrypoint Anda di luar wadah. Jika Anda memperbarui skrip entrypoint Anda, Anda tidak perlu membangun kembali wadah Docker. Anda juga dapat menggunakan beberapa skrip berbeda untuk dijalankan di wadah yang sama.

Tentukan lokasi skrip pelatihan Anda menggunakan ContainerEntrypoint dan ContainerArguments parameter AlgorithmSpecificationAPI. Titik masuk dan argumen ini berperilaku dengan cara yang sama seperti titik masuk dan argumen Docker. Nilai dalam parameter ini mengesampingkan yang sesuai ENTRYPOINT atau CMD disediakan sebagai bagian dari wadah Docker.

Saat Anda meneruskan skrip entrypoint kustom Anda ke wadah pelatihan Docker Anda, input yang Anda berikan menentukan perilaku penampung.

  • Misalnya, jika Anda hanya menyediakanContainerEntrypoint, sintaks permintaan menggunakan CreateTrainingJob API adalah sebagai berikut.

    { "AlgorithmSpecification": { "ContainerEntrypoint": ["string"], ... } }

    Kemudian, backend SageMaker pelatihan menjalankan entrypoint khusus Anda sebagai berikut.

    docker run --entrypoint <ContainerEntrypoint> image
    catatan

    Jika ContainerEntrypoint disediakan, backend SageMaker pelatihan menjalankan gambar dengan titik masuk yang diberikan dan mengganti default pada gambar. ENTRYPOINT

  • Jika Anda hanya menyediakanContainerArguments, SageMaker asumsikan bahwa wadah Docker berisi skrip titik masuk. Sintaks permintaan menggunakan CreateTrainingJob API adalah sebagai berikut.

    { "AlgorithmSpecification": { "ContainerArguments": ["arg1", "arg2"], ... } }

    Backend SageMaker pelatihan menjalankan entrypoint kustom Anda sebagai berikut.

    docker run image <ContainerArguments>
  • Jika Anda memberikan keduanya ContainerEntrypoint danContainerArguments, maka sintaks permintaan menggunakan CreateTrainingJob API adalah sebagai berikut.

    { "AlgorithmSpecification": { "ContainerEntrypoint": ["string"], "ContainerArguments": ["arg1", "arg2"], ... } }

    Backend SageMaker pelatihan menjalankan entrypoint kustom Anda sebagai berikut.

    docker run --entrypoint <ContainerEntrypoint> image <ContainerArguments>

Anda dapat menggunakan InputDataConfig sumber apa pun yang didukung di CreateTrainingJob API untuk menyediakan skrip titik masuk untuk menjalankan image pelatihan Anda.

Berikan skrip entrypoint Anda di bucket Amazon S3

Untuk menyediakan skrip entrypoint khusus menggunakan bucket S3, gunakan S3DataSource parameter DataSourceAPI untuk menentukan lokasi skrip. Jika Anda menggunakan S3DataSource parameter, berikut ini diperlukan.

Contoh berikut memiliki skrip bernama custom_entrypoint.sh ditempatkan di jalur ke bucket s3://<bucket-name>/<bucket prefix>/custom_entrypoint.sh S3.

#!/bin/bash echo "Running custom_entrypoint.sh" echo "Hello you have provided the following arguments: " "$@"

Selanjutnya, Anda harus mengatur konfigurasi saluran data input untuk menjalankan pekerjaan pelatihan. Lakukan ini baik dengan menggunakan secara AWS CLI langsung atau dengan file JSON.

Konfigurasikan saluran data input menggunakan AWS CLI dengan file JSON

Untuk mengkonfigurasi saluran data input Anda dengan file JSON, gunakan AWS CLI seperti yang ditunjukkan dalam struktur kode berikut. Pastikan bahwa semua bidang berikut menggunakan sintaks permintaan yang ditentukan dalam CreateTrainingJobAPI.

// run-my-training-job.json { "AlgorithmSpecification": { "ContainerEntrypoint": ["/bin/sh"], "ContainerArguments": ["/opt/ml/input/data/<your_channel_name>/custom_entrypoint.sh"], ... }, "InputDataConfig": [ { "ChannelName": "<your_channel_name>", "DataSource": { "S3DataSource": { "S3DataDistributionType": "FullyReplicated", "S3DataType": "S3Prefix", "S3Uri": "s3://<bucket-name>/<bucket_prefix>" } }, "InputMode": "File", }, ...] }

Selanjutnya, jalankan AWS CLI perintah untuk meluncurkan pekerjaan pelatihan dari file JSON sebagai berikut.

aws sagemaker create-training-job --cli-input-json file://run-my-training-job.json

Konfigurasikan saluran data input menggunakan AWS CLI langsung

Untuk mengkonfigurasi saluran data input Anda tanpa file JSON, gunakan struktur AWS CLI kode berikut.

aws --region <your-region> sagemaker create-training-job \ --training-job-name <your-training-job-name> \ --role-arn <your-execution-role-arn> \ --algorithm-specification '{ \ "TrainingInputMode": "File", \ "TrainingImage": "<your-ecr-image>", \ "ContainerEntrypoint": ["/bin/sh"], \ "ContainerArguments": ["/opt/ml/input/data/<your_channel_name>/custom_entrypoint.sh"]}' \ --input-data-config '[{ \ "ChannelName":"<your_channel_name>", \ "DataSource":{ \ "S3DataSource":{ \ "S3DataType":"S3Prefix", \ "S3Uri":"s3://<bucket-name>/<bucket_prefix>", \ "S3DataDistributionType":"FullyReplicated"}}}]' \ --output-data-config '{"S3OutputPath": "s3://custom-entrypoint-output-bucket/"}' \ --resource-config '{"VolumeSizeInGB":10,"InstanceCount":1,"InstanceType":"ml.m5.2xlarge"}' \ --stopping-condition '{"MaxRuntimeInSeconds": 180}'