Aktifkan pos pemeriksaan - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Aktifkan pos pemeriksaan

Setelah mengaktifkan pos pemeriksaan, SageMaker AI menyimpan pos pemeriksaan ke Amazon S3 dan menyinkronkan tugas pelatihan Anda dengan bucket checkpoint S3. Anda dapat menggunakan bucket tujuan umum S3 atau direktori S3 untuk bucket S3 pos pemeriksaan Anda.

Diagram arsitektur penulisan pos pemeriksaan selama pelatihan.

Contoh berikut menunjukkan cara mengonfigurasi jalur pos pemeriksaan saat Anda membuat estimator SageMaker AI. Untuk mengaktifkan checkpointing, tambahkan checkpoint_local_path parameter checkpoint_s3_uri dan ke estimator Anda.

Contoh template berikut menunjukkan cara membuat estimator SageMaker AI generik dan mengaktifkan checkpointing. Anda dapat menggunakan template ini untuk algoritma yang didukung dengan menentukan parameter. image_uri Untuk menemukan image Docker URIs untuk algoritme dengan checkpointing yang didukung oleh SageMaker AI, lihat Docker Registry Paths and Example Code. Anda juga dapat mengganti estimator dan Estimator dengan kelas induk estimator kerangka kerja SageMaker AI lainnya dan kelas estimator, sepertiTensorFlow,, dan. PyTorch MXNet HuggingFace XGBoost

import sagemaker from sagemaker.estimator import Estimator bucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) # The local path where the model will save its checkpoints in the training container checkpoint_local_path="/opt/ml/checkpoints" estimator = Estimator( ... image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms output_path=bucket, base_job_name=base_job_name, # Parameters required to enable checkpointing checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path=checkpoint_local_path )

Dua parameter berikut menentukan jalur untuk checkpointing:

  • checkpoint_local_path— Tentukan jalur lokal tempat model menyimpan pos pemeriksaan secara berkala dalam wadah pelatihan. Jalur default diatur ke'/opt/ml/checkpoints'. Jika Anda menggunakan kerangka kerja lain atau membawa wadah pelatihan Anda sendiri, pastikan bahwa konfigurasi pos pemeriksaan skrip pelatihan Anda menentukan jalur ke. '/opt/ml/checkpoints'

    catatan

    Kami merekomendasikan untuk menentukan jalur lokal '/opt/ml/checkpoints' agar konsisten dengan pengaturan pos pemeriksaan SageMaker AI default. Jika Anda lebih suka menentukan jalur lokal Anda sendiri, pastikan Anda mencocokkan jalur penyimpanan pos pemeriksaan dalam skrip pelatihan Anda dan checkpoint_local_path parameter estimator SageMaker AI.

  • checkpoint_s3_uri— URI ke bucket S3 tempat pos pemeriksaan disimpan secara real time. Anda dapat menentukan bucket direktori tujuan umum S3 atau S3 untuk menyimpan pos pemeriksaan Anda. Untuk informasi selengkapnya tentang bucket direktori S3, lihat Bucket direktori di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon.

Untuk menemukan daftar lengkap parameter estimator SageMaker AI, lihat Estimator API di dokumentasi Amazon SageMaker Python SDK.