Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Setelah mengaktifkan pos pemeriksaan, SageMaker AI menyimpan pos pemeriksaan ke Amazon S3 dan menyinkronkan tugas pelatihan Anda dengan bucket checkpoint S3. Anda dapat menggunakan bucket tujuan umum S3 atau direktori S3 untuk bucket S3 pos pemeriksaan Anda.

Contoh berikut menunjukkan cara mengonfigurasi jalur pos pemeriksaan saat Anda membuat estimator SageMaker AI. Untuk mengaktifkan checkpointing, tambahkan checkpoint_local_path
parameter checkpoint_s3_uri
dan ke estimator Anda.
Contoh template berikut menunjukkan cara membuat estimator SageMaker AI generik dan mengaktifkan checkpointing. Anda dapat menggunakan template ini untuk algoritma yang didukung dengan menentukan parameter. image_uri
Untuk menemukan image Docker URIs untuk algoritme dengan checkpointing yang didukung oleh SageMaker AI, lihat Docker Registry Paths and Example Code. Anda juga dapat mengganti estimator
dan Estimator
dengan kelas induk estimator kerangka kerja SageMaker AI lainnya dan kelas estimator, sepertiTensorFlow
,, dan. PyTorch
MXNet
HuggingFace
XGBoost
import sagemaker
from sagemaker.estimator
import Estimator
bucket=sagemaker.Session().default_bucket()
base_job_name="sagemaker-checkpoint-test
"
checkpoint_in_bucket="checkpoints
"
# The S3 URI to store the checkpoints
checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket)
# The local path where the model will save its checkpoints in the training container
checkpoint_local_path="/opt/ml/checkpoints"
estimator = Estimator
(
...
image_uri="<ecr_path>
/<algorithm-name>
:<tag>
" # Specify to use built-in algorithms
output_path=bucket,
base_job_name=base_job_name,
# Parameters required to enable checkpointing
checkpoint_s3_uri=checkpoint_s3_bucket,
checkpoint_local_path=checkpoint_local_path
)
Dua parameter berikut menentukan jalur untuk checkpointing:
-
checkpoint_local_path
— Tentukan jalur lokal tempat model menyimpan pos pemeriksaan secara berkala dalam wadah pelatihan. Jalur default diatur ke'/opt/ml/checkpoints'
. Jika Anda menggunakan kerangka kerja lain atau membawa wadah pelatihan Anda sendiri, pastikan bahwa konfigurasi pos pemeriksaan skrip pelatihan Anda menentukan jalur ke.'/opt/ml/checkpoints'
catatan
Kami merekomendasikan untuk menentukan jalur lokal
'/opt/ml/checkpoints'
agar konsisten dengan pengaturan pos pemeriksaan SageMaker AI default. Jika Anda lebih suka menentukan jalur lokal Anda sendiri, pastikan Anda mencocokkan jalur penyimpanan pos pemeriksaan dalam skrip pelatihan Anda dancheckpoint_local_path
parameter estimator SageMaker AI. -
checkpoint_s3_uri
— URI ke bucket S3 tempat pos pemeriksaan disimpan secara real time. Anda dapat menentukan bucket direktori tujuan umum S3 atau S3 untuk menyimpan pos pemeriksaan Anda. Untuk informasi selengkapnya tentang bucket direktori S3, lihat Bucket direktori di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon.
Untuk menemukan daftar lengkap parameter estimator SageMaker AI, lihat Estimator API