AWS Batch SageMaker AI トレーニングジョブのサポート - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Batch SageMaker AI トレーニングジョブのサポート

AWS Batch ジョブキューは、送信されたジョブをコンピューティングリソースで実行する前に保存し、優先順位を付けます。が提供するサーバーレスジョブのスケジュールと優先順位付けツールを活用するために、SageMaker AI トレーニングジョブをジョブキューに送信できます AWS Batch。

仕組み

次の手順では、SageMaker AI トレーニング AWS Batch ジョブで ジョブキューを使用する方法のワークフローについて説明します。詳細なチュートリアルとサンプルノートブックについては、はじめに「」セクションを参照してください。

  • AWS Batch と必要なアクセス許可を設定します。詳細については、AWS Batchユーザーガイド の「AWS Batch のセットアップ」を参照してください。

  • コンソールまたは を使用して、次の AWS Batch リソースを作成します AWS CLI。

  • トレーニングコンテナイメージなど、SageMaker AI トレーニングジョブの詳細とリクエストを設定します。トレーニングジョブを AWS Batch キューに送信するには、 AWS CLI、 AWS SDK for Python (Boto3)、または SageMaker AI Python SDK を使用できます。

  • トレーニングジョブをジョブキューに送信します。ジョブを送信するには、次のオプションを使用できます。

    • AWS Batch SubmitServiceJob API を使用します。

    • SageMaker AI Python SDK の aws_batchモジュールを使用します。TrainingQueue オブジェクトとモデルトレーニングオブジェクト (推定器や ModelTrainer など) を作成したら、 queue.submit()メソッドを使用してトレーニングジョブを TrainingQueue に送信できます。

  • ジョブを送信したら、 コンソール、 AWS Batch DescribeServiceJob API、または SageMaker AI DescribeTrainingJob API を使用して AWS Batch ジョブキューとジョブステータスを表示します。

コストと可用性

トレーニングジョブの料金の詳細については、Amazon SageMakerの料金」を参照してください。では AWS Batch、Amazon EC2 インスタンスなど、使用された AWS リソースに対してのみ料金が発生します。詳細については、「AWS Batch 料金表」を参照してください。

は、トレーニングジョブ AWS リージョン が利用可能な任意の で SageMaker AI トレーニングジョブ AWS Batch に使用できます。詳細については、Amazon SageMaker AI エンドポイントとクォータ」を参照してください。

必要に応じて必要な容量を確保するために、SageMaker AI Flexible Training Plans (FTP) を使用できます。これらのプランでは、トレーニングジョブの容量を予約できます。 AWS Batchをキューイング機能と組み合わせると、プランの期間中の使用率を最大化できます。詳細については、「Reserve training plans for you training jobs or HyperPod clusters」を参照してください。

はじめに

AWS Batch ジョブキューをセットアップして SageMaker AI トレーニングジョブを送信する方法のチュートリアルについては、 AWS Batch ユーザーガイドの「Getting started AWS Batch with SageMaker AI」を参照してください。

SageMaker AI Python SDK でaws_batchモジュールを使用する方法を示す Jupyter ノートブックについては、AWS Batch amazon-sagemaker-examples GitHub リポジトリの「 for SageMaker AI Training jobs notebook examples」を参照してください。