バッチ予測を行う - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

バッチ予測を行う

データセット全体に対して予測を行う場合は、バッチ予測を行います。Amazon Canvas SageMaker は、最大PBsサイズのデータセットのバッチ予測をサポートします。

バッチ予測には次の 2 種類があります。

  • 手動バッチ予測は、1 回限りの予測を行いたいデータセットがある場合に使用します。

  • 自動バッチ予測は、特定のデータセットが更新されるたびに実行される設定をセットアップするときです。例えば、インベントリデータの Canvas SageMaker データセットに毎週更新を設定している場合、データセットを更新するたびに実行される自動バッチ予測を設定できます。自動バッチ予測ワークフローを設定した後で、設定の詳細を表示および編集する方法の詳細については、「自動化を管理する」を参照してください。データセットの自動更新設定の詳細については、「データセットの自動更新を設定する」を参照してください。

注記

自動バッチ予測は、ローカルアップロードまたは Amazon S3 を通じてインポートされたデータセットにのみ設定できます。また、自動バッチ予測はユーザーが Canvas アプリケーションにログインしている間のみ実行されます。Canvas からログアウトすると、ログインし直すと自動バッチ予測ジョブが再開されます。

開始するには、バッチ予測データセットの要件について次のセクションを確認し、次の手動または自動バッチ予測ワークフローのいずれかを選択します。

バッチ予測データセットの要件

バッチ予測を行うには、データセットが「データセットを作成する」で説明されている要件を満たしていることを確認します。データセットが 5 GB を超える場合、Canvas は Amazon EMR Serverless を使用してデータを処理し、より小さなバッチに分割します。データが分割されると、Canvas は SageMaker バッチ変換を使用して予測を行います。バッチ予測の実行後に、これらのサービスの両方から料金が発生する場合があります。詳細については、「Canvas の料金」を参照してください。

互換性のないスキーマがある場合、一部のデータセットで予測を実行できない場合があります。スキーマとは組織構造のことです。表形式のデータセットの場合は、列の名前と列内のデータのデータ型がスキーマになります。互換性のないスキーマは、次のような理由から発生することがあります。

  • 予測に使用するデータセットの列数が、モデルの構築に使用するデータセットよりも少ない。

  • データセットの構築に使用した列のデータ型が、予測に使用するデータセットのデータ型と異なる。

  • 予測に使用するデータセットとモデルの構築に使用したデータセットに、一致しない列名がある。列名では大文字と小文字が区別されます。Column1column1 は区別されます。

バッチ予測を正常に行うには、バッチ予測データセットのスキーマを、モデルのトレーニングに使用したデータセットと一致させます。

注記

バッチ予測では、モデルの構築時にいずれかの列をドロップすると、Canvas は削除された列を予測結果に戻します。ただし、Canvas はドロップされた列を時系列モデルのバッチ予測に追加しません。

手動バッチ予測を行う

モデルタイプに基づいて手動バッチ予測を行うには、次のいずれかの手順を選択します。

数値、カテゴリ、時系列予測モデルを使用して手動バッチ予測を行う

数値、カテゴリ、時系列予測モデルタイプに対して手動バッチ予測を行うには、次の手順を実行します。

  1. Canvas アプリケーションの左側のナビゲーションペインで、[自分のモデル] を選択します。

  2. [自分のモデル] ページで、モデルを選択します。

  3. モデルを開いたら、[予測] タブを選択します。

  4. [予測を実行] ページで、[バッチ予測] を選択します。

  5. データセットの選択 を選択して、予測を生成するデータセットを選択します。

  6. 使用可能なデータセットのリストからデータセットを選択し、予測を開始するを選択して予測を取得します。

予測ジョブの実行が完了すると、予測セクションの同じページに出力データセットが一覧表示されます。このデータセットには結果が格納されており、[その他のオプション] アイコン ( ) を選択すると、[プレビュー] を選択して出力データをプレビューできます。入力データが予測と一致し、予測が正しい確率を確認できます。その後、[予測をダウンロード] を選択して、結果をファイルとしてダウンロードできます。

画像予測モデルを使用して手動バッチ予測を行う

単一ラベルの画像予測モデルを使用して手動バッチ予測を行うには、次の手順に従います。

  1. Canvas アプリケーションの左側のナビゲーションペインで、[自分のモデル] を選択します。

  2. [自分のモデル] ページで、モデルを選択します。

  3. モデルを開いたら、[予測] タブを選択します。

  4. [予測を実行] ページで、[バッチ予測] を選択します。

  5. データセットを既にインポートしている場合は、[データセットを選択] を選択します。インポートしていない場合は、[新しいデータセットのインポート] を選択すると、データのインポートワークフローが表示されます。

  6. 使用可能なデータセットのリストからデータセットを選択し、[予測を生成] を選択して予測を生成します。

予測ジョブの実行が完了すると、[予測を実行] ページの [予測] の下に出力データセットが表示されます。このデータセットには結果が格納されており、[その他のオプション] アイコン ( ) を選択すると、[予測結果を表示] を選択して出力データを確認できます。画像と予測ラベル、信頼スコアを確認できます。次に、予測のダウンロードを選択して、結果を CSVまたは ZIP ファイルとしてダウンロードできます。

画像予測モデルを使用して手動バッチ予測を行う

マルチカテゴリテキスト予測モデルを使用して手動バッチ予測を行うには、次の手順に従います。

  1. Canvas アプリケーションの左側のナビゲーションペインで、[自分のモデル] を選択します。

  2. [自分のモデル] ページで、モデルを選択します。

  3. モデルを開いたら、[予測] タブを選択します。

  4. [予測を実行] ページで、[バッチ予測] を選択します。

  5. データセットを既にインポートしている場合は、[データセットを選択] を選択します。インポートしていない場合は、[新しいデータセットのインポート] を選択すると、データのインポートワークフローが表示されます。選択するデータセットのソース列は、モデルを構築したデータセットのソース列と同じでなければなりません。

  6. 使用可能なデータセットのリストからデータセットを選択し、[予測を生成] を選択して予測を生成します。

予測ジョブの実行が完了すると、[予測を実行] ページの [予測] の下に出力データセットが表示されます。このデータセットには結果が格納されており、[その他のオプション] アイコン ( ) を選択すると、[プレビュー] を選択して出力データを確認できます。画像と予測ラベル、信頼スコアを確認できます。その後、[予測をダウンロード] を選択して、結果をダウンロードできます。

自動バッチ予測を行う

自動バッチ予測のスケジュールを設定するには、次の手順に従います。

  1. Canvas の左側のナビゲーションペインで [自分のモデル] を選択します。

  2. モデルを選択します。

  3. [予測] タブを選択します。

  4. [バッチ予測] を選択します。

  5. [予測を生成] で、[自動] を選択します。

  6. [バッチ予測の自動化] ダイアログボックスが表示されます。[データセットを選択] を選択して、予測を自動化するデータセットを選択します。ローカルアップロードまたは Amazon S3 を介してインポートされたデータセットのみ選択できることに注意してください。

  7. データセットを選択したら、[設定] を選択します。

構成を設定すると、Canvas はデータセットのバッチ予測ジョブを実行します。その後、手動または自動で データセットを更新する たびに、毎回別のバッチ予測ジョブが実行されます。

予測ジョブの実行が完了すると、[予測を実行] ページの [予測] の下に出力データセットが表示されます。このデータセットには結果が格納されており、[その他のオプション] アイコン ( ) を選択すると、[プレビュー] を選択して出力データをプレビューできます。入力データが予測と一致し、予測が正しい確率を確認できます。次に、[ダウンロード] を選択して結果をダウンロードします。

以下のセクションでは、Canvas アプリケーションの [データセット] ページから自動バッチ予測設定を表示、更新、削除する方法について説明します。Canvas で設定できる自動更新は最大 20 件までです。[自動化] ページでの自動バッチ予測ジョブの履歴の表示、自動設定の変更方法の詳細については、「自動化を管理する」を参照してください。

自動バッチ予測設定を編集する

更新頻度の変更など、データセットの自動更新設定を変更する場合があります。また、自動更新設定を無効にして、データセットの更新を一時停止する場合もあります。

バッチ予測設定を編集する際、ターゲットデータセットは変更できますが、頻度は変更できません (自動バッチ予測はデータセットが更新されるたびに行われるため)。

自動更新設定を編集するには、次の手順に従います。

  1. モデルの [予測] タブに移動します。

  2. [予測] で、[構成] タブを選択します。

  3. 設定を見つけて、[その他のオプション] アイコン ( ) を選択します。

  4. ドロップダウンメニューで、[構成を更新] を選択します。

  5. [バッチ予測の自動化] ダイアログボックスが開きます。別のデータセットを選択し、[設定] を選択して変更を保存できます。

これで、自動バッチ予測の設定が更新されます。

自動バッチ予測を一時停止するには、次の手順に従って自動設定を無効にします。

  1. モデルの [予測] タブに移動します。

  2. [予測] で、[構成] タブを選択します。

  3. リストで設定を探し、[自動更新] トグルを無効にします。

自動バッチ予測は一時停止されます。トグルを有効に戻すと、いつでも更新スケジュールを再開できます。

自動バッチ予測設定を削除する

自動バッチ予測設定を削除する方法については、「自動設定を削除する」を参照してください。

次の手順に従って、設定を削除することもできます。

  1. モデルの [予測] タブに移動します。

  2. [予測] で、[構成] タブを選択します。

  3. リストで設定を見つけて、[その他のオプション] アイコン ( ) を選択します。

  4. ドロップダウンメニューで、[構成を削除] を選択します。

これで、設定が削除されます。

バッチ予測ジョブを表示する

バッチ予測ジョブのステータスと履歴を表示するには、モデルの予測タブに移動します。

各バッチ予測ジョブは、モデルの予測タブに表示されます。[予測] には、[すべてのジョブ] タブと [設定] タブが表示されます。

  • すべてのジョブ – このタブには、このモデルの手動および自動バッチ予測ジョブがすべて表示されます。ジョブは設定名でフィルタリングできます。ジョブごとに、次のフィールドが表示されます。

    • ステータス — バッチ予測ジョブの現在のステータス。ステータスが「失敗」または「部分的失敗」の場合、ステータスにカーソルを合わせると、トラブルシューティングに役立つより詳細なエラーメッセージが表示されます。

    • 入力データセット – データセットのバージョンを含む Canvas 入力データセットの名前。

    • 予測タイプ — 予測ジョブが自動か手動か。

    • – 予測された行数。

    • 設定名 – バッチ予測ジョブ設定の名前。

    • QuickSight – バッチ予測を Amazon に送信したかどうかを示します QuickSight。

    • 作成済み – バッチ予測ジョブの作成時刻。

    その他のオプションアイコン ( ) を選択すると、詳細の表示予測のプレビュー予測のダウンロード、または Amazon への送信 QuickSightを選択できます。詳細を表示 を選択すると、ステータス、入出力データ設定、ジョブの完了に使用されるインスタンスに関する情報、Amazon CloudWatch ログへのアクセスなど、バッチ予測ジョブの詳細を示すページが開きます。このページは次のスクリーンショットのようになります。

    バッチ予測ジョブの詳細ページには、ジョブに関するすべての追加の詳細が表示されます。
  • [設定] — このタブには、このモデル用に作成したすべての自動バッチ予測構成が表示されます。設定ごとに、作成時のタイムスタンプ、更新を追跡する入力データセット、次の自動予測ジョブの開始がスケジュールされている次のジョブのスケジュールされた などのフィールドを表示できます。[その他のオプション] アイコン ( ) を選択すると、[すべてのジョブを表示] を選択して、その構成のジョブ履歴と進行中のジョブを表示できます。