Amazon SageMaker
開発者ガイド

Amazon SageMaker Ground Truth

機械学習モデルをトレーニングするには、大規模で高品質なラベル付きデータセットが必要です。Ground Truth は、機械学習モデル用の高品質なトレーニングデータセットの構築を支援します。Ground Truth を使用すると、ラベル付きデータセットを作成できる機械学習とともに、選択したベンダー会社、または社内のプライベートワークフォースのいずれかの Amazon Mechanical Turk のワーカーを使うことができます。Ground Truth のラベル付きデータセット出力を使用して、独自のモデルをトレーニングできます。Amazon SageMaker モデルをトレーニングデータセットとして出力を使用することもできます。

トレーニングデータセットのラベリングを自動化するため、オプションで自動データラベリング、つまり機械学習を使用して人間がラベルを付ける必要があるデータを決定する Ground Truth プロセスを使用することができます。自動データラベリングにより、ラベル付けに要する時間と手動作業を削減できます。詳細については、「自動データラベリングの使用」を参照してください。

構築済みツールまたはカスタムツールを使用して、トレーニングデータセットのラベリングタスクを割り当てます。ラベリング UI テンプレートとは、タスクと指示書をワーカーに示すために Ground Truth で使用されるウェブページです。Amazon SageMaker コンソールは、ラベリングデータ用の組み込みテンプレートを提供しています。これらのテンプレートを利用することも、HTML 2.0 コンポーネントを使用して独自のタスクや指示書を構築することもできます。詳細については、「カスタムラベリングワークフローの作成」を参照してください。

任意のワークフォースを使って、データセットにラベルを付けます。以下のワークフォースから選択できます。

  • 世界中の 500,000 を超える独立系請負業者の Amazon Mechanical Turk ワークフォース。

  • 社内でデータを処理するため、自社の従業員や請負業者から作られるプライベートワークフォース。

  • データラベリングサービスに特化した AWS Marketplace で見つけることができるベンダー企業。

詳細については、「ワークフォースの管理」を参照してください。

Amazon S3 バケットにデータセットを保存します。バケットには、ラベル付けするデータ、Ground Truth でデータファイルを読み込むのに使用する入力マニフェストファイル、出力マニフェストファイルの 3 つの要素が含まれています。出力ファイルにはラベリングジョブの結果が含まれています。詳細については、「入力データおよび出力データの使用」を参照してください。

ラベリングジョブのイベントは、/aws/sagemaker/LabelingJobs グループの Amazon CloudWatch に表示されます。CloudWatch では、ラベリングジョブ名をログストリームの名前として使用します。

Ground Truth を初めてお使いになる方向けの情報

Ground Truth を初めて使用する方には、次のことをお勧めします。

  1. お読みください 開始方法—このセクションでは、最初に Ground Truth ラベリングジョブを設定する方法を紹介します。

  2. その他のトピックについて調べる—必要に応じて、次の操作を実行します。

    • ラベリングジョブ用の指示書ページの作成—ワーカーがより簡単にジョブの要件を理解できるカスタム指示書ページを作成します。詳細については、「指示ページの作成」を参照してください。

    • ラベリングワークフォースの管理—新しい作業チームを作り、既存のワークフォースを管理します。詳細については、「ワークフォースの管理」を参照してください。

    • カスタム UI の作成—ワーカーが使用するカスタム UI を作成することで、ワーカーが迅速かつ正確にデータにラベルを付けることができるようになります。詳細については、「カスタムラベリングワークフローの作成」を参照してください。

  3. API リファレンス」の参照—このセクションでは Ground Truth の操作を自動化するための操作を説明します。