Amazon SageMaker Ground Truth でヒューマンワーカーによるデータラベリングをトレーニングする

機械学習モデルをトレーニングするには、大規模で高品質なラベル付きデータセットが必要です。Ground Truth は、機械学習モデル用の高品質なトレーニングデータセットを構築するのに役立ちます。Ground Truth を使用すると、ラベル付きデータセットを作成できる機械学習とともに、Amazon Mechanical Turk、任意のベンダー会社、または社内のプライベートワークフォースのいずれかのワーカーを使用できます。Ground Truth のラベル付きデータセット出力を使用して、独自のモデルをトレーニングできます。Amazon SageMaker AI モデルのトレーニングデータセットとして出力を使用することもできます。

ML アプリケーションに応じて、Ground Truth の組み込みタスクタイプのいずれかを選択し、ワーカーに特定のタイプのラベルをデータに対して生成させることができます。また、カスタムラベル付けワークフローを構築して、データにラベルを付けるワーカーに独自の UI とツールを提供することもできます。Ground Truth の組み込みタスクタイプの詳細については、「組み込みタスクタイプ」を参照してください。カスタムラベル付けワークフローを作成する方法については、「カスタムラベル付けワークフロー」を参照してください。

トレーニングデータセットのラベル付けを自動化するため、オプションで自動データラベリング、つまり機械学習を使用して人間がラベルを付ける必要があるデータを決定する Ground Truth プロセスを使用できます。自動データラベリングにより、ラベル付けに要する時間と手動作業を削減できます。詳細については、「データのラベル付けの自動化」を参照してください。カスタムラベル付けワークフローを作成するには、「カスタムラベル付けワークフロー」を参照してください。

構築済みツールまたはカスタムツールを使用して、トレーニングデータセットのラベル付けタスクを割り当てます。ラベル付け UI テンプレートとは、タスクと指示書をワーカーに示すために Ground Truth で使用されるウェブページです。SageMaker AI コンソールには、データのラベル付け用の組み込みテンプレートが用意されています。これらのテンプレートを利用することも、HTML 2.0 コンポーネントを使用して独自のタスクや指示書を構築することもできます。詳細については、「カスタムラベル付けワークフロー」を参照してください。

任意のワークフォースを使って、データセットにラベルを付けます。以下のワークフォースから選択できます。

世界中の 500,000 を超える独立系請負業者の Amazon Mechanical Turk ワークフォース。
社内でデータを処理するため、自社の従業員や請負業者から作られるプライベートワークフォース。
データラベリングサービスを専門 AWS Marketplace とするにあるベンダー会社。

詳細については、「ワークフォース」を参照してください。

Amazon S3 バケットにデータセットを保存します。バケットには、ラベル付けするデータ、Ground Truth でデータファイルを読み込むのに使用する入力マニフェストファイル、出力マニフェストファイルの 3 つの要素が含まれています。出力ファイルにはラベル付けジョブの結果が含まれています。詳細については、「入力データと出力データを使用する」を参照してください。

ラベル付けジョブのイベントは、Amazon CloudWatch の /aws/sagemaker/LabelingJobs グループに表示されます。CloudWatch では、ラベル付けジョブ名をログストリーミングの名前として使用します。

Ground Truth を初めて使用する方向けの情報

Ground Truth を初めて使用する方には、次のことをお勧めします。

読む開始方法: Ground Truth を使用して境界ボックスラベル付けジョブを作成する - このセクションでは、最初に Ground Truth ラベル付けジョブを設定する方法を紹介します。
その他のトピックについて調べる - 必要に応じて、次を行います。
- 組み込みタスクタイプを確認する - 組み込みのタスクタイプを使用して、ラベル付けジョブを作成するプロセスを効率化します。Ground Truth の組み込みタスクタイプの詳細については、「組み込みタスクタイプ」を参照してください。
- ラベル付けワークフォースを管理する - 新しい作業チームを作り、既存のワークフォースを管理します。詳細については、「ワークフォース」を参照してください。
- ストリーミングラベル付けジョブについて学ぶ - ストリーミングラベル付けジョブを作成し、永続的に実行されるラベル付けジョブを使用して、新しいデータセットオブジェクトをリアルタイムでワーカーに送信します。ラベル付けジョブがアクティブで、新しいオブジェクトが送信されている限り、ワーカーはラベル付けする新しいデータオブジェクトを継続的に受け取ります。詳細についてはGround Truth ストリーミングラベル付けジョブを参照してください。
Ground Truth オペレーションを自動化するために使用できるオペレーションの詳細については、SageMaker AI サービス API リファレンスを参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ヒューマンインザループでデータにラベルを付ける

開始方法: ラベル付けジョブを作成する