Amazon SageMaker Ground Truth を使用してデータにラベルを付ける - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker Ground Truth を使用してデータにラベルを付ける

機械学習モデルをトレーニングするには、大規模で高品質なラベル付きデータセットが必要です。Ground Truth は、機械学習モデル用の高品質なトレーニングデータセットを構築するのに役立ちます。Ground Truth を使用すると、ラベル付きデータセットを作成できる機械学習とともに、Amazon Mechanical Turk、任意のベンダー会社、または社内のプライベートワークフォースのいずれかのワーカーを使用できます。Ground Truth のラベル付きデータセット出力を使用して、独自のモデルをトレーニングできます。出力を Amazon SageMaker モデルのトレーニングデータセットとして使用することもできます。

ML アプリケーションに応じて、Ground Truth の組み込みタスクタイプのいずれかを選択し、ワーカーに特定のタイプのラベルをデータに対して生成させることができます。また、カスタムラベル付けワークフローを構築して、データにラベルを付けるワーカーに独自の UI とツールを提供することもできます。Ground Truth の組み込みタスクタイプの詳細については、「組み込みタスクタイプ」を参照してください。カスタムラベル付けワークフローを作成する方法については、「カスタムラベル付けワークフローの作成」を参照してください。

トレーニングデータセットのラベル付けを自動化するため、オプションで自動データラベリング、つまり機械学習を使用して人間がラベルを付ける必要があるデータを決定する Ground Truth プロセスを使用できます。自動データラベリングにより、ラベル付けに要する時間と手動作業を削減できます。詳細については、「データのラベル付けの自動化」を参照してください。カスタムラベル付けワークフローを作成するには、「カスタムラベル付けワークフローの作成」を参照してください。

構築済みツールまたはカスタムツールを使用して、トレーニングデータセットのラベル付けタスクを割り当てます。ラベル付け UI テンプレートとは、タスクと指示書をワーカーに示すために Ground Truth で使用されるウェブページです。 SageMaker コンソールには、データにラベルを付けるための組み込みテンプレートが用意されています。これらのテンプレートを利用することも、HTML 2.0 コンポーネントを使用して独自のタスクや指示書を構築することもできます。詳細については、「カスタムラベル付けワークフローの作成」を参照してください。

任意のワークフォースを使って、データセットにラベルを付けます。以下のワークフォースから選択できます。

  • 世界中の 500,000 を超える独立系請負業者の Amazon Mechanical Turk ワークフォース。

  • 社内でデータを処理するため、自社の従業員や請負業者から作られるプライベートワークフォース。

  • AWS Marketplace データラベル付けサービスを専門とするベンダー企業です。

詳細については、「ワークフォースの作成と管理」を参照してください。

Amazon S3 バケットにデータセットを保存します。バケットには、ラベル付けするデータ、Ground Truth でデータファイルを読み込むのに使用する入力マニフェストファイル、出力マニフェストファイルの 3 つの要素が含まれています。出力ファイルにはラベル付けジョブの結果が含まれています。詳細については、「入力データと出力データを使用する」を参照してください。

ラベル付けジョブのイベントは、Amazon CloudWatch /aws/sagemaker/LabelingJobs のグループに表示されます。 CloudWatch ラベル付けジョブ名をログストリームの名前として使用します。

Ground Truth を初めて使用する方向けの情報

Ground Truth を初めて使用する方には、次のことをお勧めします。

  1. 読む開始 - このセクションでは、最初に Ground Truth ラベル付けジョブを設定する方法を紹介します。

  2. その他のトピックについて調べる - 必要に応じて、次を行います。

    • 組み込みタスクタイプを確認する - 組み込みのタスクタイプを使用して、ラベル付けジョブを作成するプロセスを効率化します。Ground Truth の組み込みタスクタイプの詳細については、「組み込みタスクタイプ」を参照してください。

    • ラベル付けワークフォースを管理する - 新しい作業チームを作り、既存のワークフォースを管理します。詳細については、「ワークフォースの作成と管理」を参照してください。

    • ストリーミングラベル付けジョブについて学ぶ - ストリーミングラベル付けジョブを作成し、永続的に実行されるラベル付けジョブを使用して、新しいデータセットオブジェクトをリアルタイムでワーカーに送信します。ラベル付けジョブがアクティブで、新しいオブジェクトが送信されている限り、ワーカーはラベル付けする新しいデータオブジェクトを継続的に受け取ります。詳細については、「Ground Truth ストリーミングラベル付けジョブ」を参照してください。

  3. Reference」を参照してください - このセクションでは Ground Truth の操作を自動化するための操作を説明します。