Amazon SageMaker Ground Truth を使用してデータにラベル付けする - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker Ground Truth を使用してデータにラベル付けする

機械学習モデルをトレーニングするには、大規模で高品質なラベル付きデータセットが必要です。Ground Truth は、機械学習モデル用の高品質なトレーニングデータセットを構築するのに役立ちます。Ground Truth では、Amazon Mechanical Turk、選択したベンダー会社、または機械学習とともに、社内のプライベートワークフォースのいずれかののワーカーを使用して、ラベル付きデータセットを作成できます。Ground Truth からのラベル付きデータセットの出力を使用して、独自のモデルをトレーニングできます。出力を Amazon SageMaker モデルのトレーニングデータセットとして使用することもできます。

ML アプリケーションに応じて、Ground Truth 組み込みタスクタイプのいずれかを選択し、ワーカーに特定のタイプのラベルをデータに対して生成させることができます。また、カスタムラベリングワークフローを構築して、データにラベルを付けるワーカーに独自の UI とツールを提供することもできます。[Ground Truth] のタスクタイプの詳細については、」組み込みタスクタイプ。カスタムラベリングワークフローを作成する方法については、「カスタムラベリングワークフローの作成」を参照してください。

トレーニングデータセットのラベリングを自動化するには、必要に応じて自動的なデータラベル付け機械学習を使用して、人間がラベルを付ける必要があるデータを決定する Ground Truth プロセスです。自動データラベリングにより、ラベル付けに要する時間と手動作業を削減できます。詳細については、「データのラベル付けの自動化」を参照してください。カスタムラベリングワークフローを作成するには、「」を参照してください。カスタムラベリングワークフローの作成

構築済みツールまたはカスタムツールを使用して、トレーニングデータセットのラベリングタスクを割り当てます。AラベリングUI テンプレートは、Ground Truth がタスクと指示書をワーカーに示すためにで使用されるウェブページです。SageMaker コンソールは、ラベリングデータ用の組み込みテンプレートを提供しています。これらのテンプレートを利用することも、HTML 2.0 コンポーネントを使用して独自のタスクや指示書を構築することもできます。詳細については、「カスタムラベリングワークフローの作成」を参照してください。

任意のワークフォースを使って、データセットにラベルを付けます。以下のワークフォースから選択できます。

  • Amazon Mechanical Turk は、世界中の 500,000 を超える独立系請負業者のワークフォース。

  • 社内でデータを処理するため、自社の従業員や請負業者から作られるプライベートワークフォース。

  • データラベリングサービスに特化した AWS Marketplace で見つけることができるベンダー企業。

詳細については、「ワークフォースの作成と管理」を参照してください。

データセットを Amazon S3 バケットに保存します。バケットには、次の 3 つのものが含まれます。ラベル付けするデータ、Ground Truth がデータファイルを読み込むのに使用する入力マニフェストファイル、出力マニフェストファイル。出力ファイルにはラベリングジョブの結果が含まれています。詳細については、「入力データと出力データを使用する」を参照してください。

ラベリングジョブのイベントは、Amazon CloudWatch の/aws/sagemaker/LabelingJobsグループ. CloudWatch では、ラベリングジョブ名をログストリームの名前として使用します。

Ground Truthを初めて使うには

Ground Truth を初めて使用する方には、次のことをお勧めします。

  1. Read開始方法このセクションでは、最初に Ground Truth のラベル付けジョブを設定する方法を紹介します。

  2. その他のトピックの検索— 必要に応じて、次の操作を実行します。

    • 組み込みタスクタイプを確認する:組み込みのタスクタイプを使用して、ラベル付けジョブを作成するプロセスを合理化します。「」を参照してください。組み込みタスクタイプGround Truth 組み込みのタスクタイプに関する詳細ついては、

    • ラベル付け作業員の管理新しい作業チームを作成し、既存のワークフォースを管理します。詳細については、「ワークフォースの作成と管理」を参照してください。

    • ストリーミングラベリングジョブの詳細— 永続的に実行されているラベリングジョブを使用して、ストリーミングラベリングジョブを作成し、新しいデータセットオブジェクトをリアルタイムでワーカーに送信します。ラベル付けジョブがアクティブで、新しいオブジェクトが送信されている限り、ワーカーはラベル付けする新しいデータオブジェクトを継続的に受け取ります。詳細については、「Ground Truth ストリーミングラベリングの求人」を参照してください。

  3. フレームワークの使用の詳細については、 Reference-このセクションでは、Ground Truth のオペレーションを自動化するためのオペレーションについて説明します。