注釈統合

注釈は、単一のワーカーのラベル付けタスクの結果です。注釈統合は、複数のワーカーの注釈を組み合わせることで、データオブジェクトの単一のラベルを作成します。ラベルは、データセット内の各オブジェクトに割り当てられ、実際のラベルの確率的推定に使用されます。通常、データセットの各オブジェクトには、複数の注釈が付きますが、ラベルまたはラベルセットは 1 つのみです。

データセットの各オブジェクトに注釈を付けるワーカーの数を決定します。より多くのワーカーを使用するとラベルの精度が向上しますが、ラベル付けのコストも増えます。Ground Truth の料金の詳細については、「Amazon SageMaker Ground Truth の料金」を参照してください。。

Amazon SageMaker AI コンソールを使用してラベル付けジョブを作成する場合、オブジェクトに注釈を付けることができるワーカー数のデフォルトは次のとおりです。

テキスト分類 - 3 ワーカー
イメージ分類 - 3 ワーカー
境界ボックス - 5 ワーカー
セマンティックセグメンテーション - 3 ワーカー
固有表現認識 - 3 ワーカー

CreateLabelingJob オペレーションを使用する場合は、NumberOfHumanWorkersPerDataObject パラメータを使用して各データオブジェクトに注釈を付けるワーカーの数を設定します。データオブジェクトにラベルを付けるワーカーのデフォルト数は、コンソールまたは CreateLabelingJob オペレーションを使用して上書きできます。

Ground Truth は、その事前定義済みの各ラベル付けタスク (境界ボックス、イメージ分類、セマンティックセグメンテーション、テキスト分類) に対して、注釈統合関数を提供します。関数を以下に示します。

イメージ分類とテキスト分類の複数クラスの注釈統合では、注釈に対する期待値の最大化アプローチのバリアントを使用します。各ワーカーのパラメータを推定し、個々のワーカーのクラス注釈に基づいて、ベイズ推定で実際のクラスを推定します。
境界ボックスの注釈では、複数のワーカーの境界ボックスを統合します。この関数は、ボックスの Jaccard インデックス (和集合における共通部分の割合) に基づいて、さまざまなワーカーから最も類似したボックスを見つけ、それらを平均化します。
セマンティックセグメンテーションの注釈の統合は、単一画像内の各ピクセルをマルチクラス分類として扱います。また、イメージにスムージング機能を適用することで組み込まれた周囲のピクセルからの追加情報により、ワーカーからのピクセル注釈を「投票」として扱います。
固有表現認識は、Jaccard の類似性によってテキスト選択をクラスタリングし、モードに基づいて選択境界を計算します。モードが明確でない場合は中央値を計算します。ラベルは、クラスター内で最も割り当てられたエンティティラベルに解決され、ランダムな選択によって関係が破壊されます。

注釈を統合するには、他のアルゴリズムを使用できます。詳細については、注釈統合関数の作成を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ワーカーに送信されるデータオブジェクトのフローを制御する

注釈統合関数の作成