Amazon SageMaker
開発者ガイド

自動データラベリングの使用

Ground Truth は、アクティブラーニングを使用して、入力データのラベリングを自動化できます。アクティブラーニングとは、ワーカーによってラベル付けされるデータを識別する機械学習の手法です。

自動データラベリングはオプションです。ラベリングジョブを作成する場合はオンにします。自動化データラベリングにより、Amazon SageMaker トレーニングと推論コストが発生しますが、人間のみで行う場合に比べると、データセットのラベリングにかかるコストと時間を抑えることができます。

自動化データラベリングは、大規模なデータセットで行います。アクティブラーニングで使用するニューラルネットワークは、新しいデータセットごとに大量のデータを必要とします。大規模なデータセットでは、データを自動的にラベル付けする可能性が高いため、ラベリングの合計コストが削減されます。自動化データラベリングを使用する場合、数千のデータオブジェクトを使用することをお勧めします。自動ラベリングのシステム最小数は 1,250 オブジェクトですが、有意の量のデータに自動的にラベリングされるようにするには、最小値を 5,000 個以上のオブジェクトにすることを強くお勧めします。

自動化データラベリングの潜在的なメリットも、必要な精度によって異なります。一般的に、必要な精度レベルが高いほど、自動的にラベルが付けられるデータオブジェクトの数が減ります。

Amazon SageMaker Ground Truth が自動化データラベリングジョブを開始すると、まず入力データのランダムなサンプルが選択されます。その後、サンプルが人間のワーカーに送信されます。ラベル付きデータが返されると、Ground Truth はこのデータのセットを検証データとして使用します。これは、Ground Truth が自動データラベリングのためにトレーニングを行う機械学習モデルの検証に使用されます。

次に、Ground Truth は検証セットを使用して Amazon SageMaker バッチ変換を実行します。これにより、Ground Truth が、残りのラベル付けされていないデータの自動ラベリングの潜在的な品質を予想するのに使用する品質メトリクスを生成します。

Ground Truth は、次に、データセットのラベルなしのデータで Amazon SageMaker バッチ変換を実行します。データの自動ラベリングの想定される品質が、求められるレベルの精度を超えているあらゆるデータは、ラベル付きと見なされます。

自動ラベリングのステップの実行後、Ground Truth は、データセットで最もあいまいなラベルなしのデータポイントのサンプルを選択し、人間のワーカーに送信します。Ground Truth は、既存のラベル付きデータと、この人間のワーカーから追加されたラベル付きデータを使用して、新しいモデルをトレーニングします。データセットが完全にラベル付けされるまで、この処理が繰り返されます。

自動データラベリングに必要な Amazon EC2 インスタンス

自動データラベリングを実行するには、Ground Truth で次のトレーニングとバッチ推論ジョブ用の Amazon EC2 リソースが必要です。

自動ラベリングアクション インスタンスタイプのトレーニング 推論インスタンスタイプ

イメージ分類

ml.p3.2xlarge

ml.c5.xlarge

オブジェクトの検出

ml.p3.2xlarge

ml.c5.4large

テキスト分類

ml.c5.2xlarge

ml.m4.xlarge

アカウントの Amazon EC2 サービスの制限を確認し、必要に応じて追加のリソースをリクエストするには、「Amazon EC2 サービスの制限」を参照してください。