Amazon SageMaker
開発者ガイド

自動データラベリングの使用

Ground Truth は、アクティブラーニングを使用して、入力データのラベリングを自動化できます。アクティブラーニングとは、ワーカーによってラベル付けされるデータを識別する機械学習の手法です。

自動データラベリングはオプションです。ラベリングジョブを作成する場合はオンにします。自動化データラベリングにより、Amazon SageMaker トレーニングと推論コストが発生しますが、人間のみで行う場合に比べると、データセットのラベリングにかかるコストと時間を抑えることができます。

自動化データラベリングは、大規模なデータセットで行います。アクティブラーニングで使用するニューラルネットワークは、新しいデータセットごとに大量のデータを必要とします。大規模なデータセットでは、データを自動的にラベル付けする可能性が高いため、ラベリングの合計コストが削減されます。自動化データラベリングを使用する場合、数千のデータオブジェクトを使用することをお勧めします。自動ラベリングのシステム最小数は 1,250 オブジェクトですが、有意の量のデータに自動的にラベリングされるようにするには、最小値を 5,000 個以上のオブジェクトにすることを強くお勧めします。

自動化データラベリングの潜在的なメリットも、必要な精度によって異なります。一般的に、必要な精度レベルが高いほど、自動的にラベルが付けられるデータオブジェクトの数が減ります。

Amazon SageMaker Ground Truth が自動化データラベリングジョブを開始すると、まず入力データのランダムなサンプルが選択されます。その後、サンプルが人間のワーカーに送信されます。ラベル付きデータが返されると、Ground Truth はこのデータのセットを検証データとして使用します。これは、Ground Truth が自動データラベリングのためにトレーニングを行う機械学習モデルの検証に使用されます。

次に、Ground Truth は検証セットを使用して Amazon SageMaker バッチ変換を実行します。これにより、Ground Truth が、残りのラベル付けされていないデータの自動ラベリングの潜在的な品質を予想するのに使用する品質メトリクスを生成します。

Ground Truth は、次に、データセットのラベルなしのデータで Amazon SageMaker バッチ変換を実行します。データの自動ラベリングの想定される品質が、求められるレベルの精度を超えているあらゆるデータは、ラベル付きと見なされます。

自動ラベリングのステップの実行後、Ground Truth は、データセットで最もあいまいなラベルなしのデータポイントのサンプルを選択し、人間のワーカーに送信します。Ground Truth は、既存のラベル付きデータと、この人間のワーカーから追加されたラベル付きデータを使用して、新しいモデルをトレーニングします。データセットが完全にラベル付けされるまで、この処理が繰り返されます。

自動ラベリングモデルで、本番環境の準備ができたことを確認する

ラベリングジョブによって生成されたモデルは、本番環境で使用する前に、微調整やテストが必要です。ラベリングジョブによって作成されたデータセットで、Ground Truth によって生成されたモデルを微調整 (または選択した別の教師ありモデルを作成および調整) します。モデルのアーキテクチャとハイパーパラメータを最適化します。微調整を行わずに、推論のためのモデルを使用する場合は、Ground Truth でラベル付けしたデータセットの代表的な (ランダムに選択するなど) サブセットで正確性を確認し、予期どおりであることを確認するよう強くお勧めします。

自動データラベリングに必要な Amazon EC2 インスタンス

自動データラベリングを実行するには、Ground Truth で次のトレーニングとバッチ推論ジョブ用の Amazon EC2 リソースが必要です。

自動ラベリングアクション インスタンスタイプのトレーニング 推論インスタンスタイプ

イメージ分類

ml.p3.2xlarge

ml.c5.xlarge

オブジェクトの検出

ml.p3.2xlarge

ml.c5.4large

テキスト分類

ml.c5.2xlarge

ml.m4.xlarge

料金についての注意

自動ラベリングでは、2 つの料金が別々に発生します。1 項目あたりの料金 (Ground Truth 料金表) と、モデルの実行に必要な Amazon EC2 インスタンスの料金 (Amazon EC2 料金表) です。

これらのインスタンスは Ground Truth によって管理されます。これらは、ジョブを実行するために必要に応じて作成、構成、および破棄されます。また、Amazon EC2 のインスタンスダッシュボードには表示されません。