データの準備 - Amazon Rekognition

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データの準備

アダプターを作成するには、Rekognition に 2 つのデータセット (トレーニングデータセットとテストデータセット) を提供する必要があります。各データセットは、イメージと注釈/ラベルという 2 つの要素で構成されています。以下のセクションでは、ラベルとイメージの用途、およびこれらを組み合わせてデータセットを作成する方法について説明します。

イメージ

イメージの典型的な例を使ってアダプターをトレーニングします。トレーニング用のイメージを選択するときは、アダプターでターゲットとする各ラベルの、予想される反応を示すイメージを複数含めるようにします。

トレーニングデータセットを作成するには、次の 2 種類のイメージからいずれかを提供する必要があります。

  • 偽陽性の予測を含むイメージ。例えば、ベースモデルはアルコールが含まれていると予測したものの、実際は含まれていないイメージ。

  • 偽陰性の予測を含むイメージ。例えば、ベースモデルはアルコールが含まれていないと予測したものの、実際は含まれているイメージ。

バランスの取れたデータセットを作成するには、次の 2 種類のイメージからいずれかを提供することが推奨されます。

  • 真陽性の予測を含むイメージ。例えば、アルコールが含まれていることをベースモデルが正確に予測しているイメージ。偽陽性のイメージを提供する場合は、これらのイメージを提供することが推奨されます。

  • 真陰性の予測を含むイメージ。例えば、アルコールが含まれていないことをベースモデルが正確に予測しているイメージ。偽陰性のイメージを提供する場合は、これらのイメージを提供することが推奨されます。

ラベル

ラベルは、オブジェクト、イベント、概念、アクティビティのいずれかを参照します。コンテンツモデレーションでは、ラベルは、不適切なコンテンツや不快な迷惑コンテンツのインスタンスです。

Rekognition のベースモデルをトレーニングすることでアダプターを作成する場合、イメージにラベルを割り当てることを注釈と言います。Rekognition コンソールでアダプターをトレーニングするときは、コンソールを使って、ラベルを選択し、そのラベルに対応するイメージにタグを付けることで、イメージに注釈を追加します。このプロセスを通じて、モデルは割り当てられたラベルに基づきイメージの要素を識別する方法を学習します。このリンク処理により、モデルは、アダプターの作成時に最も関連性の高いコンテンツに集中することができ、イメージ分析の精度を高めることができます。

あるいはマニフェストファイルを提供することもできます。このファイルには、イメージに関する情報とそれに付随する注釈が含まれています。

トレーニングデータセットとテストデータセットの作成

トレーニングデータセットは、モデルの微調整やカスタムアダプターの作成の土台となるものです。トレーニングデータセットは、モデルが学習できるよう、注釈付きで提供する必要があります。モデルはこのデータセットから学習することにより、指定したタイプのイメージに関するパフォーマンスを高めることができます。

精度を高めるには、イメージに注釈やラベルを付けてトレーニングデータセットを作成する必要があります。このためには以下の 2 つの方法があります。

  • 手動でのラベル割り当て - Rekognition コンソールを使って、データセットに含めるイメージをアップロードすることでトレーニングデータセットを作成し、そのイメージに手動でラベルを割り当てます。

  • マニフェストファイル — マニフェストファイルを使用してアダプターをトレーニングします。マニフェストファイルには、トレーニングイメージとテストイメージのグラウンドトゥルースの注釈と、トレーニングイメージの場所に関する情報が含まれています。Rekognition APIs または AWS コンソールを使用してアダプターをトレーニングするときに、マニフェストファイルを指定できます。

テストデータセットは、トレーニング後のアダプターのパフォーマンスを評価する際に使用します。信頼性の高い評価を行うため、テスト用データセットは、元のトレーニングデータセットのうち、モデルがこれまでに処理したことのないものを使用して作成されます。このプロセスによりアダプターのパフォーマンスを常に最新のデータで評価して、正確な測定値と指標を得ることができます。最適な精度の向上については、「トレーニングアダプターのベストプラクティス」を参照してください。