データセットの作成 - Amazon Lookout for Vision

データセットの作成

データセットには、モデルのトレーニングとテストに使用する画像と割り当てられたラベルが含まれています。Amazon Lookout for Vision コンソールまたは CreateDataset オペレーションを含むプロジェクト用のデータセットを作成します。データセット画像には、作成するモデルのタイプ (画像分類または画像セグメンテーション) に従ってラベルを付ける必要があります。

データセットの画像の準備

データセットを作成するには、画像のコレクションが必要です。画像は PNG または JPEG 形式のファイルである必要があります。必要な画像の数とタイプは、プロジェクトに単一のデータセットがあるのか、トレーニングデータセットとテストデータセットが別々にあるのかによって異なります。

単一データセットプロジェクト

画像分類モデルを作成するには、トレーニング開始で次が必要です:

  • 正常なオブジェクトの画像 20 枚以上。

  • 異常なオブジェクトの画像 10 枚以上。

画像セグメンテーションモデルを作成するには、トレーニング開始で次が必要です:

  • 各異常タイプの画像 20 枚以上。

  • 各異常画像 (異常タイプを含む画像) には、1 タイプの異常のみが含まれている必要があります。

  • 正常なオブジェクトの画像 20 枚以上。

トレーニングデータセットとテストデータセットを分けるプロジェクト

画像分類モデルを作成するには、次が必要です:

  • トレーニングデータセット内の正常なオブジェクトの画像 10 枚以上。

  • テストデータセット内の正常なオブジェクトの画像 10 枚以上。

  • テストデータセット内の異常なオブジェクトの画像 10 枚以上。

画像セグメンテーションモデルを作成するには、次が必要です:

  • 各データセットには、各異常タイプの画像 10 枚が必要です。

  • 各異常画像 (異常タイプが存在する画像) には、1 タイプの異常のみが含まれている必要があります。

  • 各データセットには正常なオブジェクトの画像 10 枚以上が含まれている必要があります。

より高品質なモデルを作成するには、最小画像数より多くの画像を使用してください。セグメンテーションモデルを作成する場合は、複数の異常タイプの画像を含めることをお勧めしますが、これらは Lookout for Vision がトレーニングを開始するために最低限必要とするデータとしては数えられません。

画像は単一のタイプのオブジェクトのものである必要があります。また、カメラの位置、ライティング、オブジェクトのポーズなど、画像の撮影条件を統一しておく必要があります。

トレーニングとテストのデータセット内の画像はすべて同じ寸法でなければなりません。後で、トレーニング済みモデルで分析する画像は、トレーニングとテストのデータセット画像と同じサイズでなければなりません。詳細については、「画像内の異常を検出する」を参照してください。

トレーニング画像とテスト画像はすべて固有の画像でなければならず、できれば固有のオブジェクトの画像であることが望まれます。正常な画像は、分析対象のオブジェクトにありえる正常な範囲のバリエーションを含んでいる必要があります。異常な画像では、さまざまな異常のサンプルをとらえている必要があります。

Amazon Lookout for Vision では、使用できるサンプル画像を提供しています。詳細については、「画像分類データセット」を参照してください。

画像の制限については、「Amazon Lookout for Vision でのクォータ」を参照してください。

データセットの作成

プロジェクト用のデータセットを作成するときは、プロジェクトの初期データセット構成を選択します。また、Lookout for Vision が画像をインポートする場所も選択できます。

プロジェクトのデータセット構成の選択

プロジェクトで最初のデータセットを作成するときは、次のデータセット構成のうち 1 つが必要です:

  • 単一データセット — 単一データセットプロジェクトは、単一のデータセットを使用して、モデルのトレーニングとテストを行います。単一のデータセットを使用することで、Amazon Lookout for Visionがトレーニング画像とテスト画像を選択し、トレーニングを簡素化することができます。す。トレーニング中、Amazon Lookout for Vision では、データセットをトレーニングデータセットとテストデータセットに分割します。分割されたデータセットにはアクセスできません。ほとんどのシナリオでは、単一データセットプロジェクトを使用することをお勧めします。

  • トレーニングデータセットとテストデータセットを分離する — トレーニング、テスト、パフォーマンスチューニングをより細かく制御したい場合は、トレーニングデータセットとテストデータセットを別々に持つようにプロジェクトを構成することができます。テストに使用する画像をコントロールしたい場合、または既に使用したいベンチマーク画像セットがある場合は、別のテストデータセットを使用します。

テストデータセットは、既存の単一データセットプロジェクトに追加できます。これにより、単一データセットがトレーニングデータセットになります。トレーニングデータセットとテストデータセットが別々に存在するプロジェクトからテストデータセットを削除すると、そのプロジェクトは単一データセットのプロジェクトになります。詳細については、「データセットの削除」を参照してください。

画像のインポート

データセットを作成するときは、画像のインポート元を選びます。画像のインポート方法によっては、画像にすでにラベルが付けられている場合があります。データセットの作成後に画像にラベルが付けられていない場合は、画像のラベリング を参照してください。

データセットを作成するには、次のいずれかの方法で画像をインポートします:

  • ローカルコンピュータから画像をインポートします。画像にはラベルが付いていません。追加やラベル付けには、Lookout for Vision コンソールを使用します。

  • S3 バケットから画像をインポートします。Amazon Lookout for Vision では、画像にラベル付けするフォルダー名で画像を分類できます。正常な画像には normal を使用します。異常な画像には anomaly を使用します。セグメンテーションラベルを自動的に割り当てることはできません。

  • ラベル付けされた画像を含む Amazon SageMaker Ground Truth マニフェストファイルをインポートします。独自のマニフェストファイルを作成してインポートできます。画像が多い場合は、SageMaker Ground Truth ラベル付けサービスの使用を検討してください。次に、Amazon SageMaker Ground Truth ジョブから出力マニフェストファイルをインポートします。必要に応じて、Lookout for Vision コンソールを使用してラベルを追加または変更できます。

AWS SDK を使用している場合は、Amazon SageMaker Ground Truth マニフェストファイルでデータセットを作成します。詳細については、「Amazon SageMaker Ground Truth マニフェストファイルを使用してデータセットを作成する」を参照してください。

データセットを作成して画像にラベル付けしたら、モデルをトレーニングできます。画像にラベルが付いていない場合は、作成するモデルのタイプに応じてラベルを追加してください。詳細については、「画像のラベリング」を参照してください。

既存のデータセットにはさらに画像を追加できます。詳細については、「データセットへの画像の追加」を参照してください。