COCO 形式 - Rekognition

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

COCO 形式

COCO データセットは、データセット全体の情報を提供する 5 つの情報セクションで構成されています。COCO オブジェクト検知データセットの形式は「COCO Data Format」に記載されています。

  • info - データセットに関する一般情報。

  • licenses - データセット内のイメージのライセンス情報。

  • images - データセット内のイメージのリスト。

  • annotations - データセット内のすべてのイメージに含まれる注釈 (境界ボックスを含む) のリスト。

  • categories - ラベルカテゴリのリスト。

カスタムラベルマニフェストを作成するには、COCO マニフェストファイルの imagesannotations、および categories リストを使用します。他のセクション (infolicences) は必須ではありません。次は、COCO マニフェストファイルの例です。

{ "info": { "description": "COCO 2017 Dataset","url": "http://cocodataset.org","version": "1.0","year": 2017,"contributor": "COCO Consortium","date_created": "2017/09/01" }, "licenses": [ {"url": "http://creativecommons.org/licenses/by/2.0/","id": 4,"name": "Attribution License"} ], "images": [ {"id": 242287, "license": 4, "coco_url": "http://images.cocodataset.org/val2017/xxxxxxxxxxxx.jpg", "flickr_url": "http://farm3.staticflickr.com/2626/xxxxxxxxxxxx.jpg", "width": 426, "height": 640, "file_name": "xxxxxxxxx.jpg", "date_captured": "2013-11-15 02:41:42"}, {"id": 245915, "license": 4, "coco_url": "http://images.cocodataset.org/val2017/nnnnnnnnnnnn.jpg", "flickr_url": "http://farm1.staticflickr.com/88/xxxxxxxxxxxx.jpg", "width": 640, "height": 480, "file_name": "nnnnnnnnnn.jpg", "date_captured": "2013-11-18 02:53:27"} ], "annotations": [ {"id": 125686, "category_id": 0, "iscrowd": 0, "segmentation": [[164.81, 417.51,......167.55, 410.64]], "image_id": 242287, "area": 42061.80340000001, "bbox": [19.23, 383.18, 314.5, 244.46]}, {"id": 1409619, "category_id": 0, "iscrowd": 0, "segmentation": [[376.81, 238.8,........382.74, 241.17]], "image_id": 245915, "area": 3556.2197000000015, "bbox": [399, 251, 155, 101]}, {"id": 1410165, "category_id": 1, "iscrowd": 0, "segmentation": [[486.34, 239.01,..........495.95, 244.39]], "image_id": 245915, "area": 1775.8932499999994, "bbox": [86, 65, 220, 334]} ], "categories": [ {"supercategory": "speaker","id": 0,"name": "echo"}, {"supercategory": "speaker","id": 1,"name": "echo dot"} ] }

イメージリスト

COCO データセットが参照するイメージは、イメージ配列に一覧表示されます。各イメージオブジェクトには、イメージファイル名などのイメージに関する情報が含まれています。次のイメージオブジェクトの例では、次の情報と、Amazon Rekognition Custom Labels マニフェストファイルを作成するために必要なフィールドを記録しておきます。

  • id - (必須) イメージの一意の識別子。id フィールドは、annotations 配列 (境界ボックス情報が格納されている) の id フィールドにマッピングされます。

  • license - (不要) ライセンス配列にマッピングします。

  • coco_url - (オプション) スキーマの場所。

  • flickr_url - (不要) Flickr のイメージの場所。

  • width - (必須) イメージの幅。

  • height - (必須) イメージの高さ。

  • file_name - (必須) イメージのファイル名。この例では file_nameid が一致していますが、これは COCO データセットの要件ではありません。

  • date_captured - (必須) イメージがキャプチャされた日時。

{ "id": 245915, "license": 4, "coco_url": "http://images.cocodataset.org/val2017/nnnnnnnnnnnn.jpg", "flickr_url": "http://farm1.staticflickr.com/88/nnnnnnnnnnnnnnnnnnn.jpg", "width": 640, "height": 480, "file_name": "000000245915.jpg", "date_captured": "2013-11-18 02:53:27" }

注釈 (境界ボックス) リスト

全イメージのすべてのオブジェクトの境界ボックス情報は、注釈リストに保存されます。1 つの注釈オブジェクトには、1 つのオブジェクトの境界ボックス情報と、イメージのオブジェクトのラベルが含まれています。イメージのオブジェクトのインスタンスごとに 1 つの注釈オブジェクトがあります。

次の例では、次の情報と、Amazon Rekognition Custom Labels マニフェストファイルを作成するために必要なフィールドを記録しておきます。

  • id - (不要) 注釈の識別子。

  • image_id - (必須) イメージ配列内のイメージ id に対応します。

  • category_id - (必須) 境界ボックス内のオブジェクトを識別するラベルの識別子。カテゴリ配列の id フィールドにマッピングされます。

  • iscrowd - (不要) イメージに多数のオブジェクトが含まれているかどうかを指定します。

  • segmentation - (不要) イメージのオブジェクトのセグメンテーション情報。Amazon Rekognition Custom Labels はセグメンテーションをサポートしていません。

  • area - (不要) 注釈の領域。

  • bbox - (必須) イメージのオブジェクトを囲む境界ボックスの座標 (ピクセル単位) が含まれます。

{ "id": 1409619, "category_id": 1, "iscrowd": 0, "segmentation": [ [86.0, 238.8,..........382.74, 241.17] ], "image_id": 245915, "area": 3556.2197000000015, "bbox": [86, 65, 220, 334] }

カテゴリリスト

ラベル情報は、カテゴリ配列に保存されます。次のカテゴリオブジェクトの例では、次の情報と、Amazon Rekognition Custom Labels マニフェストファイルを作成するために必要なフィールドを記録しておきます。

  • supercategory - (不要) ラベルの親カテゴリ。

  • id - (必須) ラベル識別子。id フィールドは annotation オブジェクト内の category_id フィールドにマッピングされます。次の例では、Echo Dot の識別子は 2 です。

  • name - (必須) ラベル名。

{"supercategory": "speaker","id": 2,"name": "echo dot"}