イメージ - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

イメージ

Amazon Bedrock データオートメーション (BDA) 機能には、画像からインサイトを生成するための画像処理用の包括的な標準出力のセットが用意されています。これらのインサイトを使用して、コンテンツ検出、コンテキストに応じた広告配置、ブランドの安全性など、幅広いアプリケーションやユースケースを実現できます。イメージの標準出力の一部として使用できる各オペレーションタイプの概要を次に示します。

イメージの概要

イメージ概要は、イメージのわかりやすいキャプションを生成します。この機能は、デフォルトで標準出力設定内で有効になっています。

IAB 分類

インタラクティブ広告局 (IAB) 分類は、標準の広告分類を適用して画像コンテンツを分類します。プレビューの場合、BDA は 24 のトップレベル (L1) カテゴリと 85 のセカンドレベル (L2) カテゴリをサポートします。BDA でサポートされている IAB カテゴリのリストをダウンロードするには、ここをクリックします。

ロゴ検出

この機能は、イメージ内のロゴを識別し、イメージ内で検出された各ロゴの座標と信頼スコアを示す境界ボックス情報を提供します。この機能はデフォルトでは有効になっていません。

イメージテキストの検出

この機能は、画像に視覚的に表示されるテキストを検出して抽出し、画像内で検出された各テキスト要素の座標と信頼スコアを示す境界ボックス情報を提供します。この機能は、デフォルトで標準出力設定内で有効になっています。

コンテンツモデレーション

コンテンツモデレーションは、イメージ内の不適切、望ましくない、または不快なコンテンツを検出します。プレビューの場合、BDA は 7 つのモデレーションカテゴリをサポートします。明示的、非明示的な結合部分とキッシング、水着または下着、暴力、薬物とタバコ、アルコール、ヘイト記号です。イメージ内の明示的なテキストにはフラグが付けられません。

境界ボックスと関連する信頼スコアは、テキスト検出などの関連機能に対して有効または無効にして、画像内の位置座標を提供できます。デフォルトでは、画像の概要と画像テキストの検出が有効になっています。

イメージ標準出力

BDA を介して処理されるイメージの標準出力の例を次に示します。各セクションは短縮され、説明で区切られています。

{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },

レスポンスの最初の部分は、イメージのメタデータです。これにより、ファイル名、エンコードタイプ、s3 バケットの場所、およびコンテンツに関する詳細情報が提供されます。

"image": { "summary": "Lively party scene with decorations and supplies",

レスポンスの先頭には、イメージの生成概要が表示されます。

"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],

次に、応答にアタッチされた IAB キャタゴリーが表示されます。これらは、標準の IAB 分類を使用して、さまざまなタイプの広告分類を表します。各 には、一般的な高レベル catagory の信頼スコア、taxonomy_level、parent_name があります。

"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...

コンテンツモデレーションには、イメージ内の明示的なコンテンツに関する情報が含まれます。これらにはそれぞれ信頼スコアとカテゴリがあり、 セクションで前述したコンテンツモデレーションカテゴリと一致しています。

"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...

このセクションでは、信頼度や画像内の画面上の位置など、画像内で検出された各単語を分類します。また、 を使用して、単語がある行にフラグを付けますline_id

"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },

ここでは、単語は信頼スコアと境界ボックスとともに集合線で検出されます。

"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }

最後に、統計情報があります。オブジェクトを含むイメージ内のすべてのコンテンツを分類します。