本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
映像
Amazon Bedrock 資料自動化 (BDA) 功能為影像處理提供一組完整的標準輸出,以從您的影像產生洞見。您可以使用這些洞見來啟用各種應用程式和使用案例,例如內容探索、情境廣告放置和品牌安全。以下是影像標準輸出中每個可用操作類型的概觀:
影像摘要
影像摘要會產生影像的描述性字幕。預設會在標準輸出組態中啟用此功能。
IAB 分類
互動式廣告局 (IAB) 分類會套用標準廣告分類法來分類影像內容。對於預覽版,BDA 將支援 24 個最上層 (L1) 類別和 85 個第二層 (L2) 類別。若要下載 BDA 支援的 IAB 類別清單,請按一下這裡。
標誌偵測
此功能可識別影像中的標誌並提供週框方塊資訊,指出影像中每個偵測到標誌的座標,以及可信度分數。預設不會啟用此功能。
影像文字偵測
此功能會偵測並擷取影像中以視覺方式顯示的文字,並提供週框方塊資訊,指出影像中每個偵測到文字元素的座標,以及可信度分數。預設會在標準輸出組態中啟用此功能。
內容管制
內容管制會偵測影像中不適當、不想要或令人反感的內容。對於預覽版,BDA 將支援 7 個管制類別:隱含零件的明確、非明確裸露以及 Kissing、泳裝或內衣、暴力、藥物和煙草、酒精、仇恨符號。影像中的明確文字不會標記。
您可以針對文字偵測等相關功能啟用或停用邊界框和相關聯的可信度分數,以在影像中提供位置座標。影像摘要和影像文字偵測預設為啟用。
影像標準輸出
以下是透過 BDA 處理之映像的標準輸出範例。每個區段都經過縮短和分隔,並附有說明。
{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },
回應的第一部分是影像的中繼。它為您提供檔案名稱、編碼類型、s3 儲存貯體位置,以及有關內容的進一步資訊。
"image": { "summary": "Lively party scene with decorations and supplies",
在回應的開頭是影像的生成摘要。
"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],
接著,我們看到連接到回應的 IAB 目錄。這些代表不同類型的廣告分類,使用標準 IAB 分類法。每個類別都有一般高階類別的可信度分數、taxonomy_level 和 parent_name。
"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...
內容管制包含影像中可能明確內容的相關資訊。這些都具有可信度分數和類別,符合本節稍早討論的內容管制類別。
"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...
本節會細分影像中每個偵測到的字詞,包括可信度和影像中的螢幕位置。它也會使用 來標記字詞所在的行line_id
。
"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },
在這裡,會在其集體行中偵測到單字,其中包含可信度分數和週框方塊。
"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }
最後,我們有統計資料。這些會細分影像中的所有內容,包括物件