映像 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

映像

Amazon Bedrock 数据自动化 (BDA) 功能为图像处理提供了一套全面的标准输出,可从图像中生成见解。您可以利用这些见解来实现各种应用和用例,例如内容发现、情境广告投放和品牌安全。以下是作为图像标准输出一部分可用的每种操作类型的概述:

图片摘要

图片摘要为图片生成描述性标题。默认情况下,此功能在标准输出配置中处于启用状态。

IAB 分类法

互动广告局 (IAB) 分类采用标准的广告分类法对图片内容进行分类。对于预览版,BDA 将支持 24 个顶级 (L1) 类别和 85 个二级 (L2) 类别。要下载 BDA 支持的 IAB 类别列表,请单击此处。

徽标检测

此功能可识别图像中的徽标并提供边界框信息,指示图像中每个检测到的徽标的坐标以及置信度分数。默认情况下,此功能未启用。

图像文本检测

此功能可检测和提取图像中直观显示的文本,并提供边界框信息,指示图像中每个检测到的文本元素的坐标以及置信度分数。默认情况下,此功能在标准输出配置中处于启用状态。

内容审核

内容审核可检测图片中的不当、不想要或令人反感的内容。在预览版中,BDA 将支持 7 个审核类别:露骨的、私密部位的非露骨裸露和接吻、泳装或内衣、暴力、毒品和烟草、酒精、仇恨符号。图像中的露骨文字不会被标记。

可以为文本检测等相关功能启用或禁用边界框和相关的置信度分数,以在图像中提供位置坐标。默认情况下,图像摘要和图像文本检测处于启用状态。

图像标准输出

以下是通过 BDA 处理的图像的标准输出示例。每个部分都经过了缩短和分隔,并附有说明。

{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },

响应的第一部分是图像的元数据。它为您提供文件名、编码类型、s3 存储桶位置以及有关内容的更多信息。

"image": { "summary": "Lively party scene with decorations and supplies",

响应的开头是图像的生成摘要。

"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],

接下来,我们将看到响应中附加的 IAB 类别。使用标准的 IAB 分类法,它们代表不同类型的广告分类。每个类别都有一般高级类别的置信度分数、taxonomy_level 和 parent_name。

"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...

内容审核包含有关图片中可能存在的露骨内容的信息。它们都有一个置信度分数和类别,与本节前面讨论的内容审核类别一致。

"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...

本节对图像中检测到的每个单词进行细分,包括置信度和图像中屏幕上的位置。它还使用标记单词在哪一行line_id

"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },

在这里,在单词的集体行中检测出来,带有置信度分数和边界框。

"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }

最后,我们有统计数据。它们会分解图像中的所有内容,包括对象