映像

Amazon Bedrock 数据自动化 (BDA) 功能为图像处理提供了一套全面的标准输出，可从图像中生成见解。您可以利用这些见解来实现各种应用和用例，例如内容发现、情境广告投放和品牌安全。以下是作为图像标准输出一部分可用的每种操作类型的概述：

图片摘要

图片摘要为图片生成描述性标题。默认情况下，此功能在标准输出配置中处于启用状态。

IAB 分类法

互动广告局 (IAB) 分类采用标准的广告分类法对图片内容进行分类。对于预览版，BDA 将支持 24 个顶级 (L1) 类别和 85 个二级 (L2) 类别。要下载 BDA 支持的 IAB 类别列表，请单击此处。

徽标检测

此功能可识别图像中的徽标并提供边界框信息，指示图像中每个检测到的徽标的坐标以及置信度分数。默认情况下，此功能未启用。

图像文本检测

此功能可检测和提取图像中直观显示的文本，并提供边界框信息，指示图像中每个检测到的文本元素的坐标以及置信度分数。默认情况下，此功能在标准输出配置中处于启用状态。

内容审核

内容审核可检测图片中的不当、不想要或令人反感的内容。在预览版中，BDA 将支持 7 个审核类别：露骨的、私密部位的非露骨裸露和接吻、泳装或内衣、暴力、毒品和烟草、酒精、仇恨符号。图像中的露骨文字不会被标记。

可以为文本检测等相关功能启用或禁用边界框和相关的置信度分数，以在图像中提供位置坐标。默认情况下，图像摘要和图像文本检测处于启用状态。

图像标准输出

以下是通过 BDA 处理的图像的标准输出示例。每个部分都经过了缩短和分隔，并附有说明。


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

响应的第一部分是图像的元数据。它为您提供文件名、编码类型、s3 存储桶位置以及有关内容的更多信息。



"image": {
    "summary": "Lively party scene with decorations and supplies",

响应的开头是图像的生成摘要。



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

接下来，我们将看到响应中附加的 IAB 类别。使用标准的 IAB 分类法，它们代表不同类型的广告分类。每个类别都有一般高级类别的置信度分数、taxonomy_level 和 parent_name。



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

内容审核包含有关图片中可能存在的露骨内容的信息。它们都有一个置信度分数和类别，与本节前面讨论的内容审核类别一致。



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

本节对图像中检测到的每个单词进行细分，包括置信度和图像中屏幕上的位置。它还使用标记单词在哪一行line_id。



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

在这里，在单词的集体行中检测出来，带有置信度分数和边界框。



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

最后，我们有统计数据。它们会分解图像中的所有内容，包括对象

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

文档

视频