Resumen de la imagen Taxonomía del IAB Detección de logotipos Detección de texto de imagen Moderación de contenido Salida estándar de imagen

Imágenes

La función de automatización de Amazon Bedrock datos (BDA) ofrece un conjunto completo de resultados estándar para el procesamiento de imágenes a fin de generar información a partir de sus imágenes. Puede utilizar esta información para habilitar una amplia gama de aplicaciones y casos de uso, como la detección de contenido, la colocación de anuncios contextuales y la seguridad de la marca. Esta es una descripción general de cada tipo de operación disponible como parte de las salidas estándar para imágenes:

Resumen de la imagen

El resumen de la imagen genera un título descriptivo para una imagen. Esta función está habilitada de forma predeterminada en la configuración de salida estándar.

Taxonomía del IAB

La clasificación de la Interactive Advertising Bureau (IAB) aplica una taxonomía publicitaria estándar para clasificar el contenido de las imágenes. En el caso de la versión preliminar, BDA admitirá 24 categorías de nivel superior (L1) y 85 categorías de segundo nivel (L2). Para descargar la lista de categorías de IAB compatibles con la BDA, haga clic aquí.

Detección de logotipos

Esta función identifica los logotipos de una imagen y proporciona información sobre el recuadro delimitador, que indica las coordenadas de cada logotipo detectado en la imagen y las puntuaciones de confianza. Esta función no está habilitada de forma predeterminada.

Detección de texto de imagen

Esta función detecta y extrae el texto que aparece visualmente en una imagen y proporciona información sobre el cuadro delimitador, que indica las coordenadas de cada elemento de texto detectado en la imagen y las puntuaciones de confianza. Esta función está habilitada de forma predeterminada en la configuración de salida estándar.

Moderación de contenido

La moderación de contenido detecta contenido inapropiado, no deseado u ofensivo en una imagen. En la versión preliminar, BDA admitirá 7 categorías de moderación: desnudez explícita y no explícita en partes íntimas y besos, trajes de baño o ropa interior, violencia, drogas y tabaco, alcohol y símbolos de odio. El texto explícito de las imágenes no está marcado.

Los cuadros delimitadores y las puntuaciones de confianza asociadas se pueden activar o desactivar para funciones relevantes, como la detección de texto, a fin de proporcionar las coordenadas de ubicación en la imagen. De forma predeterminada, el resumen de la imagen y la detección del texto de la imagen están habilitados.

Salida estándar de imagen

El siguiente es un ejemplo de una salida estándar para una imagen procesada mediante BDA. Cada sección se ha abreviado y separado con una explicación.


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

La primera parte de una respuesta es el metadato de una imagen. Proporciona el nombre del archivo, el tipo de codificación, la ubicación del depósito s3 y más información sobre el contenido.



"image": {
    "summary": "Lively party scene with decorations and supplies",

Al principio de la respuesta está el resumen generativo de la imagen.



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

A continuación, vemos las categorías del IAB adjuntas a una respuesta. Representan diferentes tipos de clasificaciones de publicidad, utilizando la taxonomía estándar de la IAB. Cada una de ellas tiene una puntuación de confianza, un nivel de taxonomía y un nombre_padre para la categoría general de alto nivel.



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

La moderación de contenido contiene información sobre el posible contenido explícito de una imagen. Cada una de ellas tiene una puntuación de confianza y una categoría, que se alinean con las categorías de moderación de contenido analizadas anteriormente en esta sección.



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

En esta sección se desglosan las palabras detectadas en una imagen, incluidas la confianza y la ubicación de la imagen en pantalla. También marca la línea en la que se encuentra la palabra, utilizandoline_id.



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

Aquí, las palabras se detectan en sus líneas colectivas, con una puntuación de confianza y un recuadro delimitador.



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Por último, tenemos las estadísticas. Estas desglosan todo el contenido de una imagen, incluido el objeto

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Documentos de

Videos