Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
La función de automatización de Amazon Bedrock datos (BDA) ofrece un conjunto completo de resultados estándar para el procesamiento de imágenes a fin de generar información a partir de sus imágenes. Puede utilizar esta información para habilitar una amplia gama de aplicaciones y casos de uso, como la detección de contenido, la colocación de anuncios contextuales y la seguridad de la marca. Esta es una descripción general de cada tipo de operación disponible como parte de las salidas estándar para imágenes:
Resumen de la imagen
El resumen de la imagen genera un título descriptivo para una imagen. Esta función está habilitada de forma predeterminada en la configuración de salida estándar.
Taxonomía del IAB
La clasificación de la Interactive Advertising Bureau (IAB) aplica una taxonomía publicitaria estándar para clasificar el contenido de las imágenes. En el caso de la versión preliminar, BDA admitirá 24 categorías de nivel superior (L1) y 85 categorías de segundo nivel (L2). Para descargar la lista de categorías de IAB compatibles con la BDA, haga clic aquí.
Detección de texto de imagen
Esta función detecta y extrae el texto que aparece visualmente en una imagen y proporciona información sobre el cuadro delimitador, que indica las coordenadas de cada elemento de texto detectado en la imagen y las puntuaciones de confianza. Esta función está habilitada de forma predeterminada en la configuración de salida estándar.
Moderación de contenido
La moderación de contenido detecta contenido inapropiado, no deseado u ofensivo en una imagen. En la versión preliminar, BDA admitirá 7 categorías de moderación: desnudez explícita y no explícita en partes íntimas y besos, trajes de baño o ropa interior, violencia, drogas y tabaco, alcohol y símbolos de odio. El texto explícito de las imágenes no está marcado.
Los cuadros delimitadores y las puntuaciones de confianza asociadas se pueden activar o desactivar para funciones relevantes, como la detección de texto, a fin de proporcionar las coordenadas de ubicación en la imagen. De forma predeterminada, el resumen de imágenes y la detección del texto de las imágenes están activadas.
Salida estándar de imagen
El siguiente es un ejemplo de una salida estándar para una imagen procesada mediante BDA:
{
"metadata": {
"id": "image_123",
"semantic_modality": "IMAGE",
"s3_bucket": "my-s3-bucket",
"s3_prefix": "images/",
"image_width_pixels": 1920,
"image_height_pixels": 1080,
"color_depth": 24,
"image_encoding": "JPEG"
},
"image": {
"summary": "Lively party scene with decorations and supplies",
"iab_categories": [
{
"id": "iab_12345",
"type": "IAB",
"category": "Party Supplies",
"confidence": 0.9,
"parent_name": "Events & Attractions",
"taxonomy_level": 2
},
{
"id": "iab_67890",
"type": "IAB",
"category": "Decorations",
"confidence": 0.8,
"parent_name": "Events & Attractions",
"taxonomy_level": 1
}
],
"content_moderation": [
{
"id": "mod_12345",
"type": "MODERATION",
"category": "Drugs & Tobacco Paraphernalia & Use",
"confidence": 0.7,
"parent_name": "Drugs & Tobacco",
"taxonomy_level": 2
}
],
"text_words": [
{
"id": "word_1",
"text": "lively",
"confidence": 0.9,
"line_id": "line_1",
"locations": [
{
"bounding_box": {
"left": 100,
"top": 200,
"width": 50,
"height": 20
},
"polygon": [
{"x": 100, "y": 200},
{"x": 150, "y": 200},
{"x": 150, "y": 220},
{"x": 100, "y": 220}
]
}
]
},
{
"id": "word_2",
"text": "party",
"confidence": 0.85,
"line_id": "line_1",
"locations": [
{
"bounding_box": {
"left": 160,
"top": 200,
"width": 70,
"height": 20
},
"polygon": [
{"x": 160, "y": 200},
{"x": 230, "y": 200},
{"x": 230, "y": 220},
{"x": 160, "y": 220}
]
}
]
}
],
"text_lines": [
{
"id": "line_1",
"text": "lively party",
"confidence": 0.9,
"locations": [
{
"bounding_box": {
"left": 100,
"top": 200,
"width": 200,
"height": 20
},
"polygon": [
{"x": 100, "y": 200},
{"x": 300, "y": 200},
{"x": 300, "y": 220},
{"x": 100, "y": 220}
]
}
]
}
]
},
"statistics": {
"entity_count": 7,
"object_count": 3,
"line_count": 2,
"word_count": 9
}
}
Esta salida incluye:
Metadatos de imagen
Resumen de imágenes
Categorización IAB
Resultados de moderación de contenido
Se detectó texto con información a nivel de palabra y línea
Cuadros y polígonos delimitadores para las ubicaciones del texto
Estadísticas sobre el contenido analizado
Restricciones de procesamiento de imágenes BDA
BDA admite imágenes en los formatos de archivo JPEG y PNG. El tamaño máximo de archivo de una imagen es de 5 MB y la resolución máxima es de 8k.