Résumé de l'image Taxonomie de l'IAB Détection de logo Détection du texte de l'image Modération du contenu Sortie standard d'image

Images

La fonction Amazon Bedrock Data Automation (BDA) propose un ensemble complet de sorties standard pour le traitement des images afin de générer des informations à partir de vos images. Vous pouvez utiliser ces informations pour activer un large éventail d'applications et de cas d'utilisation, tels que la découverte de contenu, le placement d'annonces contextuelles et la sécurité de la marque. Voici un aperçu de chaque type d'opération disponible dans le cadre des sorties standard pour les images :

Résumé de l'image

Le résumé de l'image génère une légende descriptive pour une image. Cette fonctionnalité est activée par défaut dans la configuration de sortie standard.

Taxonomie de l'IAB

La classification de l'Interactive Advertising Bureau (IAB) applique une taxonomie publicitaire standard pour classer le contenu des images. Pour la version préliminaire, BDA prendra en charge 24 catégories de premier niveau (L1) et 85 catégories de deuxième niveau (L2). Pour télécharger la liste des catégories IAB prises en charge par BDA, cliquez ici.

Détection de logo

Cette fonctionnalité identifie les logos sur une image et fournit des informations sur les cadres de délimitation, indiquant les coordonnées de chaque logo détecté dans l'image, ainsi que les scores de confiance. Cette fonctionnalité n'est pas activée par défaut.

Détection du texte de l'image

Cette fonction détecte et extrait le texte qui apparaît visuellement dans une image et fournit des informations sur les cadres de délimitation, indiquant les coordonnées de chaque élément de texte détecté dans l'image, ainsi que les scores de confiance. Cette fonctionnalité est activée par défaut dans la configuration de sortie standard.

Modération du contenu

La modération du contenu détecte le contenu inapproprié, indésirable ou offensant d'une image. Pour la version préliminaire, BDA soutiendra 7 catégories de modération : nudité explicite et non explicite dans les parties intimes et baisers, maillots de bain ou sous-vêtements, violence, drogues et tabac, alcool, symboles haineux. Le texte explicite dans les images n'est pas marqué.

Les cadres de délimitation et les scores de confiance associés peuvent être activés ou désactivés pour les fonctionnalités pertinentes, telles que la détection de texte afin de fournir les coordonnées de localisation dans l'image. Par défaut, le résumé de l'image et la détection du texte de l'image sont activés.

Sortie standard d'image

Voici un exemple de sortie standard pour une image traitée via BDA. Chaque section a été raccourcie et séparée par une explication.


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

La première partie d'une réponse est la métadate d'une image. Il vous donne le nom du fichier, le type d'encodage, l'emplacement du compartiment s3 et des informations supplémentaires sur le contenu.



"image": {
    "summary": "Lively party scene with decorations and supplies",

Au début de la réponse se trouve le résumé génératif de l'image.



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

Ensuite, nous voyons les catégories IAB associées à une réponse. Ils représentent différents types de classifications publicitaires, selon la taxonomie standard de l'IAB. Chacun possède un score de confiance, taxonomy_level et parent_name pour la catégorie générale de haut niveau.



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

La modération du contenu contient des informations sur le contenu explicite possible d'une image. Chacune d'entre elles possède un score de confiance et une catégorie, correspondant aux catégories de modération du contenu abordées plus haut dans la section.



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

Cette section détaille chaque mot détecté dans une image, y compris la confiance et l'emplacement à l'écran dans l'image. Il indique également la ligne dans laquelle se trouve le mot, en utilisantline_id.



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

Ici, les mots sont détectés dans leurs lignes collectives, avec un score de confiance et un cadre de sélection.



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Enfin, nous avons des statistiques. Ils décomposent tout le contenu d'une image, y compris l'objet

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Documents

Vidéos