Zusammenfassung der Bilder IAB-Taxonomie Erkennung von Logos Erkennung von Bild und Text Moderation von Inhalten Standardausgabe für Bilder

Bilder

Die Funktion Amazon Bedrock Data Automation (BDA) bietet einen umfassenden Satz von Standardausgaben für die Bildverarbeitung, um Erkenntnisse aus Ihren Bildern zu gewinnen. Sie können diese Erkenntnisse nutzen, um eine Vielzahl von Anwendungen und Anwendungsfällen zu ermöglichen, z. B. für die Entdeckung von Inhalten, die Platzierung kontextbezogener Anzeigen und die Markensicherheit. Im Folgenden finden Sie eine Übersicht über die einzelnen Operationstypen, die als Teil der Standardausgaben für Bilder verfügbar sind:

Zusammenfassung der Bilder

Die Bildzusammenfassung generiert eine beschreibende Bildunterschrift. Diese Funktion ist in der Standardausgabekonfiguration standardmäßig aktiviert.

IAB-Taxonomie

Die Klassifikation des Interactive Advertising Bureau (IAB) wendet eine Standardtaxonomie für Werbung zur Klassifizierung von Bildinhalten an. Für die Vorschauversion wird BDA 24 Kategorien der obersten Ebene (L1) und 85 Kategorien der zweiten Ebene (L2) unterstützen. Um die Liste der von BDA unterstützten IAB-Kategorien herunterzuladen, klicken Sie hier.

Erkennung von Logos

Diese Funktion identifiziert Logos in einem Bild und stellt Bounding-Box-Informationen bereit, die die Koordinaten der einzelnen erkannten Logos im Bild sowie Konfidenzwerte angeben. Diese Funktion ist standardmäßig nicht aktiviert.

Erkennung von Bild und Text

Diese Funktion erkennt und extrahiert Text, der visuell in einem Bild erscheint, und liefert Bounding-Box-Informationen, die die Koordinaten jedes erkannten Textelements innerhalb des Bildes sowie Konfidenzwerte angeben. Diese Funktion ist in der Standardausgabekonfiguration standardmäßig aktiviert.

Moderation von Inhalten

Bei der Inhaltsmoderation werden unangemessene, unerwünschte oder anstößige Inhalte in einem Bild erkannt. Für die Vorschauversion unterstützt BDA 7 Moderationskategorien: Explizite, nicht explizite Nacktheit intimer Bereiche und Küssen, Bademode oder Unterwäsche, Gewalt, Drogen und Tabak, Alkohol, Hasssymbole. Expliziter Text in Bildern wird nicht gekennzeichnet.

Begrenzungsrahmen und die zugehörigen Konfidenzwerte können für relevante Funktionen wie die Texterkennung zur Bereitstellung von Ortskoordinaten im Bild aktiviert oder deaktiviert werden. Standardmäßig sind Bildzusammenfassung und Bildtexterkennung aktiviert.

Standardausgabe für Bilder

Im Folgenden finden Sie ein Beispiel für eine Standardausgabe für ein mit BDA verarbeitetes Bild. Jeder Abschnitt wurde gekürzt und mit einer Erklärung getrennt.


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

Der erste Teil einer Antwort besteht aus den Metadaten eines Bildes. Es gibt Ihnen den Dateinamen, den Kodierungstyp, den Speicherort des S3-Buckets und weitere Informationen zum Inhalt.



"image": {
    "summary": "Lively party scene with decorations and supplies",

Am Anfang der Antwort steht die generative Zusammenfassung des Bildes.



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

Als Nächstes sehen wir die IAB-Kategorien, die einer Antwort beigefügt sind. Diese stellen verschiedene Arten von Werbeklassifizierungen dar, wobei die standardmäßige IAB-Taxonomie verwendet wird. Für jede Kategorie gibt es einen Konfidenzwert, taxonomy_level und parent_name für die allgemeine allgemeine Kategorie.



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

Die Inhaltsmoderation enthält Informationen über mögliche explizite Inhalte in einem Bild. Diese haben jeweils einen Vertrauenswert und eine Kategorie, die den weiter oben in diesem Abschnitt erörterten Kategorien für die Inhaltsmoderation entsprechen.



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

In diesem Abschnitt wird jedes erkannte Wort in einem Bild aufgeschlüsselt, einschließlich Konfidenz und einer Position auf dem Bildschirm innerhalb des Bildes. Außerdem wird angegeben, in welcher Zeile sich das Wort befindetline_id.



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

Hier werden Wörter in ihren Sammelzeilen mit Konfidenzwert und Begrenzungsfeld erkannt.



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Endlich haben wir Statistiken. Diese gliedern den gesamten Inhalt eines Bildes, einschließlich des Objekts

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

-Documents

Videos