Riepilogo dell'immagine Tassonomia IAB Rilevamento del logo Rilevamento del testo dell'immagine Moderazione dei contenuti Output standard dell'immagine

Immagini

La funzionalità Amazon Bedrock Data Automation (BDA) offre un set completo di output standard per l'elaborazione delle immagini per generare informazioni dettagliate dalle immagini. Puoi utilizzare queste informazioni per abilitare un'ampia gamma di applicazioni e casi d'uso, come la scoperta di contenuti, il posizionamento contestuale degli annunci e la sicurezza del marchio. Ecco una panoramica di ogni tipo di operazione disponibile come parte degli output standard per le immagini:

Riepilogo dell'immagine

Il riepilogo dell'immagine genera una didascalia descrittiva per un'immagine. Per impostazione predefinita, questa funzionalità è abilitata nella configurazione di output standard.

Tassonomia IAB

La classificazione dell'Interactive Advertising Bureau (IAB) applica una tassonomia pubblicitaria standard per classificare i contenuti delle immagini. Per l'anteprima, BDA supporterà 24 categorie di primo livello (L1) e 85 categorie di secondo livello (L2). Per scaricare l'elenco delle categorie IAB supportate da BDA, fai clic qui.

Rilevamento del logo

Questa funzione identifica i loghi in un'immagine e fornisce informazioni sui riquadri di delimitazione, indicando le coordinate di ogni logo rilevato all'interno dell'immagine e i punteggi di affidabilità. Questa funzionalità non è abilitata per impostazione predefinita.

Rilevamento del testo dell'immagine

Questa funzione rileva ed estrae il testo che appare visivamente in un'immagine e fornisce informazioni sul riquadro di delimitazione, indicando le coordinate di ogni elemento di testo rilevato all'interno dell'immagine e i punteggi di confidenza. Per impostazione predefinita, questa funzionalità è abilitata nella configurazione di output standard.

Moderazione dei contenuti

La moderazione dei contenuti rileva contenuti inappropriati, indesiderati o offensivi in un'immagine. In anteprima, BDA supporterà 7 categorie di moderazione: nudità esplicita e non esplicita delle parti intime e baci, costumi da bagno o biancheria intima, violenza, droghe e tabacco, alcol, simboli di odio. Il testo esplicito nelle immagini non è contrassegnato.

I riquadri di delimitazione e i relativi punteggi di confidenza possono essere abilitati o disabilitati per funzioni pertinenti come il rilevamento del testo per fornire le coordinate della posizione nell'immagine. Per impostazione predefinita, il riepilogo dell'immagine e il rilevamento del testo dell'immagine sono abilitati.

Output standard dell'immagine

Di seguito è riportato un esempio di output standard per un'immagine elaborata tramite BDA. Ogni sezione è stata abbreviata e separata da una spiegazione.


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

La prima parte di una risposta è il metadato di un'immagine. Fornisce il nome del file, il tipo di codifica, la posizione del bucket s3 e ulteriori informazioni sul contenuto.



"image": {
    "summary": "Lively party scene with decorations and supplies",

All'inizio della risposta c'è il riepilogo generativo dell'immagine.



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

Successivamente, vediamo le categorie IAB allegate a una risposta. Queste rappresentano diversi tipi di classificazioni pubblicitarie, utilizzando la tassonomia IAB standard. Ciascuna di esse ha un punteggio di confidenza, taxonomy_level e parent_name per la categoria generale di alto livello.



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

La moderazione dei contenuti contiene informazioni sui possibili contenuti espliciti presenti in un'immagine. Ciascuna di esse ha un punteggio di affidabilità e una categoria, in linea con le categorie di moderazione dei contenuti discusse in precedenza nella sezione.



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

Questa sezione analizza ogni parola rilevata all'interno di un'immagine, inclusa la confidenza e la posizione sullo schermo all'interno dell'immagine. Indica inoltre in quale riga si trova la parola, utilizzandoline_id.



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

Qui, le parole vengono rilevate nelle rispettive righe collettive, con punteggio di confidenza e riquadro di delimitazione.



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Infine, abbiamo le statistiche. Questi scompongono tutto il contenuto all'interno di un'immagine, incluso l'oggetto

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Documenti di

Video