Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Immagini
La funzionalità Amazon Bedrock Data Automation (BDA) offre un set completo di output standard per l'elaborazione delle immagini per generare informazioni dettagliate dalle immagini. Puoi utilizzare queste informazioni per abilitare un'ampia gamma di applicazioni e casi d'uso, come la scoperta di contenuti, il posizionamento contestuale degli annunci e la sicurezza del marchio. Ecco una panoramica di ogni tipo di operazione disponibile come parte degli output standard per le immagini:
Riepilogo dell'immagine
Il riepilogo dell'immagine genera una didascalia descrittiva per un'immagine. Per impostazione predefinita, questa funzionalità è abilitata nella configurazione di output standard.
Tassonomia IAB
La classificazione dell'Interactive Advertising Bureau (IAB) applica una tassonomia pubblicitaria standard per classificare i contenuti delle immagini. Per l'anteprima, BDA supporterà 24 categorie di primo livello (L1) e 85 categorie di secondo livello (L2). Per scaricare l'elenco delle categorie IAB supportate da BDA, fai clic qui.
Rilevamento del logo
Questa funzione identifica i loghi in un'immagine e fornisce informazioni sui riquadri di delimitazione, indicando le coordinate di ogni logo rilevato all'interno dell'immagine e i punteggi di affidabilità. Questa funzionalità non è abilitata per impostazione predefinita.
Rilevamento del testo dell'immagine
Questa funzione rileva ed estrae il testo che appare visivamente in un'immagine e fornisce informazioni sul riquadro di delimitazione, indicando le coordinate di ogni elemento di testo rilevato all'interno dell'immagine e i punteggi di confidenza. Per impostazione predefinita, questa funzionalità è abilitata nella configurazione di output standard.
Moderazione dei contenuti
La moderazione dei contenuti rileva contenuti inappropriati, indesiderati o offensivi in un'immagine. In anteprima, BDA supporterà 7 categorie di moderazione: nudità esplicita e non esplicita delle parti intime e baci, costumi da bagno o biancheria intima, violenza, droghe e tabacco, alcol, simboli di odio. Il testo esplicito nelle immagini non è contrassegnato.
I riquadri di delimitazione e i relativi punteggi di confidenza possono essere abilitati o disabilitati per funzioni pertinenti come il rilevamento del testo per fornire le coordinate della posizione nell'immagine. Per impostazione predefinita, il riepilogo dell'immagine e il rilevamento del testo dell'immagine sono abilitati.
Output standard dell'immagine
Di seguito è riportato un esempio di output standard per un'immagine elaborata tramite BDA. Ogni sezione è stata abbreviata e separata da una spiegazione.
{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },
La prima parte di una risposta è il metadato di un'immagine. Fornisce il nome del file, il tipo di codifica, la posizione del bucket s3 e ulteriori informazioni sul contenuto.
"image": { "summary": "Lively party scene with decorations and supplies",
All'inizio della risposta c'è il riepilogo generativo dell'immagine.
"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],
Successivamente, vediamo le categorie IAB allegate a una risposta. Queste rappresentano diversi tipi di classificazioni pubblicitarie, utilizzando la tassonomia IAB standard. Ciascuna di esse ha un punteggio di confidenza, taxonomy_level e parent_name per la categoria generale di alto livello.
"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...
La moderazione dei contenuti contiene informazioni sui possibili contenuti espliciti presenti in un'immagine. Ciascuna di esse ha un punteggio di affidabilità e una categoria, in linea con le categorie di moderazione dei contenuti discusse in precedenza nella sezione.
"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...
Questa sezione analizza ogni parola rilevata all'interno di un'immagine, inclusa la confidenza e la posizione sullo schermo all'interno dell'immagine. Indica inoltre in quale riga si trova la parola, utilizzandoline_id
.
"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },
Qui, le parole vengono rilevate nelle rispettive righe collettive, con punteggio di confidenza e riquadro di delimitazione.
"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }
Infine, abbiamo le statistiche. Questi scompongono tutto il contenuto all'interno di un'immagine, incluso l'oggetto