Rilevamento del testo - Amazon Rekognition

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Rilevamento del testo

Amazon Rekognition è in grado di rilevare testo in immagini e video. Può quindi convertire il testo rilevato in testo leggibile dalla macchina. È possibile utilizzare il rilevamento del testo leggibile dalla macchina nelle immagini per implementare soluzioni quali:

  • Ricerche visive. Ad esempio, per recuperare e visualizzare immagini contenenti lo stesso testo.

  • Informazioni sui contenuti. Ad esempio, per fornire informazioni su temi ricorrenti nel testo riconosciuto in fotogrammi video estratti. L'applicazione è in grado di eseguire ricerche di testo riconosciuto per contenuti rilevanti, ad esempio notizie, risultati sportivi, numeri di maglia degli atleti e didascalie.

  • Navigazione. Ad esempio, per sviluppare un'app abilitata per la sintesi vocale per persone ipovedenti in grado di riconoscere i nomi di ristoranti e negozi o i cartelli stradali.

  • Supporto per il trasporto e la sicurezza pubblica. Ad esempio, per rilevare i numeri di targa dalle immagini delle videocamere stradali.

  • Filtraggio. Ad esempio, per filtrare Informazioni di identificazione personale (PII) dalle immagini.

Per il rilevamento del testo nei video, è possibile implementare soluzioni quali:

  • Ricerca di video per clip con parole chiave di testo specifiche, ad esempio il nome dell'ospite su un grafico in un notiziario.

  • Moderazione dei contenuti per garantire la conformità agli standard organizzativi mediante il rilevamento di testo accidentale, parolacce o spam.

  • Trovare tutte le sovrapposizioni di testo sulla timeline video per ulteriori elaborazioni, ad esempio la sostituzione con testo in un'altra lingua per l'internazionalizzazione dei contenuti.

  • Trovare posizioni di testo, in modo che altri elementi grafici possano essere allineati di conseguenza.

Per rilevare il testo nelle immagini in formato JPEG o PNG, utilizzare l'DetectTextoperazione. Per rilevare in modo asincrono il testo nel video, utilizzate le operazioni and. StartTextDetectionGetTextDetection Le operazioni di rilevamento sia di immagini che di video supportano la maggior parte dei tipi di carattere, inclusi quelli altamente stilizzati. Dopo aver rilevato il testo, Amazon Rekognition crea una rappresentazione di parole e linee di testo rilevate, mostra la relazione tra di loro e indica dove si trova il testo su un'immagine o una cornice di video.

Le operazioni DetectText e GetTextDetection rilevano parole e righe. Una parola è costituita da uno o più caratteri dello script che non sono separati da spazi. DetectTextè in grado di rilevare fino a 100 parole in un'immagine. GetTextDetectionè inoltre in grado di rilevare fino a 100 parole per frame di video.

Una parola corrisponde a uno o più caratteri non separati da spazi. Amazon Rekognition è progettato per rilevare parole in inglese, arabo, russo, tedesco, francese, italiano, portoghese e spagnolo.

Una riga è una stringa di parole equidistanti Una riga non è necessariamente una frase completa (i punti non indicano la fine di una riga). Ad esempio, Amazon Rekognition rileva un numero di patente come una riga. Una riga termina quando non c'è testo allineato dopo di essa o quando c'è un ampio spazio tra le parole, rispetto alla lunghezza delle parole. In pratica, a seconda dello spazio tra le parole, Amazon Rekognition potrebbe rilevare più righe di testo allineate nella stessa direzione. Se una frase si espande su più righe, l'operazione restituisce più righe.

Considera l'immagine seguente:

Tazza da caffè con faccina sorridente e testo «È lunedì ma continua a sorridere», con riquadri delimitanti e testo estratto.

Le caselle blu rappresentano informazioni sul testo rilevato e la posizione del testo restituito dall'operazione DetectText. In questo esempio, Amazon Rekognition rileva «È», «LUNEDÌ», «ma», «continua a» e «sorridere» come parole. Amazon Rekognition rileva «È», «LUNEDÌ», «ma», «continua a» e «sorridere» come righe. Per essere rilevato, l'orientamento del testo deve essere +/- 90° sull'asse orizzontale.

Per vedere un esempio, consulta Rilevamento di testo in un'immagine.