Input e output di dati - Amazon Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Input e output di dati

Amazon Transcribeprende i dati audio, come file multimediali in unAmazon S3 bucket o in un flusso multimediale, e li converte in dati di testo.

Se stai trascrivendo file multimediali archiviati in unAmazon S3 bucket, stai eseguendo trascrizioni in batch. Se stai trascrivendo flussi multimediali, stai eseguendo trascrizioni in streaming. Questi due processi hanno regole e requisiti diversi.

Le trascrizioni in batch possono essere utilizzateCoda Job da di da di da da se non è necessario elaborare tutti i processi di trascrizione contemporaneamente. Ciò consente diAmazon Transcribe tenere traccia dei lavori di trascrizione ed elaborarli quando gli slot sono disponibili.

Nota

Amazon Transcribepuò archiviare temporaneamente i tuoi contenuti per migliorare continuamente la qualità dei suoi modelli di analisi. Per ulteriori informazioni, consulta Domande frequenti su Amazon Transcribe. Per richiedere la cancellazione di contenuti che potrebbero essere stati archiviati daAmazon Transcribe, apri una custodia con AWS Support.

Formati multimediali

I tipi di file multimediali supportati differiscono tra le trascrizioni in batch e le trascrizioni in streaming, sebbene per entrambe siano consigliati formati senza perdita di dati. Per ulteriori dettagli, consulta la tabella che segue.

Archiviazione

Streaming

Formati supportati

  • AMR

  • FLACONE

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLACONE

  • Ogg Opus

  • Codifica PCM

Formati consigliati

  • FLACONE

  • WAV con codifica PCM a 16 bit

  • FLACONE

  • Audio little-endian a 16 bit firmato PCM (nota che non include WAV)

Per risultati ottimali, utilizzate un formato senza perdita di dati, ad esempio FLAC o WAV con codifica PCM a 16 bit.

Nota

Le trascrizioni in streaming non sono supportate in tutte le lingue. Consulta la colonna «Inserimento dati» nella tabella delle lingue supportate per i dettagli.

Canali audio

Amazon Transcribesupporta contenuti multimediali a canale singolo e doppio. I contenuti multimediali con più di due canali non sono attualmente supportati.

Se l'audio contiene più altoparlanti su un canale e desideri partizionare ed etichettare ogni altoparlante nell'uscita di trascrizione, puoi utilizzare il partizionamento degli altoparlanti (diarizzazione).

Se l'audio contiene la voce su due canali separati, puoi utilizzare l'identificazione dei canali per trascrivere ciascun canale separatamente all'interno della trascrizione.

Entrambe queste opzioni producono un file di trascrizione.

Nota

Se non abiliti il partizionamento degli altoparlanti o l'identificazione dei canali, il testo della trascrizione viene fornito come una sezione continua.

Frequenze di campionamento

Con i processi di trascrizione in batch, puoi scegliere di fornire una frequenza di campionamento, sebbene questo parametro sia facoltativo. Se lo includi nella tua richiesta, assicurati che il valore fornito corrisponda alla frequenza di campionamento effettiva dell'audio. Se fornisci una frequenza di campionamento che non corrisponde all'audio, il tuo lavoro potrebbe fallire.

Con le trascrizioni in streaming, è necessario includere una frequenza di campionamento nella richiesta. Come per i processi di trascrizione in batch, assicurati che il valore fornito corrisponda alla frequenza di campionamento effettiva dell'audio.

Le frequenze di campionamento per l'audio a bassa fedeltà, ad esempio le registrazioni telefoniche, utilizzano in genere 8.000 Hz. Per un audio ad alta fedeltà,Amazon Transcribe supporta valori compresi tra 16.000 Hz e 48.000 Hz.

Output

L'output della trascrizione è in formato JSON. La prima parte della trascrizione contiene la trascrizione stessa sotto forma di paragrafo, seguita da dati aggiuntivi per ogni parola e segno di punteggiatura. I dati forniti dipendono dalle funzionalità incluse nella richiesta. Come minimo, la trascrizione contiene l'ora di inizio, l'ora di fine e il punteggio di affidabilità per ogni parola. La sezione seguente mostra un esempio di output di una richiesta di trascrizione di base che non includeva opzioni o funzionalità aggiuntive.

Tutte le trascrizioni dei batch vengono archiviate inAmazon S3 secchi. Puoi scegliere di salvare la trascrizione nel tuoAmazon S3 bucket oAmazon Transcribe utilizzare un bucket predefinito sicuro. Per ulteriori informazioni sulla creazione e sull'utilizzo deiAmazon S3 bucket, vedi Utilizzo dei bucket.

Se desideri che la trascrizione venga archiviata in unAmazon S3 bucket di tua proprietà, specifica l'URI del bucket nella richiesta di trascrizione. Assicurati di fornireAmazon Transcribe i permessi di scrittura per questo bucket prima di iniziare il lavoro di trascrizione in batch. Se specifichi un bucket personale, la trascrizione rimane in quel bucket finché non la rimuovi.

Se non specifichi unAmazon S3 bucket,Amazon Transcribe utilizza un bucket sicuro gestito dal servizio e ti fornisce un URI temporaneo che puoi usare per scaricare la trascrizione. Tieni presente che gli URI temporanei sono validi per 15 minuti. Se ricevi unAccessDenied errore quando usi l'URI fornito, fai unaGetTranscriptionJob richiesta per ottenere un nuovo URI temporaneo per la tua trascrizione.

Se si opta per un bucket predefinito, la trascrizione viene eliminata alla scadenza del lavoro (90 giorni). Se desideri mantenere la trascrizione oltre questa data di scadenza, devi scaricarla.

Le trascrizioni in streaming vengono restituite tramite lo stesso metodo utilizzato per lo streaming.

Suggerimento

Se vuoi convertire il tuo output JSON in una turn-by-turn trascrizione in formato Word, guarda questo GitHub esempio (per Python3). Questo script funziona con le trascrizioni analitiche post-chiamata e le trascrizioni batch standard con la diarizzazione abilitata.

Output di esempio

Le trascrizioni forniscono una trascrizione completa in forma di paragrafo, seguita da una word-for-word suddivisione, che fornisce dati per ogni parola e segno di punteggiatura. Ciò include l'ora di inizio, l'ora di fine, un punteggio di affidabilità e un tipo (pronunciationopunctuation).

L'esempio seguente è tratto da un semplice processo di trascrizione in batch che non includeva funzionalità aggiuntive. Con ogni funzionalità aggiuntiva che applichi alla tua richiesta di trascrizione, ottieni dati aggiuntivi nel file di output della trascrizione.

Le trascrizioni batch di base contengono due sezioni principali:

  1. transcripts: contiene l'intera trascrizione in un blocco di testo.

  2. items: contiene informazioni su ogni parola e segno di punteggiatura dellatranscripts sezione.

Ogni funzionalità aggiuntiva che includi nella tua richiesta di trascrizione produce informazioni aggiuntive nella trascrizione.

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }, "status": "COMPLETED" }