StartStreamTranscription - Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

StartStreamTranscription

Avvia un HTTP/2 o uno WebSocket stream bidirezionale in cui l'audio viene trasmesso in streaming ad Amazon Transcribe e i risultati della trascrizione vengono trasmessi all'applicazione.

I parametri seguenti sono obbligatori:

  • language-code o identify-language

  • media-encoding

  • sample-rate

Per ulteriori informazioni sullo streaming con Amazon Transcribe, consulta Trascrizione dell'audio in streaming.

Sintassi della richiesta

POST /stream-transcription HTTP/2 x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-vocabulary-name: VocabularyName x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification x-amzn-transcribe-number-of-channels: NumberOfChannels x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization x-amzn-transcribe-partial-results-stability: PartialResultsStability x-amzn-transcribe-content-identification-type: ContentIdentificationType x-amzn-transcribe-content-redaction-type: ContentRedactionType x-amzn-transcribe-pii-entity-types: PiiEntityTypes x-amzn-transcribe-language-model-name: LanguageModelName x-amzn-transcribe-identify-language: IdentifyLanguage x-amzn-transcribe-language-options: LanguageOptions x-amzn-transcribe-preferred-language: PreferredLanguage x-amzn-transcribe-vocabulary-names: VocabularyNames x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames Content-type: application/json { "AudioStream": { "AudioEvent": { "AudioChunk": blob } } }

Parametri della richiesta URI:

La richiesta utilizza i seguenti parametri URI.

ContentIdentificationType

Etichetta tutte le informazioni personali di identificazione (PII) identificate nella trascrizione.

L'identificazione del contenuto viene eseguita a livello di segmento; le informazioni PII specificate inPiiEntityTypes vengono contrassegnate al momento della trascrizione completa di un segmento audio.

Non puoi impostareContentIdentificationType eContentRedactionType nella stessa richiesta. Se li imposti entrambi, la tua richiesta restituisce unBadRequestException.

Per ulteriori informazioni, vedere Revisione o identificazione delle informazioni di identificazione personale.

Valori validi: PII

ContentRedactionType

Cancella tutte le informazioni personali di identificazione (PII) identificate nella trascrizione.

La redazione dei contenuti viene eseguita a livello di segmento; le informazioni PII specificate inPiiEntityTypes vengono redatte dopo la trascrizione completa di un segmento audio.

Non puoi impostareContentRedactionType eContentIdentificationType nella stessa richiesta. Se li imposti entrambi, la tua richiesta restituisce unBadRequestException.

Per ulteriori informazioni, vedere Revisione o identificazione delle informazioni di identificazione personale.

Valori validi: PII

EnableChannelIdentification

Consente l'identificazione dei canali nell'audio multicanale.

L'identificazione dei canali trascrive l'audio su ciascun canale in modo indipendente, quindi aggiunge l'uscita per ciascun canale in un'unica trascrizione.

Se disponi di audio multicanale e non abiliti l'identificazione dei canali, l'audio viene trascritto in modo continuo e la trascrizione non viene separata per canale.

Se includiEnableChannelIdentification nella tua richiesta, devi includere ancheNumberOfChannels.

Per ulteriori informazioni, consulta Trascrizione dell'audio multicanale.

EnablePartialResultsStabilization

Consente la stabilizzazione parziale dei risultati per la trascrizione. La stabilizzazione parziale dei risultati può ridurre la latenza dell'output, ma può influire sulla precisione. Per ulteriori informazioni, consulta Stabilizzazione parziale dei risultati.

IdentifyLanguage

Consente l'identificazione automatica della lingua per la trascrizione.

Se lo includiIdentifyLanguage, puoi opzionalmente includere un elenco di codici linguistici, utilizzandoLanguageOptions, che ritieni possano essere presenti nel tuo flusso audio. L'inclusione delle opzioni linguistiche può migliorare l'accuratezza della trascrizione.

Puoi includere anche una lingua preferita utilizzandoPreferredLanguage. L'aggiunta di una lingua preferita può aiutare Amazon Transcribe a identificare la lingua più rapidamente rispetto a quando si omette questo parametro.

Se hai un audio multicanale che contiene lingue diverse su ogni canale e hai abilitato l'identificazione dei canali, l'identificazione automatica della lingua identifica la lingua dominante su ciascun canale audio.

Tieni presente che devi includere unoLanguageCode oIdentifyLanguage nella tua richiesta. Se si includono entrambi i parametri, la richiesta ha esito negativo.

L'identificazione della lingua in streaming non può essere combinata con modelli o redazioni linguistiche personalizzati.

LanguageCode

Specifica il codice della lingua che rappresenta la lingua parlata nell'audio.

Se non sei sicuro della lingua parlata nel tuo audio, prendi in considerazione l'utilizzoIdentifyLanguage per abilitare l'identificazione automatica della lingua.

Per un elenco delle lingue supportate dallo streaming di Amazon Transcribe, consulta la tabella Lingue supportate.

Valori validi: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

LanguageModelName

Specifica il nome del modello linguistico personalizzato che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei modelli linguistici fanno distinzione tra maiuscole e minuscole

La lingua del modello linguistico specificato deve corrispondere al codice linguistico specificato nella richiesta di trascrizione. Se le lingue non corrispondono, il modello linguistico personalizzato non viene applicato. Non ci sono errori o avvisi associati a una mancata corrispondenza linguistica.

Per ulteriori informazioni, consulta Modelli linguistici personalizzati.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.

Pattern: ^[0-9a-zA-Z._-]+

LanguageOptions

Specifica due o più codici linguistici che rappresentino le lingue che ritieni possano essere presenti nei tuoi media; non è consigliabile includerne più di cinque. Se non sei sicuro di quali lingue siano presenti, non includere questo parametro.

L'inclusione delle opzioni linguistiche può migliorare l'accuratezza dell'identificazione linguistica.

Se includiLanguageOptions nella tua richiesta, devi includere ancheIdentifyLanguage.

Per un elenco delle lingue supportate dallo streaming di Amazon Transcribe, consulta la tabella Lingue supportate.

Importante

Puoi includere un solo dialetto linguistico per ogni lingua per ogni stream. Ad esempio, non è possibile includereen-US een-AU nella stessa richiesta.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.

Pattern: ^[a-zA-Z-,]+

MediaEncoding

Specifica la codifica dell'audio in ingresso. I formati supportati sono:

  • FLAC

  • Audio codificato OPUS in un contenitore Ogg

  • PCM (solo formati audio little-endian firmati a 16 bit, che non includono WAV)

Per ulteriori informazioni, consulta Formati multimediali.

Valori validi: pcm | ogg-opus | flac

Campo obbligatorio: sì

MediaSampleRateHertz

Frequenza di campionamento dell'audio in ingresso (in hertz). L'audio di bassa qualità, come l'audio del telefono, è in genere di circa 8.000 Hz. L'audio di alta qualità varia in genere da 16.000 Hz a 48.000 Hz. Tieni presente che la frequenza di campionamento specificata deve corrispondere a quella dell'audio.

Intervallo valido: valore minimo pari a 8000. Valmassimo massimo pari 48000.

Campo obbligatorio: sì

NumberOfChannels

Specifica il numero di canali nel tuo streaming audio. Questo valore deve essere2 dato che sono supportati solo due canali. Se l'audio non contiene più canali, non includere questo parametro nella richiesta.

Se includiNumberOfChannels nella tua richiesta, devi includere ancheEnableChannelIdentification.

Intervallo valido: valore minimo pari a 2.

PartialResultsStability

Specifica il livello di stabilità da utilizzare quando si abilita la stabilizzazione parziale dei risultati (EnablePartialResultsStabilization).

La bassa stabilità offre la massima precisione. L'elevata stabilità trascrive più velocemente, ma con una precisione leggermente inferiore.

Per ulteriori informazioni, consulta Stabilizzazione parziale dei risultati.

Valori validi: high | medium | low

PiiEntityTypes

Specifica quali tipi di informazioni di identificazione personale (PII) desideri cancellare nella tua trascrizione. Puoi includere tutti i tipi che desideri oppure puoi selezionarliALL.

Per includerePiiEntityTypes nella tua richiesta, devi includere anche uno dei dueContentIdentificationTypeContentRedactionType.

I valori devono essere separati da virgole e possono includere:ADDRESSBANK_ACCOUNT_NUMBERBANK_ROUTING,CREDIT_DEBIT_CVV,CREDIT_DEBIT_EXPIRY,CREDIT_DEBIT_NUMBER,EMAIL,NAME,PHONE,PIN,SSN, oALL.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 300.

Pattern: ^[A-Z_, ]+

PreferredLanguage

Specifica una lingua preferita dal sottoinsieme di codici linguistici in cui hai specificatoLanguageOptions.

Puoi usare questo parametro solo se hai inclusoIdentifyLanguage eLanguageOptions nella tua richiesta.

Valori validi: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

SessionId

Specifica un nome per la tua sessione di trascrizione. Se non includi questo parametro nella tua richiesta, Amazon Transcribe genera un ID e lo restituisce nella risposta.

Limitazioni di lunghezza: lunghezza fissa pari 36.

Pattern: [a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}

ShowSpeakerLabel

Abilita il partizionamento degli altoparlanti (diarizzazione) nell'output di trascrizione. Il partizionamento degli altoparlanti etichetta il discorso dei singoli altoparlanti nel file multimediale.

Per ulteriori informazioni, consulta Partitioning speaker (diarizzazione).

VocabularyFilterMethod

Specifica come vuoi che il filtro del vocabolario venga applicato alla tua trascrizione.

Per sostituire le parole con***, sceglimask.

Per eliminare le parole, scegliremove.

Per contrassegnare le parole senza modificarle, sceglitag.

Valori validi: remove | mask | tag

VocabularyFilterName

Specifica il nome del filtro di vocabolario personalizzato che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei filtri del vocabolario fanno distinzione tra maiuscole e minuscole.

Se la lingua del filtro di vocabolario personalizzato specificato non corrisponde alla lingua identificata nei file multimediali, il filtro del vocabolario non viene applicato alla trascrizione.

Importante

Questo parametro non è destinato all'uso con ilIdentifyLanguage parametro. Se stai includendoIdentifyLanguage nella tua richiesta e desideri utilizzare uno o più filtri di vocabolario con la tua trascrizione, usa invece ilVocabularyFilterNames parametro.

Per ulteriori informazioni, vedi Uso del filtro del vocabolario con parole indesiderate.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.

Pattern: ^[0-9a-zA-Z._-]+

VocabularyFilterNames

Specifica i nomi dei filtri vocabolari personalizzati che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei filtri del vocabolario fanno distinzione tra maiuscole e minuscole.

Se nessuna delle lingue dei filtri di vocabolario personalizzati specificati corrisponde alla lingua identificata nei tuoi media, il tuo lavoro fallisce.

Importante

Questo parametro è destinato esclusivamente all'uso con ilIdentifyLanguage parametro. Se non lo includiIdentifyLanguage nella tua richiesta e desideri utilizzare un filtro di vocabolario personalizzato con la tua trascrizione, usa invece ilVocabularyFilterName parametro.

Per ulteriori informazioni, vedi Uso del filtro del vocabolario con parole indesiderate.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 3000.

Pattern: ^[a-zA-Z0-9,-._]+

VocabularyName

Specifica il nome del vocabolario personalizzato che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei vocabolari fanno distinzione tra maiuscole e minuscole.

Se la lingua del vocabolario personalizzato specificato non corrisponde alla lingua identificata nei tuoi media, il vocabolario personalizzato non viene applicato alla trascrizione.

Importante

Questo parametro non è destinato all'uso con ilIdentifyLanguage parametro. Se stai includendoIdentifyLanguage nella tua richiesta e desideri utilizzare uno o più vocabolari personalizzati con la tua trascrizione, usa invece ilVocabularyNames parametro.

Per ulteriori informazioni, consulta Vocabolari personalizzati.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.

Pattern: ^[0-9a-zA-Z._-]+

VocabularyNames

Specifica i nomi dei vocabolari personalizzati che desideri utilizzare durante l'elaborazione della trascrizione. Nota che i nomi dei vocabolari fanno distinzione tra maiuscole e minuscole.

Se nessuna delle lingue dei vocabolari personalizzati specificati corrisponde alla lingua identificata nei tuoi media, il tuo lavoro fallisce.

Importante

Questo parametro è destinato esclusivamente all'uso con ilIdentifyLanguage parametro. Se non lo includiIdentifyLanguage nella tua richiesta e desideri utilizzare un vocabolario personalizzato con la tua trascrizione, usa invece ilVocabularyName parametro.

Per ulteriori informazioni, consulta Vocabolari personalizzati.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 3000.

Pattern: ^[a-zA-Z0-9,-._]+

Corpo della richiesta

La richiesta accetta i seguenti dati in formato JSON.

AudioStream

Un flusso codificato di blob audio. I flussi audio sono codificati come HTTP/2 o frame di WebSocket dati.

Per ulteriori informazioni, consulta Trascrizione dell'audio in streaming.

Tipo: AudioStream oggetto

Campo obbligatorio: sì

Sintassi della risposta

HTTP/2 200 x-amzn-request-id: RequestId x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-vocabulary-name: VocabularyName x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification x-amzn-transcribe-number-of-channels: NumberOfChannels x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization x-amzn-transcribe-partial-results-stability: PartialResultsStability x-amzn-transcribe-content-identification-type: ContentIdentificationType x-amzn-transcribe-content-redaction-type: ContentRedactionType x-amzn-transcribe-pii-entity-types: PiiEntityTypes x-amzn-transcribe-language-model-name: LanguageModelName x-amzn-transcribe-identify-language: IdentifyLanguage x-amzn-transcribe-language-options: LanguageOptions x-amzn-transcribe-preferred-language: PreferredLanguage x-amzn-transcribe-vocabulary-names: VocabularyNames x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames Content-type: application/json { "TranscriptResultStream": { "BadRequestException": { }, "ConflictException": { }, "InternalFailureException": { }, "LimitExceededException": { }, "ServiceUnavailableException": { }, "TranscriptEvent": { "Transcript": { "Results": [ { "Alternatives": [ { "Entities": [ { "Category": "string", "Confidence": number, "Content": "string", "EndTime": number, "StartTime": number, "Type": "string" } ], "Items": [ { "Confidence": number, "Content": "string", "EndTime": number, "Speaker": "string", "Stable": boolean, "StartTime": number, "Type": "string", "VocabularyFilterMatch": boolean } ], "Transcript": "string" } ], "ChannelId": "string", "EndTime": number, "IsPartial": boolean, "LanguageCode": "string", "LanguageIdentification": [ { "LanguageCode": "string", "Score": number } ], "ResultId": "string", "StartTime": number } ] } } } }

Elementi di risposta

Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.

La risposta restituisce le seguenti intestazioni HTTP.

ContentIdentificationType

Mostra se l'identificazione dei contenuti è stata abilitata per la trascrizione.

Valori validi: PII

ContentRedactionType

Mostra se la redazione dei contenuti è stata abilitata per la trascrizione.

Valori validi: PII

EnableChannelIdentification

Indica se l'identificazione del canale è stata abilitata per la trascrizione.

EnablePartialResultsStabilization

Indica se la stabilizzazione parziale dei risultati è stata abilitata per la trascrizione.

IdentifyLanguage

Indica se l'identificazione automatica della lingua è stata abilitata per la trascrizione.

LanguageCode

Fornisce il codice della lingua specificato nella richiesta.

Valori validi: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

LanguageModelName

Fornisce il nome del modello linguistico personalizzato specificato nella richiesta.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.

Pattern: ^[0-9a-zA-Z._-]+

LanguageOptions

Fornisce i codici linguistici specificati nella richiesta.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.

Pattern: ^[a-zA-Z-,]+

MediaEncoding

Fornisce la codifica multimediale specificata nella richiesta.

Valori validi: pcm | ogg-opus | flac

MediaSampleRateHertz

Fornisce la frequenza di campionamento specificata nella richiesta.

Intervallo valido: valore minimo pari a 8000. Valmassimo massimo pari 48000.

NumberOfChannels

Fornisce il numero di canali che hai specificato nella tua richiesta.

Intervallo valido: valore minimo pari a 2.

PartialResultsStability

Fornisce il livello di stabilizzazione utilizzato per la trascrizione.

Valori validi: high | medium | low

PiiEntityTypes

Elenca i tipi di entità PII specificati nella richiesta.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 300.

Pattern: ^[A-Z_, ]+

PreferredLanguage

Fornisce la lingua preferita specificata nella richiesta.

Valori validi: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

RequestId

Fornisce l'identificatore per la tua richiesta di streaming.

SessionId

Fornisce l'identificatore per la sessione di trascrizione.

Limitazioni di lunghezza: lunghezza fissa pari 36.

Pattern: [a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}

ShowSpeakerLabel

Indica se il partizionamento degli altoparlanti è stato abilitato per la trascrizione.

VocabularyFilterMethod

Fornisce il metodo di filtraggio del vocabolario utilizzato nella trascrizione.

Valori validi: remove | mask | tag

VocabularyFilterName

Fornisce il nome del filtro di vocabolario personalizzato specificato nella richiesta.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.

Pattern: ^[0-9a-zA-Z._-]+

VocabularyFilterNames

Fornisce i nomi dei filtri di vocabolario personalizzati specificati nella richiesta.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 3000.

Pattern: ^[a-zA-Z0-9,-._]+

VocabularyName

Fornisce il nome del vocabolario personalizzato specificato nella richiesta.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 200.

Pattern: ^[0-9a-zA-Z._-]+

VocabularyNames

Fornisce i nomi dei vocabolari personalizzati specificati nella richiesta.

Limitazioni di lunghezza: lunghezza minima di 1. Lunghezza massima di 3000.

Pattern: ^[a-zA-Z0-9,-._]+

I dati seguenti vengono restituiti in formato JSON mediante il servizio.

TranscriptResultStream

Fornisce informazioni dettagliate sulla sessione di streaming.

Tipo: TranscriptResultStream oggetto

Errori

Per informazioni sugli errori comuni a tutte le operazioni, consultare Errori comuni.

BadRequestException

Uno o più argomenti dell'StartCallAnalyticsStreamTranscriptionoperazioneStartStreamTranscriptionStartMedicalStreamTranscription, or non erano validi. Ad esempio,MediaEncoding o haLanguageCode utilizzato valori non supportati. Controlla i parametri specificati e riprova la richiesta.

Codice di stato HTTP: 400

ConflictException

È iniziato un nuovo stream con lo stesso ID di sessione. Lo stream corrente è stato interrotto.

Codice di stato HTTP: 409

InternalFailureException

Si è verificato un problema durante l'elaborazione dell'audio. Amazon Transcribe ha terminato l'elaborazione.

Codice di stato HTTP: 500

LimitExceededException

Il tuo cliente ha superato uno dei limiti di Amazon Transcribe. Questo è in genere il limite di lunghezza dell'audio. Suddividi il flusso audio in blocchi più piccoli e riprova la richiesta.

Codice di stato HTTP: 429

ServiceUnavailableException

Il servizio non è attualmente disponibile. Prova la tua richiesta più tardi.

Codice di stato HTTP: 503

Vedi anche

Per ulteriori informazioni sull'utilizzo di questa API in uno degli SDK AWS specifici della lingua, consulta quanto segue: