StartStreamTranscription - Transcribe

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

StartStreamTranscription

Inicia una WebSocket transmisión o transmisión de HTTP/2 bidireccional donde el audio se transmite a Amazon Transcribe y los resultados de la transcripción se transmiten a la aplicación.

Se requieren los siguientes parámetros:

  • language-code o identify-language

  • media-encoding

  • sample-rate

Para obtener más información sobre la transmisión con Amazon Transcribe, consulte Transcribir audio en streaming.

Sintaxis de la solicitud

POST /stream-transcription HTTP/2 x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-vocabulary-name: VocabularyName x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification x-amzn-transcribe-number-of-channels: NumberOfChannels x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization x-amzn-transcribe-partial-results-stability: PartialResultsStability x-amzn-transcribe-content-identification-type: ContentIdentificationType x-amzn-transcribe-content-redaction-type: ContentRedactionType x-amzn-transcribe-pii-entity-types: PiiEntityTypes x-amzn-transcribe-language-model-name: LanguageModelName x-amzn-transcribe-identify-language: IdentifyLanguage x-amzn-transcribe-language-options: LanguageOptions x-amzn-transcribe-preferred-language: PreferredLanguage x-amzn-transcribe-vocabulary-names: VocabularyNames x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames Content-type: application/json { "AudioStream": { "AudioEvent": { "AudioChunk": blob } } }

Parámetros de solicitud del URI

La solicitud utiliza los siguientes parámetros URI.

ContentIdentificationType

Otorga toda la información de identificación personal (PII) identificada en la transcripción.

La identificación del contenido se realiza a nivel de segmento; la PII especificada enPiiEntityTypes se marca cuando se completa la transcripción de un segmento de audio.

No puedes configurarContentIdentificationType yContentRedactionType en la misma solicitud. Si configuras ambos, tu solicitud devuelve unBadRequestException.

Para obtener más información, consulte Redactar o identificar información de identificación personal.

Valores válidos: PII

ContentRedactionType

Redacta toda la información de identificación personal (PII) identificada en la transcripción.

La redacción del contenido se realiza a nivel de segmento; la PII especificada enPiiEntityTypes se redacta tras la transcripción completa de un segmento de audio.

No puedes configurarContentRedactionType yContentIdentificationType en la misma solicitud. Si configuras ambos, tu solicitud devuelve unBadRequestException.

Para obtener más información, consulte Redactar o identificar información de identificación personal.

Valores válidos: PII

EnableChannelIdentification

Permite la identificación de canales en audio multicanal.

La identificación de canales transcribe el audio de cada canal de forma independiente y, a continuación, añade la salida de cada canal a una transcripción.

Si tiene audio multicanal y no habilita la identificación de canales, el audio se transcribe de forma continua y la transcripción no está separada por canal.

Si incluyeEnableChannelIdentification en la solicitud, también debe incluirNumberOfChannels.

Para obtener más información, consulte Transcribir audio multicanal.

EnablePartialResultsStabilization

Permite la estabilización parcial de los resultados de la transcripción. La estabilización parcial de los resultados puede reducir la latencia de la salida, pero puede afectar a la precisión. Para obtener más información, consulte Estabilización de resultados parciales.

IdentifyLanguage

Permite la identificación automática del idioma de la transcripción.

Si lo incluyeIdentifyLanguage, puede incluir opcionalmente una lista de códigos de idiomaLanguageOptions, utilizando los que crea que pueden estar presentes en su transmisión de audio. Incluir opciones de idioma puede mejorar la precisión de la transcripción.

También puede incluir un idioma preferido dondePreferredLanguage. Agregar un idioma preferido puede ayudar a Amazon Transcribe a identificar el idioma más rápido que si omites este parámetro.

Si tienes audio multicanal que contiene diferentes idiomas en cada canal y has activado la identificación de canales, la identificación automática de idiomas identifica el idioma dominante en cada canal de audio.

Tenga en cuenta que debe incluir unaLanguageCode o unaIdentifyLanguage en su solicitud. Si incluye ambos parámetros, se producirá un error en la solicitud.

La identificación del idioma en streaming no se puede combinar con modelos de idioma o redacción personalizados.

LanguageCode

Especifique el código de idioma que representa el idioma que se habla en el audio.

Si no estás seguro del idioma que se habla en el audio, considera la posibilidad deIdentifyLanguage habilitar la identificación automática del idioma.

Para obtener una lista de los idiomas compatibles con la transmisión de Amazon Transcribe, consulte la tabla de idiomas compatibles.

Valores válidos: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

LanguageModelName

Especifique el nombre del modelo de idioma personalizado que desea utilizar al procesar la transcripción. Tenga en cuenta que los nombres de modelos de idioma distinguen entre mayúsculas y minúsculas.

El idioma del modelo de idioma especificado debe coincidir con el código de idioma que especifique en la solicitud de transcripción. Si los idiomas no coinciden, no se aplica el modelo de idioma personalizado. No hay errores ni advertencias asociados a la falta de coincidencia de idiomas.

Para obtener más información, consulte Modelos de idioma personalizados.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 200 caracteres.

Patrón: ^[0-9a-zA-Z._-]+

LanguageOptions

Especifique dos o más códigos de idioma que representen los idiomas que cree que pueden estar presentes en su contenido multimedia; no se recomienda incluir más de cinco. Si no está seguro de qué idiomas están presentes, no incluya este parámetro.

Incluir opciones de idioma puede mejorar la precisión de la identificación del idioma.

Si incluyeLanguageOptions en la solicitud, también debe incluirIdentifyLanguage.

Para obtener una lista de los idiomas compatibles con la transmisión de Amazon Transcribe, consulte la tabla de idiomas compatibles.

importante

Solo se puede incluir un dialecto de idioma por idioma por transmisión. Por ejemplo, no puede incluiren-US yen-AU en la misma solicitud.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 200 caracteres.

Patrón: ^[a-zA-Z-,]+

MediaEncoding

Especifique la codificación del audio de entrada. Los formatos admitidos son:

  • FLAC

  • Audio codificado en OPUS en un contenedor Ogg

  • PCM (solo formatos de audio little-endian firmados de 16 bits, que no incluyen WAV)

Para obtener más información, consulte Formatos de medios.

Valores válidos: pcm | ogg-opus | flac

Obligatorio: sí

MediaSampleRateHertz

La frecuencia de muestreo del audio de entrada (en hercios). El audio de baja calidad, como el audio del teléfono, suele rondar los 8.000 Hz. El audio de alta calidad suele oscilar entre 16.000 Hz y 48.000 Hz. Tenga en cuenta que la frecuencia de muestreo que especifique debe coincidir con la del audio.

Rango válido: valor mínimo de 8000. Valor máximo de 48000.

Obligatorio: sí

NumberOfChannels

Especifique el número de canales de la transmisión de audio. Este valor debe serlo2, ya que solo se admiten dos canales. Si el audio no contiene varios canales, no incluyas este parámetro en la solicitud.

Si incluyeNumberOfChannels en la solicitud, también debe incluirEnableChannelIdentification.

Rango válido: valor mínimo de 2.

PartialResultsStability

Especifique el nivel de estabilidad que se utilizará al habilitar la estabilización de resultados parciales (EnablePartialResultsStabilization).

La baja estabilidad proporciona la máxima precisión. La alta estabilidad transcribe más rápido, pero con una precisión ligeramente inferior.

Para obtener más información, consulte Estabilización de resultados parciales.

Valores válidos: high | medium | low

PiiEntityTypes

Especifique qué tipos de información de identificación personal (PII) desea redactar en su expediente académico. Puede incluir tantos tipos como desee o puede seleccionarALL.

Para incluirPiiEntityTypes en su solicitud, también debe incluir unoContentIdentificationType oContentRedactionType.

Los valores deben estar separados por comas y pueden incluir:ADDRESSBANK_ACCOUNT_NUMBERBANK_ROUTING,CREDIT_DEBIT_CVV,CREDIT_DEBIT_EXPIRY,CREDIT_DEBIT_NUMBER,EMAILNAME,PHONE,PIN,SSN, oALL.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 300 caracteres.

Patrón: ^[A-Z_, ]+

PreferredLanguage

Especifique un idioma preferido del subconjunto de códigos de idiomas en los que especificóLanguageOptions.

Solo puedes usar este parámetro si has incluidoIdentifyLanguage yLanguageOptions en tu solicitud.

Valores válidos: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

SessionId

Especifique un nombre para la sesión de transcripción. Si no incluye este parámetro en la solicitud, Amazon Transcribe genera un ID y lo devuelve en la respuesta.

Limitaciones de longitud: longitud fija de 36.

Patrón: [a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}

ShowSpeakerLabel

Permite la división de altavoces (diarización) en la salida de transcripción. La partición de altavoces etiqueta la voz de los altavoces individuales del archivo multimedia.

Para obtener más información, consulte Partitioning speakers (diarización).

VocabularyFilterMethod

Especifica cómo quieres que se aplique el filtro de vocabulario a tu expediente académico.

Para reemplazar palabras por***, elijamask.

Para eliminar palabras, elijaremove.

Para marcar palabras sin cambiarlas, eligetag.

Valores válidos: remove | mask | tag

VocabularyFilterName

Especifique el nombre del filtro de vocabulario personalizado que desea utilizar al procesar la transcripción. Tenga en cuenta que los nombres de filtro de vocabulario distinguen entre mayúsculas y minúsculas.

Si el idioma del filtro de vocabulario personalizado especificado no coincide con el idioma identificado en el contenido multimedia, el filtro de vocabulario no se aplica a la transcripción.

importante

Este parámetro no está diseñado para usarse con elIdentifyLanguage parámetro. Si incluyesIdentifyLanguage en tu solicitud y quieres usar uno o más filtros de vocabulario con tu transcripción, usa elVocabularyFilterNames parámetro en su lugar.

Para obtener más información, consulte Uso del filtrado de vocabulario con palabras no deseadas.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 200 caracteres.

Patrón: ^[0-9a-zA-Z._-]+

VocabularyFilterNames

Especifique los nombres de los filtros de vocabulario personalizados que desea utilizar al procesar la transcripción. Tenga en cuenta que los nombres de filtro de vocabulario distinguen entre mayúsculas y minúsculas.

Si ninguno de los idiomas de los filtros de vocabulario personalizados especificados coincide con el idioma identificado en el contenido multimedia, el trabajo no tendrá éxito.

importante

Este parámetro solo está diseñado para usarse con elIdentifyLanguage parámetro. Si no lo incluyesIdentifyLanguage en tu solicitud y quieres usar un filtro de vocabulario personalizado con tu transcripción, usa elVocabularyFilterName parámetro en su lugar.

Para obtener más información, consulte Uso del filtrado de vocabulario con palabras no deseadas.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 3000.

Patrón: ^[a-zA-Z0-9,-._]+

VocabularyName

Especifique el nombre del vocabulario personalizado que desea utilizar al procesar la transcripción. Tenga en cuenta que los nombres de vocabulario distinguen entre mayúsculas y minúsculas.

Si el idioma del vocabulario personalizado especificado no coincide con el idioma identificado en el contenido multimedia, el vocabulario personalizado no se aplica a la transcripción.

importante

Este parámetro no está diseñado para usarse con elIdentifyLanguage parámetro. Si incluyesIdentifyLanguage en tu solicitud y quieres usar uno o más vocabularios personalizados con tu transcripción, usa elVocabularyNames parámetro en su lugar.

Para obtener más información, consulte Vocabularios personalizados.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 200 caracteres.

Patrón: ^[0-9a-zA-Z._-]+

VocabularyNames

Especifique los nombres de los vocabularios personalizados que desea utilizar al procesar la transcripción. Tenga en cuenta que los nombres de vocabulario distinguen entre mayúsculas y minúsculas.

Si ninguno de los idiomas de los vocabularios personalizados especificados coincide con el idioma identificado en el contenido multimedia, el trabajo falla.

importante

Este parámetro solo está diseñado para usarse con elIdentifyLanguage parámetro. Si no lo incluyesIdentifyLanguage en tu solicitud y quieres usar un vocabulario personalizado con tu transcripción, usa elVocabularyName parámetro en su lugar.

Para obtener más información, consulte Vocabularios personalizados.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 3000.

Patrón: ^[a-zA-Z0-9,-._]+

Cuerpo de la solicitud

La solicitud acepta los siguientes datos en formato JSON.

AudioStream

Un flujo codificado de manchas de audio. Las transmisiones de audio se codifican como HTTP/2 o como tramas WebSocket de datos.

Para obtener más información, consulte Transcribir audio en streaming.

Tipo: objeto AudioStream

Obligatorio: sí

Sintaxis de la respuesta

HTTP/2 200 x-amzn-request-id: RequestId x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-vocabulary-name: VocabularyName x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification x-amzn-transcribe-number-of-channels: NumberOfChannels x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization x-amzn-transcribe-partial-results-stability: PartialResultsStability x-amzn-transcribe-content-identification-type: ContentIdentificationType x-amzn-transcribe-content-redaction-type: ContentRedactionType x-amzn-transcribe-pii-entity-types: PiiEntityTypes x-amzn-transcribe-language-model-name: LanguageModelName x-amzn-transcribe-identify-language: IdentifyLanguage x-amzn-transcribe-language-options: LanguageOptions x-amzn-transcribe-preferred-language: PreferredLanguage x-amzn-transcribe-vocabulary-names: VocabularyNames x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames Content-type: application/json { "TranscriptResultStream": { "BadRequestException": { }, "ConflictException": { }, "InternalFailureException": { }, "LimitExceededException": { }, "ServiceUnavailableException": { }, "TranscriptEvent": { "Transcript": { "Results": [ { "Alternatives": [ { "Entities": [ { "Category": "string", "Confidence": number, "Content": "string", "EndTime": number, "StartTime": number, "Type": "string" } ], "Items": [ { "Confidence": number, "Content": "string", "EndTime": number, "Speaker": "string", "Stable": boolean, "StartTime": number, "Type": "string", "VocabularyFilterMatch": boolean } ], "Transcript": "string" } ], "ChannelId": "string", "EndTime": number, "IsPartial": boolean, "LanguageCode": "string", "LanguageIdentification": [ { "LanguageCode": "string", "Score": number } ], "ResultId": "string", "StartTime": number } ] } } } }

Elementos de respuesta

Si la acción se realiza correctamente, el servicio devuelve una respuesta HTTP 200.

La respuesta devuelve los siguientes encabezados HTTP.

ContentIdentificationType

Muestra si la identificación de contenido estaba habilitada para la transcripción.

Valores válidos: PII

ContentRedactionType

Muestra si la redacción de contenido estaba habilitada para la transcripción.

Valores válidos: PII

EnableChannelIdentification

Muestra si la identificación de canales estaba habilitada para la transcripción.

EnablePartialResultsStabilization

Muestra si la estabilización de resultados parciales estaba habilitada para la transcripción.

IdentifyLanguage

Muestra si la identificación automática del idioma estaba habilitada para la transcripción.

LanguageCode

Proporciona el código de idioma que especificó en la solicitud.

Valores válidos: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

LanguageModelName

Proporciona el nombre del modelo de idioma personalizado que especificó en la solicitud.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 200 caracteres.

Patrón: ^[0-9a-zA-Z._-]+

LanguageOptions

Proporciona los códigos de idioma que especificó en la solicitud.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 200 caracteres.

Patrón: ^[a-zA-Z-,]+

MediaEncoding

Proporciona la codificación multimedia que especificó en la solicitud.

Valores válidos: pcm | ogg-opus | flac

MediaSampleRateHertz

Proporciona la frecuencia de muestreo que especificó en la solicitud.

Rango válido: valor mínimo de 8000. Valor máximo de 48000.

NumberOfChannels

Proporciona el número de canales que especificó en la solicitud.

Rango válido: valor mínimo de 2.

PartialResultsStability

Proporciona el nivel de estabilización utilizado para la transcripción.

Valores válidos: high | medium | low

PiiEntityTypes

Enumera los tipos de entidades de información de identificación personal que especificó en su solicitud.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 300 caracteres.

Patrón: ^[A-Z_, ]+

PreferredLanguage

Proporciona el idioma preferido que especificó en la solicitud.

Valores válidos: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

RequestId

Proporciona el identificador de tu solicitud de streaming.

SessionId

Proporciona el identificador de la sesión de transcripción.

Limitaciones de longitud: longitud fija de 36.

Patrón: [a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}

ShowSpeakerLabel

Muestra si la partición de altavoces estaba habilitada para la transcripción.

VocabularyFilterMethod

Proporciona el método de filtrado de vocabulario utilizado en la transcripción.

Valores válidos: remove | mask | tag

VocabularyFilterName

Proporciona el nombre del filtro de vocabulario personalizado que especificó en la solicitud.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 200 caracteres.

Patrón: ^[0-9a-zA-Z._-]+

VocabularyFilterNames

Proporciona los nombres de los filtros de vocabulario personalizados que especificó en la solicitud.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 3000.

Patrón: ^[a-zA-Z0-9,-._]+

VocabularyName

Proporciona el nombre del vocabulario personalizado que especificó en la solicitud.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 200 caracteres.

Patrón: ^[0-9a-zA-Z._-]+

VocabularyNames

Proporciona los nombres de los vocabularios personalizados que especificó en la solicitud.

Limitaciones de longitud: longitud mínima de 1. La longitud máxima es de 3000.

Patrón: ^[a-zA-Z0-9,-._]+

El servicio devuelve los datos siguientes en formato JSON.

TranscriptResultStream

Proporciona información detallada sobre la sesión de streaming.

Tipo: objeto TranscriptResultStream

Errores

Para obtener información sobre los errores comunes a todas las acciones, consulteErrores comunes.

BadRequestException

Uno o más argumentos de laStartCallAnalyticsStreamTranscription operaciónStartStreamTranscriptionStartMedicalStreamTranscription, o no eran válidos. Por ejemplo,MediaEncoding oLanguageCode usó valores no admitidos. Compruebe los parámetros especificados y vuelva a intentar realizar la solicitud.

Código de estado HTTP: 400

ConflictException

Se inició una nueva transmisión con el mismo ID de sesión. La transmisión actual ha finalizado.

Código de estado HTTP: 409

InternalFailureException

Se ha producido un problema al procesar el audio. Amazon Transcribe ha finalizado el procesamiento.

Código de estado HTTP: 500

LimitExceededException

Su cliente ha superado uno de los límites de Amazon Transcribe. Este suele ser el límite de longitud del audio. Divida la transmisión de audio en fragmentos más pequeños y vuelva a intentar realizar la solicitud.

Código de estado HTTP: 429

ServiceUnavailableException

El servicio no está disponible en este momento. Prueba tu solicitud más tarde.

Código de estado HTTP: 503

Véase también

Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: