Entrada y salida de datos - Amazon Transcribe

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Entrada y salida de datos

Amazon Transcribetoma datos de audio, como un archivo multimedia en unAmazon S3 bucket o una transmisión multimedia, y los convierte en datos de texto.

Si transcribes archivos multimedia almacenados en unAmazon S3 bucket, realizas transcripciones por lotes. Si transcribes transmisiones multimedia, estás realizando transcripciones en streaming. Estos dos procesos tienen reglas y requisitos diferentes.

Con las transcripciones por lotes, puede utilizarlasColocación de Job en cola si no necesita procesar todos sus trabajos de transcripción simultáneamente. Esto permiteAmazon Transcribe realizar un seguimiento de sus trabajos de transcripción y procesarlos cuando haya espacios disponibles.

nota

Amazon Transcribepuede almacenar temporalmente su contenido para mejorar continuamente la calidad de sus modelos de análisis. Consulte las preguntas frecuentes de Amazon Transcribe para obtener más información. Para solicitar la eliminación del contenido que pueda haber sido almacenado porAmazon Transcribe, abra un caso con AWS Support.

Formatos multimedia

Los tipos de medios admitidos varían entre las transcripciones por lotes y las transcripciones en streaming, aunque se recomiendan formatos sin pérdidas para ambas. Consulte la siguiente tabla para obtener más detalles:

Por lotes

Streaming

Formatos admitidos

  • BRAZO

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • Codificar PCM

Formatos recomendados

  • FLAC

  • WAV con codificación PCM de 16 bits

  • FLAC

  • Audio Little-Endian de 16 bits firmado por PCM (tenga en cuenta que esto no incluye WAV)

Para obtener mejores resultados, utilice un formato sin pérdidas, como FLAC o WAV con codificación PCM de 16 bits.

nota

Las transcripciones en streaming no se admiten en todos los idiomas. Consulte la columna «Entrada de datos» de la tabla de idiomas admitidos para obtener más información.

Canales de audio

Amazon Transcribeadmite medios de un solo canal y de dos canales. Actualmente no se admiten archivos multimedia con más de dos canales.

Si el audio contiene varios altavoces en un canal y desea particionar y etiquetar cada altavoz en la salida de la transcripción, puede utilizar la partición de altavoces (diarización).

Si el audio contiene voz en dos canales distintos, puede utilizar la identificación de canales para transcribir cada canal por separado dentro de la transcripción.

Ambas opciones producen un archivo de transcripción.

nota

Si no habilitas la partición de altavoces o la identificación de canales, el texto de la transcripción se proporciona como una sección continua.

Frecuencias de muestreo

Con los trabajos de transcripción por lotes, puede optar por proporcionar una frecuencia de muestreo, aunque este parámetro es opcional. Si lo incluyes en tu solicitud, asegúrate de que el valor que proporciones coincida con la frecuencia de muestreo real del audio. Si proporcionas una frecuencia de muestreo que no coincide con tu audio, es posible que tu trabajo no funcione.

En el caso de las transcripciones en streaming, debes incluir una frecuencia de muestreo en tu solicitud. Al igual que con los trabajos de transcripción por lotes, asegúrate de que el valor que proporciones coincida con la frecuencia de muestreo real del audio.

Las frecuencias de muestreo para el audio de baja fidelidad, como las grabaciones telefónicas, suelen utilizar 8.000 Hz. Para audio de alta fidelidad,Amazon Transcribe admite valores entre 16 000 Hz y 48 000 Hz.

Output

El resultado de la transcripción está en formato JSON. La primera parte de la transcripción contiene la transcripción propiamente dicha en forma de párrafo, seguida de datos adicionales para cada palabra y signo de puntuación. Los datos proporcionados dependen de las características que incluya en su solicitud. Como mínimo, la transcripción contiene la hora de inicio, la hora de finalización y la puntuación de confianza de cada palabra. En la siguiente sección se muestran ejemplos de resultados de una solicitud de transcripción básica que no incluía opciones ni funciones adicionales.

Todas las transcripciones de lotes se almacenan enAmazon S3 cubos. Puede elegir guardar su expediente académico en su propioAmazon S3 depósito oAmazon Transcribe utilizar un depósito predeterminado seguro. Para obtener más información sobre la creación yAmazon S3 el uso de depósitos, consulte Trabajar con depósitos.

Si quieres que tu transcripción se almacene en unAmazon S3 depósito de tu propiedad, especifica el URI del depósito en tu solicitud de transcripción. Asegúrese de conceder permisos deAmazon Transcribe escritura para este depósito antes de iniciar el trabajo de transcripción por lotes. Si especificas tu propio depósito, tu transcripción permanecerá en ese depósito hasta que lo elimines.

Si no especificas unAmazon S3 bucket,Amazon Transcribe usa un bucket seguro administrado por un servicio y te proporciona un URI temporal que puedes usar para descargar tu transcripción. Tenga en cuenta que las URI temporales son válidas durante 15 minutos. SiAccessDenied aparece un error al usar el URI proporcionado,GetTranscriptionJob solicite obtener un nuevo URI temporal para su transcripción.

Si optas por un depósito predeterminado, tu expediente académico se eliminará cuando caduque tu trabajo (90 días). Si desea conservar su expediente académico después de esta fecha de caducidad, debe descargarlo.

Las transcripciones de la transmisión se devuelven mediante el mismo método que utilizas para la transmisión.

sugerencia

Si quieres convertir tu salida JSON en una turn-by-turn transcripción en formato Word, consulta este GitHub ejemplo (para Python3). Este script funciona con transcripciones analíticas posteriores a la llamada y transcripciones por lotes estándar con la diarización habilitada.

Ejemplo de salida

Las transcripciones proporcionan una transcripción completa en forma de párrafo, seguida de un word-for-word desglose, que proporciona datos para cada palabra y signo de puntuación. Esto incluye la hora de inicio, la hora de finalización, una puntuación de confianza y un tipo (pronunciationopunctuation).

El siguiente ejemplo es de un sencillo trabajo de transcripción por lotes que no incluía ninguna función adicional. Con cada función adicional que aplique a su solicitud de transcripción, obtendrá datos adicionales en el archivo de salida de la transcripción.

Las transcripciones básicas por lotes contienen dos secciones principales:

  1. transcripts: contiene la transcripción completa en un bloque de texto.

  2. items: contiene información sobre cada palabra y signo de puntuación de latranscripts sección.

Cada función adicional que incluya en su solicitud de transcripción genera información adicional en su transcripción.

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }, "status": "COMPLETED" }