Formatos multimedia Canales de audio Frecuencia de muestreo Output

Entrada y salida de datos

Amazon Transcribe toma datos de audio, como un archivo multimedia en un Amazon S3 depósito o una transmisión multimedia, y los convierte en datos de texto.

Si está transcribiendo archivos multimedia almacenados en un Amazon S3 depósito, está realizando transcripciones por lotes. Si está transcribiendo una secuencia de audio en tiempo real, está realizando una transcripción en streaming. Estos dos procesos tienen reglas y requisitos diferentes.

En las transcripciones por lotes, si no necesita procesar todos sus trabajos de transcripción de forma simultánea, use Cola de trabajos. Esto le permite Amazon Transcribe realizar un seguimiento de sus trabajos de transcripción y procesarlos cuando haya espacios disponibles.

nota

Amazon Transcribe puede almacenar temporalmente su contenido para mejorar continuamente la calidad de sus modelos de análisis. Consulte las preguntas frecuentes de Amazon Transcribe para obtener más información. Para solicitar la eliminación de contenido que pueda haber sido almacenado por Amazon Transcribe, abra una caja con Soporte.

Formatos multimedia

Los tipos de formatos multimedia compatibles difieren entre las transcripciones por lotes y las transcripciones en streaming, aunque se recomiendan los formatos sin pérdidas para ambas. Para obtener más información, consulte la tabla siguiente:

	Lote	Transmisión
Formatos admitidos	AMR FLAC M4A MP3 MP4 Ogg WebM WAV	FLAC Ogg Opus Codificación PCM
Formatos recomendados	FLAC WAV con codificación PCM de 16 bits	FLAC Audio PCM little-endian de 16 bits firmados de (tenga en cuenta que esto no incluye WAV)

Para obtener resultados óptimos, utilice un formato de audio sin pérdida como FLAC o WAV con codificación PCM de 16 bits.

nota

Las transcripciones en streaming no son compatibles con todos los idiomas. Consulte la columna “Entrada de datos” de la tabla de idiomas admitidos para obtener más información.

Canales de audio

Amazon Transcribe admite contenido multimedia de un solo canal y de dos canales. Actualmente, no se admiten archivos multimedia con más de dos canales.

Si el audio contiene varias voces en un canal y desea particionar y etiquetar cada voz en el resultado de la transcripción, puede utilizar la partición de voces (diarización).

Si el audio contiene voz en dos canales distintos, puede utilizar la identificación de canales para transcribir cada canal por separado dentro de la transcripción.

Ambas opciones producen un archivo de transcripción.

nota

Si no habilita la partición de voces o la identificación de canales, el texto de la transcripción aparecerá como una sección continua.

Frecuencia de muestreo

Con los trabajos de transcripción por lotes, puede elegir obtener frecuencias de muestreo, aunque este parámetro es opcional. Si lo incluye en su solicitud, asegúrese de que el valor que proporciona coincide con la frecuencia de muestreo real del audio. Si proporciona una frecuencia de muestreo que no coincida con su audio, es posible que no funcione.

En el caso de las transcripciones en streaming, debe incluir una frecuencia de muestreo en su solicitud. Al igual que con los trabajos de transcripción por lotes, asegúrese de que el valor que proporcione coincida con la frecuencia de muestreo real del audio.

Las frecuencias de muestreo para audio de baja fidelidad, como las grabaciones telefónicas, suelen utilizar 8000 Hz. Para audio de alta fidelidad, Amazon Transcribe admite valores entre 16 000 Hz y 48 000 Hz.

Output

El resultado de la transcripción está en formato JSON. La primera parte de la transcripción contiene la propia transcripción en forma de párrafo, seguida de datos adicionales para cada palabra y signo de puntuación. Los datos proporcionados dependen de las características que incluya en su solicitud. Como mínimo, la transcripción contiene la hora de inicio, la hora de finalización y la puntuación de confianza de cada palabra. En la siguiente sección, se muestra un ejemplo del resultado de una solicitud de transcripción básica que no incluía opciones ni características adicionales.

Todas las transcripciones por lotes se almacenan en cubos. Amazon S3 Puede optar por guardar la transcripción en su propio Amazon S3 depósito o Amazon Transcribe utilizar un depósito seguro predeterminado. Para obtener más información sobre la creación y el uso de buckets de Amazon S3 , consulte Cómo trabajar con buckets.

Si quieres que tu transcripción se almacene en un Amazon S3 depósito de tu propiedad, especifica el URI del depósito en tu solicitud de transcripción. Asegúrese de conceder permisos de Amazon Transcribe escritura para este depósito antes de iniciar el trabajo de transcripción por lotes. Si especifica su propio bucket, la transcripción permanecerá en ese bucket hasta que la elimine.

Si no especificas un Amazon S3 depósito, Amazon Transcribe utiliza un depósito seguro gestionado por el servicio y te proporciona un URI temporal que puedes utilizar para descargar la transcripción. Ten en cuenta que URIs las temporales son válidas durante 15 minutos. Si recibe un error AccessDenied al usar el URI proporcionado, GetTranscriptionJob solicita un nuevo URI temporal para su transcripción.

Si opta por un bucket predeterminado, la transcripción se eliminará cuando su trabajo caduque (90 días). Si desea conservar su transcripción después de esta fecha de caducidad, debe descargarla.

Las transcripciones de streaming se devuelven mediante el mismo método que utilice para la secuencia.

sugerencia

Si quieres convertir tu salida JSON en una turn-by-turn transcripción en formato Word, consulta este GitHub ejemplo (para Python3). Este script funciona con transcripciones analíticas posteriores a la llamada y transcripciones por lotes estándar con la diarización habilitada.

Ejemplo de resultado

Las transcripciones proporcionan una transcripción completa en forma de párrafo, seguida de un word-for-word desglose, que proporciona datos para cada palabra y signo de puntuación. Esto incluye la hora de inicio, la hora de finalización y un tipo (pronunciation o punctuation).

El siguiente ejemplo es de un trabajo de transcripción por lotes básica que no incluía características adicionales. Con cada característica adicional que aplique a su solicitud de transcripción, obtendrá datos adicionales en el archivo de resultados de la transcripción.

Las transcripciones de los lotes básicos contienen dos secciones principales:

transcripts: contiene la transcripción completa en un bloque de texto.
items: contiene información sobre cada palabra y signo de puntuación de la sección transcripts.
audio_segments: Un segmento de audio es una parte específica de una grabación de audio que contiene un lenguaje hablado ininterrumpido, con pausas o pausas mínimas. Este segmento captura el flujo natural de la voz y se captura audio_segments con una hora de inicio y una hora de finalización. El items elemento de un segmento de audio es una secuencia de identificadores que corresponden a cada elemento del segmento.

Cada característica adicional que incluya en su solicitud de transcripción generará información adicional en la transcripción.


{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Funcionamiento

Transcripción de números