Entrada e saída de dados - Amazon Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entrada e saída de dados

Amazon Transcribepega dados de áudio, como um arquivo de mídia em umAmazon S3 bucket ou fluxo de mídia, e os converte em dados de texto.

Se você estiver transcrevendo arquivos de mídia armazenados em umAmazon S3 bucket, estará realizando transcrições em lote. Se você estiver transcrevendo streams de mídia, você está realizando transcrições de streaming. Esses dois processos têm regras e requisitos diferentes.

Com as transcrições em lote, você pode usarFila de Job se não precisar processar todos os seus trabalhos de transcrição simultaneamente. IssoAmazon Transcribe permite acompanhar seus trabalhos de transcrição e processá-los quando houver vagas disponíveis.

nota

Amazon Transcribepode armazenar temporariamente seu conteúdo para melhorar continuamente a qualidade de seus modelos de análise. Consulte as Perguntas frequentes do Amazon Transcribe para saber mais. Para solicitar a exclusão de conteúdo que possa ter sido armazenado porAmazon Transcribe, abra um caso com AWS Support.

Formatos de mídia

Os tipos de mídia compatíveis diferem entre transcrições em lote e transcrições de streaming, embora formatos sem perdas sejam recomendados para ambas. Para detalhes, consulte a tabela a seguir:

Lote

Streaming

Formatos com suporte

  • BRAÇO

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • Codificação PCM

Formatos recomendados

  • FLAC

  • WAV com codificação PCM de 16 bits

  • FLAC

  • Áudio little-endian de 16 bits assinado pelo PCM (observe que isso não inclui WAV)

Para obter melhores resultados, use um formato sem perdas, como FLAC ou WAV com codificação PCM de 16 bits.

nota

As transcrições de streaming não são suportadas em todos os idiomas. Consulte a coluna “Entrada de dados” na tabela de idiomas suportados para obter detalhes.

Canais de áudio

Amazon Transcribesuporta mídia de canal único e canal duplo. Atualmente, não há suporte para mídia com mais de dois canais.

Se o áudio contiver vários alto-falantes em um canal e você quiser particionar e rotular cada alto-falante em sua saída de transcrição, você pode usar o particionamento de alto-falante (diarização).

Se o áudio contiver fala em dois canais separados, você pode usar a identificação do canal para transcrever cada canal separadamente em sua transcrição.

Ambas as opções produzem um arquivo de transcrição.

nota

Se você não habilitar o particionamento de alto-falantes ou a identificação de canais, o texto da transcrição será fornecido como uma seção contínua.

Taxas de amostragem

Com trabalhos de transcrição em lote, você pode optar por fornecer uma taxa de amostragem, embora esse parâmetro seja opcional. Se você incluí-lo em sua solicitação, certifique-se de que o valor fornecido corresponda à taxa de amostragem real em seu áudio. Se você fornecer uma taxa de amostragem que não corresponda ao seu áudio, seu trabalho poderá falhar.

Com transcrições de streaming, você deve incluir uma taxa de amostragem em sua solicitação. Assim como nas tarefas de transcrição em lote, certifique-se de que o valor fornecido corresponda à taxa de amostragem real em seu áudio.

As taxas de amostragem para áudio de baixa fidelidade, como gravações telefônicas, normalmente usam 8.000 Hz. Para áudio de alta fidelidade,Amazon Transcribe suporta valores entre 16.000 Hz e 48.000 Hz.

Resultado

A saída da transcrição é no formato JSON. A primeira parte da sua transcrição contém a própria transcrição em forma de parágrafo, seguida por dados adicionais para cada palavra e sinal de pontuação. Os dados fornecidos dependem dos recursos que você inclui em sua solicitação. No mínimo, sua transcrição contém a hora de início, a hora de término e a pontuação de confiança de cada palavra. A seção a seguir mostra um exemplo de saída de uma solicitação básica de transcrição que não incluiu nenhuma opção ou recurso adicional.

Todas as transcrições em lote são armazenadas emAmazon S3 baldes. Você pode optar por salvar sua transcrição em seu próprioAmazon S3 bucket ouAmazon Transcribe usar um bucket padrão seguro. Para saber mais sobre como criar e usarAmazon S3 buckets, consulte Como trabalhar com buckets.

Se você quiser que sua transcrição seja armazenada em umAmazon S3 bucket de sua propriedade, especifique o URI do bucket em sua solicitação de transcrição. Certifique-se de conceder permissões deAmazon Transcribe gravação para esse bucket antes de iniciar seu trabalho de transcrição em lote. Se você especificar seu próprio bucket, sua transcrição permanecerá nesse bucket até que você a remova.

Se você não especificar umAmazon S3 bucket,Amazon Transcribe usa um bucket seguro gerenciado por serviços e fornece um URI temporário que você pode usar para baixar sua transcrição. Observe que os URIs temporários são válidos por 15 minutos. Se você receber umAccessDenied erro ao usar o URI fornecido, faça umaGetTranscriptionJob solicitação para obter um novo URI temporário para sua transcrição.

Se você optar por um bucket padrão, sua transcrição será excluída quando seu trabalho expirar (90 dias). Se você quiser manter sua transcrição após essa data de validade, você deve baixá-la.

As transcrições de streaming são retornadas pelo mesmo método que você está usando para sua transmissão.

dica

Se você quiser converter sua saída JSON em uma turn-by-turn transcrição no formato Word, veja este GitHub exemplo (para Python3). Esse script funciona com transcrições de análise pós-chamada e transcrições de lote padrão com a diarização ativada.

Exemplo de saída

As transcrições fornecem uma transcrição completa em forma de parágrafo, seguida por um word-for-word detalhamento, que fornece dados para cada palavra e sinal de pontuação. Isso inclui a hora de início, a hora de término, uma pontuação de confiança e um tipo (pronunciationoupunctuation).

O exemplo a seguir é de um trabalho simples de transcrição em lote que não incluiu nenhum recurso adicional. Com cada recurso adicional que você aplica à sua solicitação de transcrição, você obtém dados adicionais no arquivo de saída da transcrição.

As transcrições básicas em lote contêm duas seções principais:

  1. transcripts: contém toda a transcrição em um bloco de texto.

  2. items: contém informações sobre cada palavra e sinal de pontuação datranscripts seção.

Cada recurso adicional que você inclui em sua solicitação de transcrição produz informações adicionais em sua transcrição.

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }, "status": "COMPLETED" }