Uso de marcas de fala - Amazon Polly

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Uso de marcas de fala

Solicitação de marcas de fala

Para solicitar marcas de fala para o texto para entrada, use o comando synthesize-speech. Além do texto de entrada, os seguintes elementos são necessários para retornar esses metadados:

  • output-format

    O Amazon Polly é compatível apenas com o formato JSON ao retornar marcas de fala.

    --output-format json

    Se você usar um formato de saída não compatível, o Amazon Polly lançará uma exceção.

  • voice-id

    Para garantir que os metadados correspondam ao fluxo de áudio associado, especifique a mesma voz usada para gerar o fluxo de áudio de fala sintetizado. As vozes disponíveis não têm velocidades de fala idênticas. Se você usar uma voz diferente daquela usado para gerar a fala, os metadados não corresponderão ao fluxo de áudio.

    --voice-id Joanna
  • speech-mark-types

    Especifique os tipos de marcas de fala desejados. Você pode solicitar qualquer um ou todos os tipos de marca de fala, mas deve especificar pelo menos um tipo.

    --speech-mark-types='["sentence", "word", "viseme", "ssml"]'
  • text-type

    Texto sem formatação é o padrão para texto de entrada no Amazon Polly. Você deve usar text-type ssml se quiser retornar marcas de fala em SSML.

  • outfile

    Especifique o arquivo de saída ao qual os metadados são gravados.

    MaryLamb.txt

 

O exemplo da AWS CLI a seguir está formatado para Unix, Linux e macOS. Para Windows, substitua o caractere de continuação Unix de barra invertida (\) no final de cada linha por um acento circunflexo (^) e use aspas completas (") ao redor do texto de entrada com aspas simples (') para etiquetas internas.

aws polly synthesize-speech \ --output-format json \ --voice-id Voice ID \ --text 'Input text' \ --speech-mark-types='["sentence", "word", "viseme"]' \ outfile

Saída de marca de fala

O Amazon Polly retorna objetos de marca de fala em um fluxo JSON delimitado por linha. Um objeto de marca de fala contém os seguintes campos:

  • time – a data e a hora em milissegundos desde o início do fluxo de áudio correspondente

  • Tipo: tipo de marca de fala (sentença, palavra, visema ou ssml).

  • Início: deslocamento em bytes do início do objeto no texto de entrada (não inclui marcas visema)

  • Término: deslocamento em bytes (não caracteres) do fim do objeto no texto de entrada (não inclui marcas viseme)

  • value – isso varia de acordo com o tipo de marca de fala

    • SSML: tag <mark> de SSML

    • viseme: o nome do visema

    • word ou sentence: uma substring do texto de entrada, conforme delimitado pelos campos de início e fim

Por exemplo, o Amazon Polly gera o seguinte objeto de marca da fala word do texto "Maria tinha um carneirinho":

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

A palavra descrita ("had") começa 373 milissegundos após o fluxo de áudio começar, e começa no byte 5 e termina no byte 8 do texto de entrada.

nota

Esses metadados são para a voice-id Joanna. Se você usar outra voz com o mesmo texto de entrada, os metadados do texto podem ser diferente.