As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Uso de marcas de fala
Solicitação de marcas de fala
Para solicitar marcas de fala para o texto para entrada, use o comando synthesize-speech
. Além do texto de entrada, os seguintes elementos são necessários para retornar esses metadados:
-
output-format
O Amazon Polly é compatível apenas com o formato JSON ao retornar marcas de fala.
--output-format json
Se você usar um formato de saída não compatível, o Amazon Polly lançará uma exceção.
-
voice-id
Para garantir que os metadados correspondam ao fluxo de áudio associado, especifique a mesma voz usada para gerar o fluxo de áudio de fala sintetizado. As vozes disponíveis não têm velocidades de fala idênticas. Se você usar uma voz diferente daquela usado para gerar a fala, os metadados não corresponderão ao fluxo de áudio.
--voice-id Joanna
-
speech-mark-types
Especifique os tipos de marcas de fala desejados. Você pode solicitar qualquer um ou todos os tipos de marca de fala, mas deve especificar pelo menos um tipo.
--speech-mark-types='["sentence", "word", "viseme", "ssml"]'
-
text-type
Texto sem formatação é o padrão para texto de entrada no Amazon Polly. Você deve usar
text-type ssml
se quiser retornar marcas de fala em SSML. -
outfile
Especifique o arquivo de saída ao qual os metadados são gravados.
MaryLamb.txt
O exemplo da AWS CLI a seguir está formatado para Unix, Linux e macOS. Para Windows, substitua o caractere de continuação Unix de barra invertida (\) no final de cada linha por um acento circunflexo (^) e use aspas completas (") ao redor do texto de entrada com aspas simples (') para etiquetas internas.
aws polly synthesize-speech \ --output-format json \ --voice-id
Voice ID
\ --text 'Input text
' \ --speech-mark-types='["sentence", "word", "viseme"]' \outfile
Saída de marca de fala
O Amazon Polly retorna objetos de marca de fala em um fluxo JSON delimitado por linha. Um objeto de marca de fala contém os seguintes campos:
-
time – a data e a hora em milissegundos desde o início do fluxo de áudio correspondente
-
Tipo: tipo de marca de fala (sentença, palavra, visema ou ssml).
-
Início: deslocamento em bytes do início do objeto no texto de entrada (não inclui marcas visema)
-
Término: deslocamento em bytes (não caracteres) do fim do objeto no texto de entrada (não inclui marcas viseme)
-
value – isso varia de acordo com o tipo de marca de fala
SSML: tag <mark> de SSML
viseme: o nome do visema
word ou sentence: uma substring do texto de entrada, conforme delimitado pelos campos de início e fim
Por exemplo, o Amazon Polly gera o seguinte objeto de marca da fala word
do texto "Maria tinha um carneirinho":
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
A palavra descrita ("had") começa 373 milissegundos após o fluxo de áudio começar, e começa no byte 5 e termina no byte 8 do texto de entrada.
nota
Esses metadados são para a voice-id Joanna
. Se você usar outra voz com o mesmo texto de entrada, os metadados do texto podem ser diferente.