Usar filtros de vocabulário personalizados para excluir, mascarar ou sinalizar palavras

Um filtro de vocabulário personalizado é um arquivo de texto que contém uma lista personalizada de palavras individuais que você deseja modificar na saída da transcrição.

Um caso de uso comum é a remoção de termos ofensivos ou aviltantes, mas os filtros de vocabulário personalizados são totalmente personalizados, então é possível selecionar as palavras que quiser. Por exemplo, se você tem um novo produto prestes a ser lançado, é possível mascarar o nome do produto em transcrições de reunião. Nesse caso, você mantém as partes interessadas e up-to-date mantém o nome do produto em segredo até o lançamento.

A filtragem de vocabulário tem três métodos de exibição: mask, remove e tag. Consulte os exemplos a seguir para ver como cada um deles funciona.

Máscara: substitui palavras especificadas por três asteriscos (***).


"transcript": "You can specify a list of *** or *** words, and *** *** removes them from transcripts automatically."

Remover: exclui palavras especificadas, sem deixar nada em seu lugar.


"transcript": "You can specify a list of or words, and removes them from transcripts automatically."

Tag: adiciona uma tag ("vocabularyFilterMatch": true) a cada palavra especificada, mas não altera a palavra em si. A marcação permite substituições e edições rápidas de transcrições.


"transcript": "You can specify a list of profane or offensive words, and amazon transcribe removes them from transcripts automatically."
...
    "alternatives": [
        {
            "confidence": "1.0",
            "content": "profane"
        }
    ],
    "type": "pronunciation",
    "vocabularyFilterMatch": true

Ao enviar uma solicitação de transcrição, você pode especificar um filtro de vocabulário personalizado e o método de filtragem que deseja aplicar. Amazon Transcribe em seguida, modifica as correspondências exatas de palavras quando elas aparecem na sua transcrição, de acordo com o método de filtragem especificado.

Os filtros de vocabulário personalizados podem ser aplicados a solicitações de transcrição em lote e streaming. Para saber como criar um filtro de vocabulário personalizado, consulte Criar um filtro de vocabulário. Para saber como aplicar um filtro de vocabulário personalizado, consulte Usar um filtro de vocabulário personalizado.

nota

Amazon Transcribe mascara automaticamente termos racialmente sensíveis, embora você possa desativar esse filtro padrão entrando em contato com o Suporte AWS Técnico.

Para ver um vídeo de demonstração da filtragem de vocabulário, consulte:

Operações de API específicas para filtragem de vocabulário

CreateVocabularyFilter, DeleteVocabularyFilter, GetVocabularyFilter, ListVocabularyFilters, UpdateVocabularyFilter

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Usar um modelo de idioma personalizado

Criar um filtro de vocabulário