Usar um vocabulário personalizado - Amazon Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usar um vocabulário personalizado

Depois que seu vocabulário personalizado for criado, você poderá incluí-lo em suas solicitações de transcrição; consulte as seções a seguir para obter exemplos.

O idioma do vocabulário personalizado que você está incluindo em sua solicitação deve corresponder ao código de idioma especificado para sua mídia. Se os idiomas não corresponderem, seu vocabulário personalizado não será aplicado à sua transcrição e não haverá avisos ou erros.

Usando um vocabulário personalizado em uma transcrição em lote

Para usar um vocabulário personalizado com uma transcrição em lote, veja exemplos a seguir:

  1. Faça login no AWS Management Console.

  2. No painel de navegação, escolha Trabalhos de transcrição e selecione Criar tarefa (canto superior direito). Isso abre a página Especificar detalhes do trabalho.

    Amazon Transcribecaptura de tela do console: a página “especificar detalhes do trabalho”.

    Dê um nome ao seu trabalho e especifique sua mídia de entrada. Opcionalmente, inclua outros campos e escolha Avançar.

  3. Na parte inferior da página Configurar tarefa, no painel Personalização, ative Vocabulário personalizado.

    Amazon Transcribecaptura de tela do console: a página 'configurar trabalho'.
  4. Selecione seu vocabulário personalizado no menu suspenso.

    Selecione Criar tarefa para executar sua tarefa de transcrição.

Este exemplo usa o start-transcription-jobcomando e oSettings parâmetro com oVocabularyName subparâmetro. Para obter mais informações, consulte StartTranscriptionJob e Settings.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --settings VocabularyName=my-first-vocabulary

Aqui está outro exemplo usando o start-transcription-jobcomando e um corpo de solicitação que inclui seu vocabulário personalizado com esse trabalho.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-vocabulary-job.json

O arquivo my-first-vocabulary-job.json contém o seguinte corpo da solicitação.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Settings": { "VocabularyName": "my-first-vocabulary" } }

Este exemplo usa oAWS SDK for Python (Boto3) para incluir um vocabulário personalizado usando oSettings argumento para o método start_transcription_job. Para obter mais informações, consulte StartTranscriptionJob e Settings.

Para obter exemplos adicionais de uso dosAWS SDKs, incluindo exemplos específicos de recursos, cenários e serviços cruzados, consulte oExemplos de código para o Amazon Transcribe usando AWS SDKs capítulo.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'VocabularyName': 'my-first-vocabulary' } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Usando um vocabulário personalizado em uma transcrição de streaming

Para usar um vocabulário personalizado com uma transcrição em streaming, veja exemplos a seguir:

  1. Faça login no AWS Management Console.

  2. No painel de navegação, escolha Transcrição em tempo real. Role para baixo até Personalizações e expanda esse campo se ele estiver minimizado.

    Amazon Transcribecaptura de tela do console: a página de “transcrição em tempo real”.
  3. Ative Vocabulário personalizado e selecione um vocabulário personalizado no menu suspenso.

    Amazon Transcribecaptura de tela do console: o painel expandido de “personalizações”.

    Inclua outras configurações que deseja aplicar ao seu stream.

  4. Agora está tudo pronto para transcrição do seu stream. Selecione Iniciar transmissão e começar a falar. Para finalizar seu ditado, selecione Interromper streaming.

Este exemplo cria uma solicitação HTTP/2 que inclui seu vocabulário personalizado. Para obter mais informações sobre como usar o streaming HTTP/2 comAmazon Transcribe, consulteConfigurando um stream HTTP /2. Para obter mais detalhes sobre parâmetros e cabeçalhos específicos paraAmazon Transcribe, consulte StartStreamTranscription.

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-vocabulary-name: my-first-vocabulary transfer-encoding: chunked

As definições de parâmetros podem ser encontradas na Referência da API; os parâmetros comuns a todas as operaçõesAWS da API estão listados na seção Parâmetros comuns.

Este exemplo cria um URL predefinido que aplica seu vocabulário personalizado a um WebSocket stream. Quebras de linha foram adicionadas para uma melhor leitura. Para obter mais informações sobre como usar WebSocket streams comAmazon Transcribe, consulteConfigurando um WebSocket stream. Para obter mais detalhes sobre os parâmetros, consulte StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &vocabulary-name=my-first-vocabulary

As definições de parâmetros podem ser encontradas na Referência da API; os parâmetros comuns a todas as operaçõesAWS da API estão listados na seção Parâmetros comuns.