Utilizzare un filtro di vocabolario personalizzato - Amazon Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzare un filtro di vocabolario personalizzato

Una volta creato il filtro di vocabolario personalizzato, puoi includerlo nelle tue richieste di trascrizione; consulta le sezioni seguenti per gli esempi.

La lingua del filtro del vocabolario personalizzato che includi nella richiesta deve corrispondere al codice della lingua specificato per i file multimediali. Se utilizzi l'identificazione della lingua e specifichi più opzioni linguistiche, puoi includere un filtro di vocabolario personalizzato per lingua specificata. Se le lingue dei filtri del vocabolario personalizzati non corrispondono alla lingua identificata nell'audio, i filtri non vengono applicati alla trascrizione e non vi sono avvisi o errori.

Utilizzo di un filtro di vocabolario personalizzato in una trascrizione batch

Per utilizzare un filtro di vocabolario personalizzato con una trascrizione in batch, consulta i seguenti esempi:

  1. Accedere alla AWS Management Console.

  2. Nel riquadro di navigazione, scegli Lavori di trascrizione, quindi seleziona Crea lavoro (in alto a destra). Si apre la pagina Specifica i dettagli del lavoro.

    Amazon Transcribescreenshot della console: la pagina «specifica le impostazioni del lavoro».

    Assegna un nome al lavoro e specifica il supporto di input. Facoltativamente, includi qualsiasi altro campo, quindi scegli Avanti.

  3. Nella pagina Configura lavoro, nel pannello di rimozione dei contenuti, attiva il filtro del vocabolario.

    Amazon Transcribeschermata della console: la pagina «configura lavoro».
  4. Seleziona il tuo filtro di vocabolario personalizzato dal menu a discesa e specifica il metodo di filtraggio.

    Amazon Transcribescreenshot della console: opzioni di selezione del filtro del vocabolario.
  5. Seleziona Crea lavoro per eseguire il processo di trascrizione.

Questo esempio utilizza il start-transcription-jobcomando e ilSettings parametro con iVocabularyFilterMethod sottoparametriVocabularyFilterName and. Per ulteriori informazioni, consultare StartTranscriptionJob e Settings.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --settings VocabularyFilterName=my-first-vocabulary-filter,VocabularyFilterMethod=mask

Ecco un altro esempio di utilizzo del start-transcription-jobcomando e di un corpo della richiesta che include il filtro del vocabolario personalizzato in quel lavoro.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-vocabulary-filter-job.json

Il file my-first-vocabulary-filter-job.json contiene il seguente corpo della richiesta.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Settings": { "VocabularyFilterName": "my-first-vocabulary-filter", "VocabularyFilterMethod": "mask" } }

Questo esempio utilizza ilAWS SDK for Python (Boto3) per includere un filtro di vocabolario personalizzato utilizzando l'Settingsargomento per il metodo start_transcription_job. Per ulteriori informazioni, consultare StartTranscriptionJob e Settings.

Per ulteriori esempi di utilizzo degliAWS SDK, inclusi esempi specifici per funzionalità, scenari e interservizi, consulta ilEsempi di codice per Amazon Transcribe tramite SDK AWS capitolo.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'VocabularyFilterName': 'my-first-vocabulary-filter', 'VocabularyFilterMethod': 'mask' } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Utilizzo di un filtro di vocabolario personalizzato in una trascrizione in streaming

Per utilizzare un filtro di vocabolario personalizzato con una trascrizione in streaming, consulta i seguenti esempi:

  1. Accedi a AWS Management Console.

  2. Nel riquadro di navigazione scegli Trascrizione in tempo reale. Scorri verso il basso fino a Impostazioni di rimozione dei contenuti ed espandi questo campo se è ridotto a icona.

    Amazon Transcribescreenshot della console: la pagina di «trascrizione in tempo reale».
  3. Attiva il filtro del vocabolario. Selezionare un filtro di vocabolario personalizzato dal menu a discesa e specificare il metodo di filtrazione.

    Amazon Transcribescreenshot della console: il riquadro esteso delle «impostazioni di rimozione dei contenuti».

    Selezionare tutte le altre impostazioni che si desidera applicare allo stream.

  4. A questo punto puoi eseguire la trascrizione del tuo stream. Seleziona Avvia streaming e inizia a parlare. Per terminare la dettatura, seleziona Interrompi streaming.

Questo esempio crea una richiesta HTTP/2 che include il filtro del vocabolario e il metodo di filtro personalizzati. Per ulteriori informazioni sull'utilizzo dello streaming HTTP/2 conAmazon Transcribe, consultaImpostazione di un flusso HTTP/2. Per maggiori dettagli sui parametri e sulle intestazioni specifici perAmazon Transcribe, consulta StartStreamTranscription.

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-vocabulary-filter-name: my-first-vocabulary-filter x-amzn-transcribe-vocabulary-filter-method: mask transfer-encoding: chunked

Le definizioni dei parametri sono disponibili nell'API Reference; i parametri comuni a tutte le operazioniAWS API sono elencati nella sezione Parametri comuni.

Questo esempio crea un URL predefinito che applica il filtro del vocabolario personalizzato a uno WebSocket stream. Le interruzioni di riga sono state aggiunte per la leggibilità. Per ulteriori informazioni sull'utilizzo WebSocket degli stream conAmazon Transcribe, consultaConfigurazione di uno WebSocket stream. Per ulteriori dettagli sui parametri, vedere StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &vocabulary-filter-name=my-first-vocabulary-filter &vocabulary-filter-method=mask

Le definizioni dei parametri sono disponibili nell'API Reference; i parametri comuni a tutte le operazioniAWS API sono elencati nella sezione Parametri comuni.