Suddivisione dei parlanti (diarizzazione) - Amazon Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Suddivisione dei parlanti (diarizzazione)

Con la diarizzazione degli altoparlanti, è possibile distinguere tra diversi altoparlanti nell'uscita di trascrizione. Amazon Transcribe è in grado di distinguere tra un massimo di 30 oratori diversi ed etichettare il testo di ciascun oratore unico con un valore unico (fino a). spk_0 spk_9

Oltre alle sezioni di trascrizione standard (transcripts e items), le richieste con suddivisione dei parlanti abilitata includono una sezione speaker_labels. Questa sezione è raggruppata per parlante e contiene informazioni su ogni enunciato, tra cui l'etichetta del parlante e i timestamp.

"speaker_labels": { "channel_label": "ch_0", "speakers": 2, "segments": [ { "start_time": "4.87", "speaker_label": "spk_0", "end_time": "6.88", "items": [ { "start_time": "4.87", "speaker_label": "spk_0", "end_time": "5.02" }, ... { "start_time": "8.49", "speaker_label": "spk_1", "end_time": "9.24", "items": [ { "start_time": "8.49", "speaker_label": "spk_1", "end_time": "8.88" },

Per visualizzare un esempio completo di trascrizione con suddivisione dei parlanti (per due parlanti), consulta Esempio di output di diarizzazione (batch).

Suddivisione dei parlanti in una trascrizione in batch

Per suddividere i parlanti in una trascrizione in batch, consulta i seguenti esempi:

  1. Accedi alla AWS Management Console.

  2. Nel riquadro di navigazione, scegli Processi di trascrizione, quindi seleziona Crea processo (in alto a destra). Si aprirà la pagina Specifica i dettagli del processo.

    Amazon Transcribe pagina della console 'Specificare i dettagli del lavoro'. Nel pannello “Impostazioni processo”, puoi specificare un nome del tuo processo di trascrizione, selezionare un tipo di modello e specificare le impostazioni della lingua.
  3. Compila tutti i campi che desideri includere nella pagina Specifica i dettagli del processo, quindi seleziona Avanti. Verrà visualizzata la pagina Configura processo - opzionale.

    Nel pannello delle impostazioni audio, seleziona Suddivisione dei parlanti (sotto l'intestazione “Tipo di identificazione audio”). Come opzione, è possibile specificare il numero di parlanti da suddividere, fino a un massimo di 10.

    Amazon Transcribe pagina 'Configura lavoro' della console. Nel pannello 'Impostazioni audio', puoi abilitare la “Suddivisione dei parlanti”.
  4. Seleziona Crea processo per eseguire il processo di trascrizione.

Questo esempio utilizza start-transcription-job. Per ulteriori informazioni, consulta StartTranscriptionJob.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --show-speaker-labels TRUE \ --max-speaker-labels 3

Ecco un altro esempio di utilizzo del start-transcription-jobcomando e un corpo della richiesta che consente il partizionamento degli altoparlanti con quel lavoro.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-transcription-job.json

Il file my-first-transcription-job.json contiene il seguente corpo della richiesta.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ShowSpeakerLabels": 'TRUE', "MaxSpeakerLabels": 3 }

Questo esempio utilizza il AWS SDK for Python (Boto3) per identificare i canali utilizzando il metodo start_transcription_job. Per ulteriori informazioni, vedere. StartTranscriptionJob

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'ShowSpeakerLabels': True, 'MaxSpeakerLabels': 3 } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Suddivisione dei parlanti in una trascrizione in streaming

Per suddividere i parlanti in una trascrizione in streaming, consulta i seguenti esempi:

  1. Accedi alla AWS Management Console.

  2. Nel riquadro di navigazione scegli Trascrizione in tempo reale. Scorri verso il basso fino a Impostazioni audio ed espandi questo campo se è ridotto al minimo.

    Amazon Transcribe screenshot della console: la scheda «impostazioni audio» nella pagina «trascrizione in tempo reale».
  3. Attiva la suddivisione dei parlanti.

    Amazon Transcribe schermata della console: la scheda estesa «impostazioni audio» con il partizionamento degli altoparlanti abilitato.
  4. A questo punto puoi eseguire la trascrizione del flusso. Seleziona Avvia streaming e inizia a parlare. Per terminare la dettatura, seleziona Interrompi streaming.

Questo esempio crea una richiesta HTTP/2 che suddivide i parlanti nell'output della trascrizione. Per ulteriori informazioni sull'utilizzo dello streaming HTTP/2 con, consulta. Amazon TranscribeImpostazione di un flusso HTTP/2 Per ulteriori dettagli sui parametri e sulle intestazioni specifici di, consulta. Amazon TranscribeStartStreamTranscription

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-show-speaker-label: true transfer-encoding: chunked

Le definizioni dei parametri sono disponibili nell'API Reference; i parametri comuni a tutte le operazioni AWS API sono elencati nella sezione Parametri comuni.

Questo esempio crea un URL prefirmato che separa i parlanti nell'output della trascrizione. Le interruzioni di riga sono state aggiunte per la leggibilità. Per ulteriori informazioni sull'utilizzo degli WebSocket stream con Amazon Transcribe, consultaConfigurazione di uno WebSocket stream. Per ulteriori dettagli sui parametri, consulta StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &specialty=PRIMARYCARE &type=DICTATION &media-encoding=flac &sample-rate=16000 &show-speaker-label=true

Le definizioni dei parametri sono disponibili nell'API Reference; i parametri comuni a tutte le operazioni AWS API sono elencati nella sezione Parametri comuni.