Verwenden eines benutzerdefinierten Vokabulars in einer Batch-Transkription Verwenden eines benutzerdefinierten Vokabulars in einer Streaming-Transkription

Verwenden eines benutzerdefinierten Vokabulars

Sobald Sie Ihr benutzerdefiniertes Vokabular erstellt haben, können Sie es in Ihre Transkriptionsanfragen aufnehmen; Beispiele finden Sie in den folgenden Abschnitten.

Die Sprache des benutzerdefinierten Vokabulars, das Sie in Ihre Anfrage aufnehmen, muss dem Sprachcode entsprechen, den Sie für Ihre Medien angeben. Wenn die Sprachen nicht übereinstimmen, wird Ihr benutzerdefiniertes Vokabular nicht auf Ihre Transkription angewendet und es gibt keine Warnungen oder Fehler.

Verwenden eines benutzerdefinierten Vokabulars in einer Batch-Transkription

Beispiele für die Verwendung eines benutzerdefinierten Vokabulars mit einer Batch-Transkription finden Sie im Folgenden:

Melden Sie sich an der AWS Management Console an.
Wählen Sie im Navigationsbereich Transkriptionsaufträge und dann Auftrag erstellen (oben rechts). Dies öffnet die Seite Auftragsdetails angeben.

Benennen Sie Ihren Auftrag und geben Sie Ihr Eingabemedium an. Fügen Sie optional weitere Felder hinzu und wählen Sie dann Weiter.
Aktivieren Sie unten auf der Seite Auftrag konfigurieren im Bereich Anpassung die Option Benutzerdefiniertes Vokabular.
Wählen Sie Ihr benutzerdefiniertes Vokabular aus dem Dropdown-Menü.

Wählen Sie Auftrag erstellen, um Ihren Transkriptionsauftrag auszuführen.

In diesem Beispiel werden der start-transcription-jobBefehl und der Settings Parameter mit dem VocabularyName Unterparameter verwendet. Weitere Informationen erhalten Sie unter StartTranscriptionJob und Settings.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \
--output-bucket-name amzn-s3-demo-bucket \
--output-key my-output-files/ \
--language-code en-US \
--settings VocabularyName=my-first-vocabulary

Hier ist ein weiteres Beispiel, in dem der start-transcription-jobBefehl verwendet wird, und ein Anfragetext, der Ihr benutzerdefiniertes Vokabular für diesen Job enthält.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-vocabulary-job.json

Die Datei my-first-vocabulary-job.json enthält den folgenden Anfragetext.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "amzn-s3-demo-bucket",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "Settings": {
        "VocabularyName": "my-first-vocabulary"
   }
}

In diesem Beispiel wird mithilfe des AWS SDK für Python (Boto3) Settings Arguments für die Methode start_transcription_job ein benutzerdefiniertes Vokabular hinzugefügt. Weitere Informationen erhalten Sie unter StartTranscriptionJob und Settings.

Weitere Beispiele für die Verwendung der AWS SDKs, einschließlich funktionsspezifischer, szenarienspezifischer und dienstübergreifender Beispiele, finden Sie im Kapitel. Codebeispiele für Amazon Transcribe mit AWS SDKs


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Settings = {
        'VocabularyName': 'my-first-vocabulary' 
   }
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Verwenden eines benutzerdefinierten Vokabulars in einer Streaming-Transkription

Beispiele für die Verwendung eines benutzerdefinierten Vokabulars mit einer Streaming-Transkription finden Sie im Folgenden:

Melden Sie sich beim AWS Management Console an.
Wählen Sie im Navigationsbereich Echtzeit-Streaming aus. Blättern Sie nach unten zu Anpassungen und erweitern Sie dieses Feld, falls es minimiert ist.
Aktivieren Sie Benutzerdefiniertes Vokabular und wählen Sie ein benutzerdefiniertes Vokabular aus dem Dropdown-Menü.

Fügen Sie alle anderen Einstellungen hinzu, die Sie auf Ihren Stream anwenden möchten.
Jetzt können Sie Ihren Stream transkribieren. Wählen Sie Streaming starten und beginnen Sie zu sprechen. Um Ihr Diktat zu beenden, wählen Sie Streaming beenden.

In diesem Beispiel wird eine HTTP/2-Anfrage erstellt, die Ihr benutzerdefiniertes Vokabular enthält. Weitere Informationen zur Verwendung von HTTP/2-Streaming mit finden Sie Amazon Transcribe unter. Einrichten eines HTTP/2-Streams Weitere Einzelheiten zu Parametern und Kopfzeilen, die speziell für Amazon Transcribe gelten, finden Sie unter StartStreamTranscription.


POST /stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription
Content-Type: application/vnd.amazon.eventstream
X-Amz-Content-Sha256: string
X-Amz-Date: 20220208T235959Z
Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000      
x-amzn-transcribe-vocabulary-name: my-first-vocabulary
transfer-encoding: chunked

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Operationen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

In diesem Beispiel wird eine vorsignierte URL erstellt, die Ihr benutzerdefiniertes Vokabular auf einen WebSocket Stream anwendet. Für eine bessere Lesbarkeit werden Zeilenumbrüche hinzugefügt. Weitere Informationen zur Verwendung von WebSocket Streams mit finden Sie Amazon Transcribe unterEinen WebSocket Stream einrichten. Weitere Einzelheiten zu den Parametern finden Sie unter StartStreamTranscription.


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket?
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=string
&X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date
&language-code=en-US
&media-encoding=flac
&sample-rate=16000    
&vocabulary-name=my-first-vocabulary

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erstellen eines benutzerdefinierten Vokabulars mithilfe einer Liste

Benutzerdefinierte Sprachmodelle