Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ein- und Ausgabe von Daten
Amazon Transcribenimmt Audiodaten als Mediendatei in einenAmazon S3 Bucket oder einen Medienstream und konvertiert sie in Textdaten.
Wenn Sie in einemAmazon S3 Bucket gespeicherte Mediendateien transkribieren, führen Sie Batch-Transkriptionen durch. Wenn Sie Medienstreams transkribieren, führen Sie Streaming-Transkriptionen durch. Diese beiden Prozesse haben unterschiedliche Regeln und Anforderungen.
Batch-Transkriptionen können Sie verwenden,AuftragswarteschlangenWarteschlange tesch wenn Sie nicht alle Ihre Transkriptionsaufträge gleichzeitig bearbeiten müssen. So behalten SieAmazon Transcribe den Überblick über Ihre Transkriptionsaufträge und können diese bearbeiten, wenn Plätze verfügbar sind.
Anmerkung
Amazon Transcribekann Ihre Inhalte vorübergehend speichern, um die Qualität seiner Analysemodelle kontinuierlich zu verbessern. Weitere Informationen finden Sie in den Häufig gestellten Fragen zu Amazon Transcribe
Medienformate
Die unterstützten Medientypen unterscheiden sich zwischen Batch-Transkriptionen und Streaming-Transkriptionen, obwohl für beide Formate verlustfreie Formate empfohlen werden. Einzelheiten finden Sie in der folgenden Tabelle:
Stapel |
Streaming |
|
---|---|---|
Unterstützte Formate |
|
|
Empfohlene Formate |
|
|
Die besten Ergebnisse erzielen Sie, wenn Sie ein verlustfreies Format wie FLAC oder WAV mit PCM-16-Bit-Codierung verwenden.
Anmerkung
Streaming-Transkriptionen werden nicht in allen Sprachen unterstützt. Einzelheiten finden Sie in der Spalte „Dateneingabe“ in der Tabelle der unterstützten Sprachen.
Audiokanäle
Amazon Transcribeunterstützt einkanalige und zweikanalige Medien. Medien mit mehr als zwei Kanälen werden derzeit nicht unterstützt.
Wenn Ihr Audio mehrere Lautsprecher auf einem Kanal enthält und Sie jeden Lautsprecher in Ihrer Transkriptionsausgabe partitionieren und beschriften möchten, können Sie die Lautsprecherpartitionierung (Diarisierung) verwenden.
Wenn Ihr Audio Sprache auf zwei getrennten Kanälen enthält, können Sie die Kanalidentifikation verwenden, um jeden Kanal in Ihrem Transkript separat zu transkribieren.
Beide Optionen erzeugen eine Transkriptdatei.
Anmerkung
Wenn Sie die Lautsprecherpartitionierung oder Kanalidentifikation nicht aktivieren, wird Ihr Transkripttext als ein durchgehender Abschnitt bereitgestellt.
Stichprobenraten
Bei Batch-Transkriptionsaufträgen können Sie wählen, ob Sie eine Samplerate angeben möchten, obwohl dieser Parameter optional ist. Wenn Sie es in Ihre Anfrage aufnehmen, stellen Sie sicher, dass der von Ihnen angegebene Wert mit der tatsächlichen Samplerate in Ihrem Audio übereinstimmt. Wenn Sie eine Samplerate angeben, die nicht mit Ihrem Audio übereinstimmt, kann Ihr Job fehlschlagen.
Bei Streaming-Transkriptionen müssen Sie in Ihrer Anfrage eine Samplerate angeben. Stellen Sie wie bei Batch-Transkriptionsaufträgen sicher, dass der von Ihnen angegebene Wert mit der tatsächlichen Samplerate in Ihrem Audio übereinstimmt.
Bei den Abtastraten für Audio mit niedriger Klangqualität, wie z. B. Telefonaufzeichnungen, liegt der Wert in der Regel bei 8.000 Hz. Amazon TranscribeUnterstützt für Hi-Fidelity-Audio Werte zwischen 16.000 Hz und 48.000 Hz.
Ausgabe
Die Transkriptionsausgabe erfolgt im JSON-Format. Der erste Teil Ihres Transkripts enthält das Transkript selbst in Absatzform, gefolgt von zusätzlichen Daten für jedes Wort und jedes Satzzeichen. Die bereitgestellten Daten hängen von den Funktionen ab, die Sie in Ihrer Anfrage angeben. Ihr Transkript enthält mindestens die Startzeit, die Endzeit und den Konfidenzwert für jedes Wort. Der folgende Abschnitt zeigt eine Beispielausgabe einer einfachen Transkriptionsanforderung, die keine zusätzlichen Optionen oder Funktionen enthielt.
Alle Batch-Transkripte werden inAmazon S3 Buckets gespeichert. Sie können wählen, ob Sie Ihr Transkript in Ihrem eigenenAmazon S3 Bucket speichern oder einen sicheren Standard-BucketAmazon Transcribe verwenden möchten. Weitere Informationen zum Erstellen und Verwenden vonAmazon S3 Buckets finden Sie unter Arbeiten mit Buckets.
Wenn Sie Ihr Transkript in einemAmazon S3 Bucket speichern möchten, der Ihnen gehört, geben Sie die URI des Buckets in Ihrer Transkriptionsanfrage an. Stellen Sie sicher, dass SieAmazon Transcribe Schreibberechtigungen für diesen Bucket erteilen, bevor Sie Ihren Batch-Transkriptionsjob starten. Wenn Sie Ihren eigenen Bucket angeben, verbleibt Ihr Transkript in diesem Bucket, bis Sie es entfernen.
Wenn Sie keinenAmazon S3 Bucket angeben,Amazon Transcribe verwendet es einen sicheren, vom Service verwalteten Bucket und stellt Ihnen eine temporäre URI zur Verfügung, mit der Sie Ihr Transkript herunterladen können. Beachten Sie, dass temporäre URIs für 15 Minuten gültig sind. Wenn Sie bei der Verwendung der angegebenen URI eineAccessDenied
Fehlermeldung erhalten,GetTranscriptionJob
fordern Sie eine neue temporäre URI für Ihr Transkript an.
Wenn Sie sich für einen Standard-Bucket entscheiden, wird Ihr Transkript gelöscht, wenn Ihr Job abläuft (90 Tage). Wenn Sie Ihr Transkript nach diesem Ablaufdatum aufbewahren möchten, müssen Sie es herunterladen.
Streaming-Transkripte werden mit derselben Methode zurückgegeben, die Sie für Ihren Stream verwenden.
Tipp
Wenn Sie Ihre JSON-Ausgabe in ein turn-by-turn Transkript im Word-Format konvertieren möchten, sehen Sie sich dieses GitHub Beispiel an (für Python3)
Beispielausgabe
Transkripte enthalten eine vollständige Transkription in Absatzform, gefolgt von einer word-for-word Aufschlüsselung, die Daten für jedes Wort und jedes Satzzeichen enthält. Dazu gehören die Startzeit, die Endzeit, ein Konfidenzwert und ein Typ (pronunciation
oderpunctuation
).
Das folgende Beispiel stammt aus einem einfachen Batch-Transkriptionsjob, der keine zusätzlichen Funktionen beinhaltete. Mit jeder zusätzlichen Funktion, die Sie auf Ihre Transkriptionsanfrage anwenden, erhalten Sie zusätzliche Daten in Ihrer Transkript-Ausgabedatei.
Die grundlegenden Batch-Transkripte bestehen aus zwei Hauptabschnitten:
-
transcripts
: Enthält das gesamte Transkript in einem Textblock. -
items
: Enthält Informationen zu jedem Wort und jedem Satzzeichen aus demtranscripts
Abschnitt.
Jede zusätzliche Funktion, die Sie in Ihre Transkriptionsanfrage aufnehmen, führt zu zusätzlichen Informationen in Ihrem Transkript.
{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }, "status": "COMPLETED" }