数据输入和输出 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据输入和输出

Amazon Transcribe将音频数据作为Amazon S3存储桶或媒体流中的媒体文件,并将其转换为文本数据。

如果您正在转录存储在存储Amazon S3段中的媒体文件,则是在执行批量转录。如果您正在转录媒体流,则是在执行流媒体转录。这两个流程有不同的规则和要求。

使用批量转录,任务队列列任务队列如果您不需要同时处理所有转录作业,则可以使用批量转录。这Amazon Transcribe允许跟踪您的转录作业,并在插槽可用时对其进行处理。

注意

Amazon Transcribe可能会暂时存储您的内容以不断提高其分析模型的质量。要了解更多信息,请参阅 Amazon Transcribe 常见问题。要请求删除可能由存储的内容Amazon Transcribe,请使用打开案例AWS Support

媒体格式

批量转录和流式转录支持的媒体类型有所不同,但建议两者都采用无损格式。有关详细信息,请参阅下表:

Batch

流式处理

支持的格式

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • PCM 编码

推荐格式

  • FLAC

  • 采用 PCM 16 位编码的 WAV

  • FLAC

  • PCM 签名的 16 位小端音频(请注意,这包括 WAV)

为获得最佳效果,请使用无损格式,例如采用 PCM 16 位编码的 FLAC 或 WAV。

注意

并非所有语言都支持流媒体转录。有关详细信息,请参阅支持的语言表中的 “数据输入” 列。

音频频道

Amazon Transcribe支持单通道和双通道媒体。目前不支持超过两个频道的媒体。

如果您的音频在一个频道上包含多个扬声器,并且您想在转录输出中对每个扬声器进行分区和标记,则可以使用扬声器分区(diariation)

如果您的音频包含两个独立频道上的语音,则可以使用频道识别在脚本中分别转录每个频道。

这两个选项都会生成一个脚本文件。

注意

如果您未启用发言者分区频道识别,则您的笔录文本将作为一个连续部分提供。

采样率

对于批量转录作业,您可以选择提供采样率,但此参数是可选的。如果您将其包含在请求中,请确保您提供的值与音频中的实际采样率相匹配。如果您提供的采样率与您的音频不匹配,则您的工作可能会失败。

对于流媒体转录,您必须在请求中包括采样率。与批量转录作业一样,请确保您提供的值与音频中的实际采样率相匹配。

低保真音频(例如电话录音)的采样率通常使用 8,000 Hz。对于高保真音频,Amazon Transcribe支持介于 16,000 Hz 和 48,000 Hz 之间的值。

Output

转录输出采用 JSON 格式。笔录的第一部分包含段落形式的笔录本身,然后是每个单词和标点符号的其他数据。提供的数据取决于您在请求中包含的功能。您的成绩单至少包含每个单词的开始时间、结束时间和置信度分数。以下部分显示了基本转录请求的输出示例,该请求不包含任何其他选项或功能。

所有批处理记录都存储在存储Amazon S3桶中。您可以选择将脚本保存在自己的Amazon S3存储桶中,也可以Amazon Transcribe使用安全的默认存储桶。要了解有关创建和使用Amazon S3存储桶的更多信息,请参阅使用存储桶

如果您希望将您的脚本存储在您拥有的Amazon S3存储段中,请在转录请求中指定该存储段的 URI。在开始批量转录任务之前,请务必授予此存储段的Amazon Transcribe写入权限。如果您指定了自己的存储桶,则您的脚本将保留在该存储桶中,直到您将其删除。

如果您未指定Amazon S3存储桶,则Amazon Transcribe使用安全的服务管理存储分区并为您提供可用于下载脚本的临时 URI。请注意,临时 URI 的有效期为 15 分钟。如果您在使用所提供的 URI 时AccessDenied遇到错误,请GetTranscriptionJob请求为您的脚本获取新的临时 URI。

如果您选择默认存储桶,则您的脚本将在任务到期(90 天)时删除。如果您想在此到期日期之后保留您的成绩单,则必须下载该笔录。

直播记录的返回方法与你在直播中使用的方法相同。

提示

如果您想将 JSON 输出转换为 Word 格式的 turn-by-turn 脚本,请参阅此GitHub 示例(适用于 Python3)。此脚本适用于通话后分析记录和启用了迪亚化功能的标准批处理记录。

输出示例

笔录以段落形式提供完整的转录,然后进行 word-for-word 细分,为每个单词和标点符号提供数据。这包括开始时间、结束时间、置信度分数和类型(pronunciationpunctuation)。

以下示例来自一个简单的批量转录作业,该作业不包含任何其他功能。当您对转录请求应用每一项附加功能时,您将在转录输出文件中获得更多数据。

基本批处理记录包含两个主要部分:

  1. transcripts:将整个脚本包含在一个文本块中。

  2. items:包含该transcripts部分中每个单词和标点符号的信息。

您在转录请求中包含的每项附加功能都会在您的成绩单中产生其他信息。

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }, "status": "COMPLETED" }