生成替代转录 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

生成替代转录

当你使用 MAmazon Transcribe edical 时,你得到的转录可信度最高。但是,您可以将 MAmazon Transcribe edical 配置为以较低的置信度返回其他转录。

使用备选转录可查看对所转录音频的不同解释。例如,在允许用户查看转录的应用程序中,您可以提供备选转录供用户选择。

您可以使用AWS Management Console或 StartMedicalTranscriptionJobAPI 生成替代转录。

要使用生成备用转录,请在配置作业时启用替代结果。AWS Management Console

  1. 登录到 AWS Management Console

  2. 在导航窗格上的 LOAAmazon Transcribe D 下,选择 Target

  3. 请选择 Create job (创建任务)

  4. 指定作业详细信息页面上,提供有关您的转录作业的信息。

  5. 选择 Next(下一步)

  6. 启用替代结果

  7. 对于最大备选方案,输入介于 2 到 10 之间的整数值,以表示输出中想要的最大备选转录数。

  8. 选择 Create(创建)

使用批量转录作业 (API) 在音频文件中分隔每个发言者的文本
  • 对于 StartMedicalTranscriptionJobAPI,指定以下内容。

    1. 对于MedicalTranscriptionJobName,请指定一个在您的名称中是唯一的AWS 账户。

    2. 对于LanguageCode,请指定与您的音频文件中所说的语言和词汇过滤器的语言相对应的语言代码。

    3. Media对象的MediaFileUri参数中,指定要转录的音频文件的位置。

    4. 对于Specialty,请指定在音频文件中发言的临床医生的医学专业。

    5. 对于Type,请指定你是在转录医学对话还是听写。

    6. 对于OutputBucketName,指定用于Amazon S3存储转录结果的存储桶。

    7. 对于Settings对象,指定以下内容。

      1. ShowAlternativestrue.

      2. MaxAlternatives-介于 2 到 10 之间的整数,表示转录输出中想要的替代转录数量。

以下请求使用启动AWS SDK for Python (Boto3)转录作业,该作业最多生成两个备用转录。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = s3://DOC-EXAMPLE-BUCKET/my-input-files/my-audio-file.flac transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Specialty = 'PRIMARYCARE', Type = 'CONVERSATION', Settings = { 'ShowAlternatives': True, 'MaxAlternatives': 2 } ) while True: status = transcribe.get_medical_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
在音频文件中转录初级保健临床医生与患者对话的音频文件 (AWS CLI)
  • 运行以下代码。

    aws transcribe start-transcription-job \ --cli-input-json file://filepath/example-start-command.json

    以下代码显示example-start-command.json

    { "MedicalTranscriptionJobName": "my-first-transcription-job", "LanguageCode": "en-US", "Specialty": "PRIMARYCARE", "Type": "CONVERSATION", "OutputBucketName":"DOC-EXAMPLE-BUCKET", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-audio-file.flac" }, "Settings":{ "ShowAlternatives": true, "MaxAlternatives": 2 } }