在实时音频流中编辑或识别 PII - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在实时音频流中编辑或识别 PII

当编辑流式转录中的个人身份信息 (PII) 时, Amazon Transcribe 会将转录中识别到的每个 PII 替换为 [PII]

为流式转录提供的另一个选项是 PII 识别。激活 PII 识别后,会将转录结果中的 PII Amazon Transcribe 标记在对象下。Entities有关输出示例,请参见经过编辑的直播输出示例PII 识别输出示例

通过流媒体转录对个人身份信息进行编辑和识别可使用以下英语方言:澳大利亚 (en-AU)、英国 ()、美国 (en-GB) 和西班牙语美国方言 (en-US)。es-US

流式转录作业的 PII 识别和编辑只有在音频片段完成转录后才会执行。

直播转录中 Amazon Transcribe 可以识别的 PII 类型
PII 类型 描述
ADDRESS

实际地址,例如 100 Main Street, Anytown, USA or Suite #12, Building 123。地址可以包括街道、办公大楼、地点、城市、州、国家、县、邮政编码、辖区和社区等信息。

ALL

编辑或识别此表中列出的所有 PII 类型。

BANK_ACCOUNT_NUMBER

美国银行账号。这些账号的长度通常介于 10-12 位数之间,但当只有最后 4 位数字时, Amazon Transcribe 也可以识别银行账号。

BANK_ROUTING

美国银行账户的路由号码。这些账号的长度通常为 9 位数,但当只有最后 4 位数字时, Amazon Transcribe 也可以识别路由号码。

CREDIT_DEBIT_CVV

VISA、 MasterCard、Discover 信用卡和借记卡上显示的 3 位数信用卡验证码 (CVV)。在美国运通信用卡或借记卡中,这是一个 4 位数的数字代码。

CREDIT_DEBIT_EXPIRY

信用卡或借记卡的到期日期。该数字的长度通常为 4 位数,格式为月/年或 MM/YY。例如, Amazon Transcribe 可以识别到期日期,例如 1 月 21 日、2021 年 1 月 1 日和 2021 年 1 月

CREDIT_DEBIT_NUMBER

信用卡或借记卡的号码。这些数字的长度可以从 13 到 16 位数字不等,但当只有最后 4 位数字存在时, Amazon Transcribe 也可以识别信用卡或借记卡号。

EMAIL

电子邮件地址,例如 efua.owusu@email.com

NAME

个人的名字。此实体类型不包括头衔,例如先生、夫人、小姐或博士。 Amazon Transcribe 不将此实体类型应用于属于组织或地址的姓名。例如,将 John Doe 组织 Amazon Transcribe 识别为组织,将 Jane Doe Stre et 识别为地址。

PHONE

电话号码。该实体类型还包括传真号码和寻呼机号码。

PIN

一个 4 位数的个人识别码 (PIN),允许他人访问其银行账户信息。

SSN

社会安全号码 (SSN) 是发给美国公民、永久居民和临时在职居民的 9 位数字。 Amazon Transcribe 当只有最后 4 位数字存在时,还可以识别社会安全号码。

您可以使用 AWS Management Console、 WebSocket或 HTTP/2 开始直播转录。

  1. 登录到 AWS Management Console

  2. 在导航窗格中,选择 Real-time transcription (实时转录)。向下滚动到内容移除设置,如果该字段已最小化,则将其展开。

    Amazon Transcribe 控制台屏幕截图:“实时转录” 页面。
  3. 开启 PII 识别和编辑

    Amazon Transcribe 控制台屏幕截图:扩展的 “内容删除设置” 面板。
  4. 选择仅限识别识别和编辑,然后在转录中选择要识别或编辑的 PII 实体类型。

    Amazon Transcribe 控制台屏幕截图:可以选择的 PII 类型列表。
  5. 您现在已准备就绪,可以转录音频流了。选择开始流式转录并开始讲话。要结束口述,请选择停止流式转录

此示例创建了一个在直播中使用 PII 密文(或 PII 识别)的预签名 URL。 WebSocket 为了便于阅读,已增加了换行符。有关将 WebSocket 直播与配合使用的更多信息 Amazon Transcribe,请参阅设置直 WebSocket 播。有关参数的更多详细信息,请参阅 StartStreamTranscription

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &pii-entity-types=NAME,ADDRESS &content-redaction-type=PII (or &content-identification-type=PII)

不能在同一个请求中同时使用 content-identification-typecontent-redaction-type

参数定义可在 API 参考中找到;所有 AWS API 操作的通用参数列在常用参数部分中。

此示例创建了一个启用 PII 识别或 PII 编辑的 HTTP/2 请求。有关使用 HTTP/2 流式传输的更多信息 Amazon Transcribe,请参阅。设置 HTTP/2 音频流有关特定于的参数和标题的更多详细信息 Amazon Transcribe,请参阅StartStreamTranscription

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-content-identification-type: PII (or x-amzn-transcribe-content-redaction-type: PII) x-amzn-transcribe-pii-entity-types: NAME,ADDRESS transfer-encoding: chunked

不能在同一个请求中同时使用 content-identification-typecontent-redaction-type

参数定义可在 API 参考中找到;所有 AWS API 操作的通用参数列在常用参数部分中。

注意

仅亚太地区(首尔)、亚太地区(悉尼)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)和美国西部(俄勒冈州)支持流媒体个人身份信息编辑。 AWS 区域