检测 PII 实体 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

检测 PII 实体

您可以使用 Amazon Comprehend 检测英语或西班牙语文本文档中的个人身份信息实体。PII 实体是一种特定类型的个人身份信息 (PII)。使用 PII 检测来查找 PII 实体或在文本中编辑 PII 实体。

查找 PII 实体

要在文本中查找 PII 实体,您可以使用实时分析快速分析单个文档。您也可以对一组文档启动异步批处理任务。

您可以使用控制台或 API 对单个文档进行实时分析。您的输入文本最多可包含 100 千字节 UTF-8 编码的字符。

例如,您可以提交以下输入文本来查找 PII 实体:

您好,保罗·桑托斯。您的信用卡账户 1111-0000-1111-0000 的最新对账单已邮寄至华盛顿州西雅图市任何街道 123 号,98109。

输出包括以下信息,“保罗·桑托斯”的类型是 NAME,“1111-0000-1111-0000”的类型是 CREDIT_DEBIT_NUMBER,“华盛顿州西雅图市任何街123号,98109”的类型是 ADDRESS

Amazon Comprehend 会返回检测到的 PII 实体列表,其中包含每个 PII 实体的以下信息:

  • 估计检测到的文本跨度是检测到的实体类型的概率的分数。

  • PII 实体类型。

  • PII 实体在文档中的位置,指定为实体开头和结尾的字符偏移量。

例如,前面提到的输入文本会产生以下响应:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

编辑 PII 实体

要编辑文本中的 PII 实体,您可以使用控制台或 API 启动异步批处理任务。Amazon Comprehend 返回输入文本的副本,并对每个 PII 实体进行编辑。

例如,您可以提交以下输入文本来编辑 PII 实体:

您好,保罗·桑托斯。您的信用卡账户 1111-0000-1111-0000 的最新对账单已邮寄至华盛顿州西雅图市任何街道 123 号,98109。

输出文件包括以下文本:

您好,***** ******。您的信用卡账户*****************的最新账单已邮寄至*** *** ******* ******* ***** ***** *****。

PII 通用实体类型

某些 PII 实体类型是通用的(并非特定于个别国家),例如电子邮件地址和信用卡号。Amazon Comprehend 可检测到以下类型的通用 PII 实体:

ADDRESS

实际地址,例如“美国任何市 100 号大街”或“123 号楼 12 房”。地址可以包括街道、建筑物、位置、城市、州、国家、县、邮政编码、辖区和社区等信息。

AGE

个人的年龄,包括数量和时间单位。例如,在“我今年 40 岁”这句话中,Amazon Comprehend 将“40 岁”视为一个年龄。

AWS_ACCESS_KEY

与私有访问密钥关联的唯一标识符;您可以使用访问密钥 ID 和私有访问密钥对编程 AWS 请求进行加密签名。

AWS_SECRET_KEY

与访问密钥关联的唯一标识符。您可以使用访问密钥 ID 和私有访问密钥对编程 AWS 请求进行加密签名。

CREDIT_DEBIT_CVV

VISA、 MasterCard、Discover 信用卡和借记卡上显示的三位数信用卡验证码 (CVV)。对于美国运通信用卡或借记卡,CVV 是一个 4 位数的数字代码。

CREDIT_DEBIT_EXPIRY

信用卡或借记卡的到期日期。该数字的长度通常为 4 位数,通常格式为月/年或 MM/YY。Amazon Comprehend 可识别到期日期,例如 01/21、01/2021 和 2021年1月。

CREDIT_DEBIT_NUMBER

信用卡或借记卡的号码。这些数字的长度可以从 13 到 16 位数字不等。但是,当只有最后 4 位数字存在时,Amazon Comprehend 也能识别信用卡或借记卡号。

DATE_TIME

日期可以包括年、月、日、一周中的某一天或一天中的某个时间。例如,Amazon Comprehend 可将“2020 年 1 月 19 日”或“上午 11 点”识别为日期。Amazon Comprehend 可识别部分日期、日期范围和日期间隔。它还可以识别年代,例如“九十年代”。

DRIVER_ID

分配给驾驶执照的号码,驾驶执照是允许个人在公共道路上驾驶一辆或多辆机动车辆的官方文件。驾驶执照号码由字母数字字符组成。

EMAIL

电子邮件地址,例如 marymajor@email.com。

INTERNATIONAL_BANK_ACCOUNT_NUMBER

国际银行账号在每个国家都有特定的格式。请参阅 www.iban.com/struc

IP_ADDRESS

IPv4 地址,例如 198.51.100.0。

LICENSE_PLATE

车辆牌照由车辆登记的所在州或国家签发。乘用车的格式通常为 5 到 8 位数,由大写字母和数字组成。格式因签发州或国家的不同而异。

MAC_ADDRESS

媒体访问控制 (MAC) 地址是分配给网络接口控制器 (NIC) 的唯一标识符。

NAME

个人的名字。该实体类型不包括头衔,例如 “博士”、“先生”、“夫人”或“小姐”。Amazon Comprehend 不会将此实体类型应用于作为组织或地址的一部分名称。例如,Amazon Comprehend 将“John Doe 组织”认定为一个组织,它将“Jane Doe Street”识别为地址。

PASSWORD

用作密码的字母数字字符串,例如“*very20special#pass*”。

PHONE

电话号码。该实体类型还包括传真号码和寻呼机号码。

PIN

一个 4 位数的个人身份识别码 (PIN),您可以使用它访问您的银行账户。

SWIFT_CODE

SWIFT 代码是银行识别码 (BIC) 的标准格式,用于指定特定的银行或分行。银行使用这些代码进行汇款,例如国际电汇。

SWIFT 代码由 8 个或 11 个字符组成。11 位数的代码指的是特定的分支机构,而 8 位数的代码(或以“XXX”结尾的 11 位数代码)指的是总部或主要办事处。

URL

一个网址,例如 www.example.com。

USERNAME

用于标识帐户的用户名,例如登录名、屏幕名称、昵称或句柄。

VEHICLE_IDENTIFICATION_NUMBER

车辆识别号码 (VIN) 是车辆的唯一标识。ISO 3779 规范规定了 VIN 内容和格式。每个国家/地区都有特定的 VIN 代码和格式。

特定国家/地区的 PII 实体类型

某些 PII 实体类型因国家/地区而异,例如护照号码和其他政府签发的身份证号码。Amazon Comprehend 可检测到以下类型的特定国家/地区 PII 实体:

CA_HEALTH_NUMBER

加拿大医疗服务号码是一个 10 位数的唯一标识符,是个人获得医疗保健福利所必需的。

CA_SOCIAL_INSURANCE_NUMBER

加拿大社会保险号 (SIN) 是一个 9 位数的唯一标识符,是个人获得政府计划和福利所必需的。

SIN 的格式为 3 组 3 位数字,例如 123-456-789。SIN 可以通过一种称为卢恩算法的简单校验码过程进行验证。

IN_AADHAAR

印度 Aadhaar 是印度政府向印度居民签发的 12 位数唯一身份识别码。Aadhaar 格式在第 4 位和第 8 位数字后面有一个空格或连字符。

IN_NREGA

《印度国家农村就业保障法》(NREGA)编号由两个字母和 14 个数字组成。

IN_PERMANENT_ACCOUNT_NUMBER

印度永久账号是由所得税部门签发的 10 位唯一的字母数字编号。

IN_VOTER_NUMBER

印度选民身份证由 3 个字母和 7 个数字组成。

UK_NATIONAL_HEALTH_SERVICE_NUMBER

英国国家健康服务号码是一个 10 至 17 位数字,例如 485 777 3456。当前系统对 10 位数字进行格式化,在第 3 位和第 6 位数字之后使用空格。最后一位数字是错误检测的校验和。

17 位数字格式的第 10 位和第 13 位数字后面有空格。

UK_NATIONAL_INSURANCE_NUMBER

英国国民保险号码 (NINO) 为个人提供获得国民保险(社会保障)福利的权限。它在英国税收系统中也用于某些目的。

该数字共有 9 位数字,以两个字母开头,后跟 6 个数字和 1 个字母。可以在两个字母后面以及第 2、第 4 和第 6 位数字之后使用空格或短划线进行格式化 NINO。

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

英国唯一纳税人编号 (UTR) 是一个 10 位数字,用于识别纳税人或企业。

BANK_ACCOUNT_NUMBER

美国银行账号,长度通常为 10 到 12 位数字。当只有最后 4 位数字存在时,Amazon Comprehend 也能识别银行账号。

BANK_ROUTING

美国银行账户的路由号码。这些号码的长度通常为九位数,但是当只有最后 4 位数字存在时,Amazon Comprehend 也可以识别路由号码。

PASSPORT_NUMBER

美国护照编号。护照编码由 6 到 9 个字母数字字符组成。

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

美国个人纳税人识别号 (ITIN) 是一个以“9”开头的 9 位数字,第 4 位数字是“7”或“8”。ITIN 可以在第 3 位和第 4 位数字之后使用空格或短划线进行格式化。

SSN

美国社会安全号码 (SSN) 是发放给美国公民、永久居民和临时工作居民的 9 位数号码。当只有最后 4 位数字存在时,Amazon Comprehend 也能识别社会安全号码。