偵測 PII 實體 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

偵測 PII 實體

您可以使用 Amazon Comprehend 來偵測英文或西班牙文文字文件中的 PII 實體。PII 實體是個人識別資訊 (PII) 的一種特定類型。使用 PII 偵測來尋找 PII 實體或編輯文字中的 PII 實體。

尋找 PII 實體

若要在文字中尋找 PII 實體,您可以使用即時分析快速分析單一文件。您也可以在文件集合上啟動非同步批次工作。

您可以使用控制台或 API 對單個文檔進行實時分析。您的輸入文字最多可包含 100 KB 的 UTF-8 編碼字元。

例如,您可以提交下列輸入文字來尋找 PII 實體:

你好保羅·桑托斯 您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。

輸出包括「保羅·桑托斯」具有類型的信息NAME,「1111-0000-1111-0000」具有該類型,並且「123 任何街道,西雅圖CREDIT_DEBIT_NUMBER,華盛頓州 98109」具有類型。ADDRESS

Amazon Comprehend 會傳回偵測到的 PII 實體清單,其中包含每個 PII 實體的下列資訊:

  • 估計偵測到的文字範圍是偵測到的圖元類型之可能性的分數。

  • PII 實體類型。

  • PII 實體在文件中的位置,指定為實體開頭和結尾的字元位移。

例如,先前提到的輸入文字會產生下列回應:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

編輯 PII 實體

若要編輯文字中的 PII 實體,您可以使用主控台或 API 啟動非同步批次工作。Amazon Comprehend 會傳回輸入文字的副本,其中包含每個 PII 實體的編輯。

例如,您可以提交下列輸入文字來編輯 PII 實體:

你好保羅·桑托斯 您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。

輸出檔案包含下列文字:

你好 ***** ******。您信用卡戶口最新的月結單 *********************** 已郵寄至 *** *********************。

PII 通用實體類型

某些 PII 實體類型是通用的 (不特定於個別國家/地區),例如電子郵件地址和信用卡號碼。亞馬遜偵測到下列類型的通用 PII 實體:

ADDRESS

物理地址,例如「美國任何城鎮 100 大街」或「套房 #12,123 號樓」。地址可以包括街道、建築物、位置、城市、州、國家、縣、郵遞區號、分區和鄰近地區等資訊。

AGE

個人的年齡,包括數量和時間單位。例如,在「我 40 歲」這句話中,Amazon Comprehend 承認「40 歲」是一個年齡。

AWS_ACCESS_KEY

與秘密存取金鑰相關聯的唯一識別碼;您可以使用存取金鑰 ID 和秘密存取金鑰,以加密方式簽署程式設計 AWS 要求。

AWS_SECRET_KEY

與存取金鑰相關聯的唯一識別碼。您可以使用存取金鑰 ID 和秘密存取金鑰,以密碼方式簽署程式設計 AWS 要求。

信貸借記

VISA 上存在的三位數卡驗證碼(CVV) MasterCard,以及發現信用卡和借記卡。對於美國運通信用卡或借記卡,CVV 是一個四位數的數字代碼。

信貸借記到期

信用卡或簽帳卡到期日 此數字通常為四位數,通常格式為月/年或 MM/YY。Amazon Comprehend 到期日期,例如 2021 年 1 月 21 日,1 月和 2021 年 1 月。

借方信用卡號

信用卡或簽帳卡號碼。這些數字的長度可以從 13 到 16 位數不等。不過,當只有最後四位數字出現時,Amazon Comprehend 也會辨識信用卡或簽帳金融卡號碼。

日期時間

日期可以包括年、月、日、星期幾或一天中的時間。例如,Amazon Comprehend 確認「2020 年 1 月 19 日」或「上午 11 點」作為日期。Amazon Comprehend 將識別部分日期、日期範圍和日期間隔。它還將承認數十年,例如「1990 年代」。

驅動程式識別碼

分配給駕駛執照的號碼,這是一份正式文件,允許個人在公共道路上操作一輛或多輛機動車輛。駕照號碼由英數字元組成。

EMAIL

電子郵件地址,例如 marymajor@email.com。

國際銀行帳戶號碼

國際銀行帳戶號碼在每個國家/地區都有特定的格式。請參閱伊班網站結構。

IP_ADDRESS

一個 IPv4 位址,例如

牌照

車輛的車牌是由車輛註冊的州或國家簽發的。乘用車的格式通常為五到八位數字,由大寫字母和數字組成。格式根據發行州或國家的位置而異。

MAC_ADDRESS

媒體存取控制 (MAC) 位址是指派給網路介面控制器 (NIC) 的唯一識別碼。

NAME

個人的姓名。此實體類型不包括標題,例如博士、先生、太太或小姐。Amazon Comprehend 不會將此實體類型套用到屬於組織或地址的名稱。例如,Amazon Comprehend 將「約翰·多伊組織」識別為一個組織,並將「李四街」識別為地址。

PASSWORD

用作密碼的英數字串,例如「*very20 特殊 #pass *」。

PHONE

電話號碼。此實體類型還包括傳真和呼叫器號碼。

針腳

一個四位數的個人識別號碼(PIN),您可以使用它來訪問您的銀行帳戶。

迅捷代碼

SWIFT 代碼是銀行識別碼(BIC)的標準格式,用於指定特定的銀行或分行。銀行使用這些代碼進行匯款,例如國際電匯。

SWIFT 代碼由八個或 11 個字符組成。11 位數代碼是指特定分支機構,而 8 位數代碼(或以「XXX」結尾的 11 位數代碼)則指總部或主要辦公室。

URL

一個網址,例如:例如:

USERNAME

識別帳戶的使用者名稱,例如登入名稱、螢幕名稱、暱稱或帳號。

車輛識別號碼

車輛識別號碼 (VIN) 可唯一識別車輛。VIN 含量和格式在 ISO 3779 規範中定義。每個國家/地區都有 VIN 的特定代碼和格式。

特定國家的 PII 實體類型

某些 PII 實體類型是國家特定的,例如護照號碼和其他政府核發的身份證號碼。Amazon Comprehend 會偵測到下列國家/地區特定 PII 實體類型:

加健康號

加拿大 Health 服務號碼是一個 10 位數的唯一識別碼,個人需要獲得醫療保健福利。

社會保險號碼

加拿大社會保險號碼 (SIN) 是九位數的唯一識別碼,個人需要使用政府計劃和福利。

該罪被格式化為三組三個數字,如 123-456-789。可以通過稱為 Luhn 算法的簡單檢查數字過程來驗證 SIN。

IN_ 阿德哈爾

印度阿德哈爾(Aadhaar)是印度政府向印度居民發出的 12 位唯一識別號碼。Aadhaar 格式的第四個和第八位數字後面有一個空格或連字符。

因雷加

印度全國農村就業保證法(NREGA)編號由兩個字母組成,後跟 14 個數字。

無永久帳號 (_)

印度永久帳戶號碼是由所得稅部門核發的 10 位數字唯一的字母數字編號。

投票人數 (_)

印度選民身份證由三個字母組成,後跟七個數字。

UK_NATIONAL_HEALTH_SERVICE_NUMBER

英國國民 Health 服務號碼是一個 10-17 位數字的數字,例如:485 777 3456。目前的系統會將 10 位數字格式化,並在第三位和第六位數字之後加上空格。最後一個數字是偵測錯誤的總和檢查碼。

17 位數字格式在第 10 位和 13 位數字之後有空格。

UK_NATIONAL_INSURANCE_NUMBER

英國國民保險號碼(NINO)為個人提供國民保險(社會安全)福利的機會。它也用於英國稅收制度的某些目的。

數字長度為九位數,以兩個字母開頭,後跟六個數字和一個字母。NINO 可以在兩個字母之後以及第二個,第四和第六位數字之後使用空格或破折號進行格式化。

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

英國唯一納稅人參考(UTR)是一個 10 位數字,用於識別納稅人或企業。

銀行帳戶號碼

美國銀行帳戶號碼,通常長度為 10 至 12 位數字。當只有最後四個數字出現時,Amazon Comprehend 也會識別銀行帳戶號碼。

銀行路由

美國銀行帳戶的分行代碼。這些通常是九位數的長度,但 Amazon Comprehend 也會在只有最後四個數字出現時識別路由號碼。

護照號碼

美國護照號碼。護照號碼範圍為六至九個英數字元。

使用個人稅務識別號碼

美國個人納稅識別號碼 (ITIN) 是一個九位數字,以「9」開頭,並以「7」或「8」作為第四位數字。個人納稅識別號碼可以在第三位和第四位數字之後使用空格或破折號進行格式化。

SSN

美國社會安全號碼 (SSN) 是發給美國公民、永久居民和臨時工作居民的九位數字。當只有最後四位數字出現時,Amazon Comprehend 也會辨識社會安全號碼。