PII エンティティの検出 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PII エンティティの検出

Amazon Comprehend を使用して、英語またはスペイン語のテキストドキュメント内の PII エンティティを検出できます。PII エンティティは、特定の種類の個人を特定できる情報 (PII) です。PII 検出機能を使用して PII エンティティを検索したり、テキスト内の PII エンティティを編集したりします。

PII エンティティを検索します。

テキスト内の PII エンティティを見つけるには、リアルタイム分析を使用して 1 つの文書をすばやく分析できます。また、複数の文書に対して非同期バッチジョブを開始することもできます。

コンソールまたは API を使用して、1 つの文書をリアルタイムで分析できます。入力テキストには、UTF-8 エンコード文字で 100 バイトまで含めることができます。

たとえば、以下の入力テキストを送信して PII エンティティを検索できます。

パウロ・サントス様 クレジットカード口座1111-0000-1111-0000の最新の明細書を 123 Any Street, Seattle, WA 98109 宛に郵送いたしました。

出力には「Paul Santos」がタイプNAME、「1111-0000-1111-0000」がタイプCREDIT_DEBIT_NUMBER、「123 Any Street, Seattle, WA 98109」がタイプADDRESSという情報が含まれています。

Amazon Comprehend は、検出された PII エンティティのリストと、各 PII エンティティについて以下の情報を返します。

  • 検出されたテキストスパンが検出されたエンティティタイプである確率を推定するスコア。

  • PII エンティティタイプ 。

  • 文書内の PII エンティティの位置。エンティティの開始と終了の文字オフセットとして指定します。

例えば、前述の入力テキストでは次のような応答が返されます。

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

PII エンティティの編集

テキスト内の PII エンティティを編集するには、コンソールまたは API を使用して非同期バッチジョブを開始します。Amazon Comprehend は、各 PII エンティティの入力テキストのコピーに編集を加えたものを返します。

たとえば、以下の入力テキストを送信して PII エンティティを編集できます。

パウロ・サントス様 クレジットカード口座1111-0000-1111-0000の最新の明細書を 123 Any Street, Seattle, WA 98109 宛に郵送いたしました。

出力には以下のテキストが含まれています。

***** ******様 クレジットカード口座*************** が *** ******* ******* 宛に郵送されました。

PII ユニバーサルエンティティタイプ

メールアドレスやクレジットカード番号など、一部の PII エンティティタイプは汎用です(個々の国に固有ではない)。Amazon Comprehend は、以下のタイプのユニバーサル PII エンティティを検出します。

ADDRESS

「100 Main Street, Anytown, USA」や「Suite #12, Building 123」などの住所。住所には、通り、建物、場所、市、州、国、郡、郵便番号、地区、近隣などの情報を含めることができます。

AGE

個人の年齢 (時間の数値や単位を含む)。たとえば、「私は40歳です」というフレーズでは、Amazon Comprehendは「40歳」を年齢として認識します。

AWS_ACCESS_KEY

シークレットアクセスキーに関連付けられた固有の識別子。アクセスキー ID とシークレットアクセスキーを使用して、 AWS プログラムによるリクエストに暗号で署名します。

AWS_SECRET_KEY

アクセスキーに関連付けられた一意の識別子。アクセスキー ID とシークレットアクセスキーを使用して、 AWS プログラムによるリクエストに暗号で署名します。

CREDIT_DEBIT_CVV

VISA、、Discover のクレジットカードとデビットカードに記載されている 3 桁のカード確認コード (CVV)。 MasterCardアメリカンエキスプレスのクレジットカードやデビットカードの場合、CVV は 4 桁の数字コードです。

CREDIT_DEBIT_EXPIRY

クレジットカードまたはデビットカードの有効期限日 この数字は通常 4 桁で、多くの場合、月/年または MM/YY という形式になっています。Amazon Comprehend では、01/21、01/2021、Jan 2021などの有効期限を認識します。

CREDIT_DEBIT_NUMBER

クレジットカードまたはデビットカードの番号。これらの番号は 13 桁から 16 桁までさまざまです。ただし、Amazon Comprehend は、最後の 4 桁しかない場合でもクレジットカード番号またはデビットカード番号を認識します。

DATE_TIME

日付には、年、月、日、曜日、または時刻を含めることができます。たとえば、Amazon Comprehend は「January 19, 2020」や「11 am」を日付として認識します。Amazon Comprehend は、日付の一部、日付範囲、日付間隔を認識します。また「the 1990s(1990 年代)」などの 10 年間も認識されます。

DRIVER_ID

運転免許証に割り当てられる番号。運転免許証は、個人が公道で1台または複数の自動車を運転することを許可する公式文書です。運転免許証番号は英数字です。

EMAIL

marymajor@email.com などの電子メールアドレス。

INTERNATIONAL_BANK_ACCOUNT_NUMBER

国際銀行口座番号の形式は国によって異なります。www.iban.com/structure を参照してください。

IP_ADDRESS

198.51.100.0 などの IPv4 アドレス。

LICENSE_PLATE

車両のナンバープレートは、車両が登録されている州または国によって発行されます。乗用車の形式は通常 5 ~ 8 桁で、大文字と数字で構成されます。形式は発行国または国の所在地によって異なります。

MAC_ADDRESS

メディアアクセスコントロール (MAC) アドレスは、ネットワークインターフェースコントローラー (NIC) に割り当てられる固有の識別子です。

NAME

個人の氏名。このエンティティタイプには、Dr.、Mr.、Miss などの敬称は含まれません。Amazon Comprehend は、組織または住所の一部である名前にはこのエンティティタイプを適用しません。たとえば、Amazon Comprehend は「John Doe Organization」を組織として認識し、「Jane Doe Street」を住所として認識します。

PASSWORD

「*very20special#pass*」のように、パスワードとして使用される英数字の文字列。

PHONE

電話番号 このエンティティタイプには、ファックス番号とポケットベル番号も含まれます。

PIN

銀行口座にアクセスするための 4 桁の個人識別番号 (PIN)。

SWIFT_CODE

SWIFT コードは、特定の銀行または支店を指定するために使用する銀行識別コード (BIC) の標準形式です。銀行は、これらのコードを国際電信送金などの送金に使用します。

SWIFT コードは 8 文字または 11 文字で構成されています。11 桁のコードは特定の支店を指し、8 桁のコード (または「XXX」で終わる 11 桁のコード) は本社または本店を表します。

URL

www.example.com などのウェブアドレス。

USERNAME

ログイン名、スクリーンネーム、ニックネーム、ハンドル名など、アカウントを識別するユーザー名。

VEHICLE_IDENTIFICATION_NUMBER

車両識別番号 (VIN) は、車両を一意に識別します。VIN の内容と形式は ISO 3779 仕様で定義されています。VIN のコードと形式は国ごとに異なります。

国固有の PII エンティティタイプ

パスポート番号や政府発行のその他のID番号など、一部のPIIエンティティタイプは国固有のものです。Amazon Comprehend は、以下の国固有の PII エンティティタイプを検出します。

CA_HEALTH_NUMBER

カナダの医療保健番号で、個人が医療給付を受けるために必要な 10 桁の固有識別番号です。

CA_SOCIAL_INSURANCE_NUMBER

カナダの社会保険番号 (SIN) は 9 桁の固有の識別子で、個人が政府のプログラムや特典を利用する際に必要です。

SIN の形式は、「123-456-789」のように 3 桁の 3 グループになっています。SIN は Luhn アルゴリズムと呼ばれる単純な数字チェックプロセスによって検証できます。

IN_AADHAAR

インドのAadhaarは、インド政府がインドの居住者に発行する12桁の固有の識別番号です。Aadhaar 形式では、4 桁目と 8 桁目の後にスペースまたはハイフンが付きます。

IN_NREGA

インドの全国農村雇用保証法(NREGA)の番号は、2文字とそれに続く14桁の数字で構成されています。

IN_PERMANENT_ACCOUNT_NUMBER

インドの永久口座番号は、所得税局が発行する一意の10桁英数字です。

IN_VOTER_NUMBER

インドの有権者IDは、3文字とそれに続く7つの数字で構成されています。

UK_NATIONAL_HEALTH_SERVICE_NUMBER

英国の国民医療保健番号は、485 777 3456などの10〜17桁の番号です。現行システムの形式は、10 桁の番号を 3 桁目と 6 桁目の後にスペースが入ります。最後の桁はエラー検出チェックサムです。

17 桁の数字形式では、10 桁目と 13 桁目の後にスペースがあります。

UK_NATIONAL_INSURANCE_NUMBER

英国の国民保険番号(NINO)により、個人は国民保険(社会保障)の給付を受けることができます。また、英国の税制ではいくつかの目的にも使用されています。

数字は 9 桁で、2 文字で始まり、6 つの数字と 1 つの文字が続きます。NINO の形式は、2 文字の後と 2 桁、4 桁、6 桁目の後にスペースまたはダッシュを入れます。

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

英国固有納税者番号 (UTR) は、納税者または事業者を識別する 10 桁の番号です。

BANK_ACCOUNT_NUMBER

米国の銀行口座番号。通常は 10 ~ 12 桁です。Amazon Comprehend は、最後の 4 桁しかない場合でも銀行口座番号を認識します。

BANK_ROUTING

米国の銀行口座の支店コード。通常 9 桁の長さですが、Amazon Comprehend は最後の 4 桁しかない場合も支店コードを認識します。

PASSPORT_NUMBER

米国パスポート番号。パスポート番号は 6 文字から 9 文字の英数字です。

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

米国の個人納税者識別番号 (ITIN) は、「9」で始まり、4 桁目に「7」または「8」が含まれる 9 桁の番号です。ITIN の形式は、3 桁目と 4 桁目の後にスペースまたはダッシュを付けます。

SSN

米国社会保障番号 (SSN) は、米国市民、永住者、および臨時就労者に発行される 9 桁の番号です。Amazon Comprehend は、最後の 4 桁しかない場合でも社会保障番号を認識します。