PII 개체 감지 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

PII 개체 감지

Amazon Comprehend를 사용하여 영어 또는 스페인어 텍스트 문서에서 PII 항목을 탐지할 수 있습니다. PII 개체는 특정 유형의 개인 식별 정보(PII) 입니다. PII 감지를 사용하여 PII 개체를 찾거나 텍스트에서 PII 개체를 수정합니다.

PII 개체 찾기

텍스트에서 PII 개체를 찾으려면 실시간 분석을 사용하여 단일 문서를 빠르게 분석할 수 있습니다. 문서 모음에 대해 비동기 일괄 작업을 시작할 수도 있습니다.

콘솔 또는 API를 사용하여 단일 문서를 실시간으로 분석할 수 있습니다. 입력 텍스트에는 최대 100킬로바이트의 UTF-8 인코딩 문자가 포함될 수 있습니다.

예를 들어 다음 입력 텍스트를 제출하여 PII 개체를 찾을 수 있습니다.

Paulo Santos님, 안녕하세요? 귀하의 신용카드 계좌 1111-0000-1111-0000의 최신 명세서가 123 Any Street, Seattle, WA 98109로 우편 발송되었습니다.

출력물에는 “Paul Santos”라는 NAME유형, “1111-0000-1111-0000"라는 CREDIT_DEBIT_NUMBER유형 및 “123 Any Street, Seattle, WA 98109"는 ADDRESS 유형이라는 정보가 포함됩니다.

Amazon Comprehend는 감지된 PII 개체 리스트를 각 PII 개체에 대한 다음 정보와 함께 반환합니다.

  • 감지된 텍스트 범위가 감지된 개체 유형일 확률을 추정하는 점수.

  • PII 개체 유형.

  • 개체의 시작과 끝을 나타내는 문자 오프셋으로 지정되는 문서 내 PII 개체의 위치.

예를 들어, 앞서 언급한 입력 텍스트는 다음과 같은 응답을 생성합니다.

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

PII 개체 수정

텍스트의 PII 개체을 수정하려면 콘솔 또는 API를 사용하여 비동기 일괄 작업을 시작할 수 있습니다. Amazon Comprehend는 각 PII 개체에 대한 수정 사항이 포함된 입력 텍스트의 복사본을 반환합니다.

예를 들어 다음 입력 텍스트를 제출하여 PII 개체를 수정할 수 있습니다.

Paulo Santos님, 안녕하세요? 귀하의 신용카드 계좌 1111-0000-1111-0000의 최신 명세서가 123 Any Street, Seattle, WA 98109로 우편 발송되었습니다.

출력파일은 다음 텍스트를 포함합니다.

***** ******님, 안녕하세요? 귀하의 신용카드 계좌 *******************의 최신 명세서가 *** *** ******* ******** ** *****로 우편 발송되었습니다.

PII 범용 개체 유형

이메일 주소 및 신용카드 번호와 같은 일부 PII 개체 유형은 범용입니다(개별 국가에 국한되지 않음). Amazon Comprehend는 다음과 같은 유형의 범용 PII 개체를 감지합니다.

ADDRESS

실제 주소(예: “100 Main Street, Anytown, USA" 또는 "Suite #12, Building 123") 주소에는 거리, 건물, 위치, 도시, 주, 국가, 카운티, 우편번호, 구역, 타운 등의 정보가 포함될 수 있습니다.

AGE

개인의 연령(수량 및 시간 단위 포함). 예를 들어, Amazon Comprehend는 “저는 40세입니다”라는 문구에서 “40세”를 연령으로 인식합니다.

AWS_ACCESS_KEY

보안 액세스 키와 관련된 고유 식별자입니다. 액세스 키 ID와 보안 액세스 키를 사용하여 프로그래밍 AWS 요청에 암호적으로 서명할 수 있습니다.

AWS_SECRET_KEY

액세스 키와 관련된 고유 식별자. 액세스 키 ID와 보안 액세스 키를 사용하여 프로그래밍 AWS 요청에 암호적으로 서명할 수 있습니다.

CREDIT_DEBIT_CVV

VISA와 Discover 신용카드 및 직불카드에 있는 3자리 카드 인증 코드 (CVV). MasterCard 아메리칸 익스프레스 신용카드나 직불카드의 경우 CVV는 4자리 숫자 코드입니다.

CREDIT_DEBIT_EXPIRY

신용카드 또는 직불카드 만료 날짜 이 숫자는 보통 네 자리 숫자이며, 월/년 또는 MM/YY 형식으로 지정되는 경우가 많습니다. Amazon Comprehend는 01/21, 01/2021, 및 Jan 2021과 같은 만료 날짜를 인식합니다.

CREDIT_DEBIT_NUMBER

신용카드 또는 직불카드 번호 이 번호의 길이는 13~16자리까지 다양합니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 신용카드 또는 직불카드 번호를 인식합니다.

DATE_TIME

날짜에는 년, 월, 일, 요일 또는 시각이 포함될 수 있습니다. 예를 들어, Amazon Comprehend는 “2020년 1월 19일” 또는 “오전 11시”를 날짜로 인식합니다. Amazon Comprehend는 일부 날짜, 날짜 범위 및 날짜 간격을 인식합니다. 또한 “1990년대”와 같은 십년 단위를 인식할 것입니다.

DRIVER_ID

개인이 공공 도로에서 한 대 이상의 자동차를 운전할 수 있도록 허가하는 공식 문서인 운전면허증에 부여되는 번호입니다. 운전면허증 번호는 영숫자로 구성됩니다.

EMAIL

이메일 주소(예: marymajor@email.com).

INTERNATIONAL_BANK_ACCOUNT_NUMBER

국제 은행 계좌 번호의 형식은 국가별로 다릅니다. www.iban.com/structure를 참조하세요.

IP_ADDRESS

IPv4 주소(예: 198.51.100.0)

차량_번호판

차량 번호판은 차량이 등록된 주 또는 국가에서 발급합니다. 승용차의 형식은 일반적으로 대문자와 숫자로 구성된 5~8자리 숫자입니다. 형식은 발급한 주 또는 국가의 위치에 따라 다릅니다.

MAC_ADDRESS

미디어 액세스 제어(MAC) 주소는 네트워크 인터페이스 컨트롤러(NIC)에 할당되는 고유 식별자입니다.

NAME

개인의 이름. 이 개체 유형에는 Dr., Mr., Mrs., Miss 등의 호칭은 포함되지 않습니다. Amazon Comprehend는 조직 또는 주소의 일부인 이름에는 이 개체 유형을 적용하지 않습니다. 예를 들어 Amazon Comprehend는 “아무개 조직(John Doe Organization)”을 하나의 조직으로 인정하고 “아무개 도로(Jane Doe Street)”를 주소로 인식합니다.

비밀번호

비밀번호로 사용되는 영숫자 문자열(예: “*very20special #pass *”).

PHONE

전화번호 이 개체 유형에는 팩스 및 호출기 번호도 포함됩니다.

PIN

은행 계좌에 액세스할 수 있는 4자리 개인 식별 번호(PIN).

SWIFT_CODE

SWIFT 코드는 특정 은행 또는 지점을 지정하는 데 사용되는 은행 식별 코드(BIC) 의 표준 형식입니다. 은행은 이 코드를 국제 전신 송금과 같은 송금에 사용합니다.

SWIFT 코드는 8자 또는 11자로 구성됩니다. 11자리 코드는 특정 지점을 나타내며, 8자리 코드(또는 'XXX'로 끝나는 11자리 코드)는 본점 또는 주요 사무소를 나타냅니다.

URL

웹 주소(예: www.example.com)

USERNAME

계정을 식별하는 사용자 이름(예: 로그인 이름, 화면 이름, 닉네임 또는 핸들).

VEHICLE_IDENTIFICATION_NUMBER

차량 식별 번호(VIN)는 차량을 고유하게 식별합니다. VIN 콘텐츠와 형식은 ISO 3779 사양에 정의되어 있습니다. 각 국가별로 VIN에 대한 특정 코드와 형식을 가지고 있습니다.

국가별 PII 개체 유형

여권 번호 및 기타 정부 발행 ID 번호 등 일부 PII 개체 유형은 국가별로 다릅니다. Amazon Comprehend는 다음과 같은 유형의 국가별 PII 개체를 감지합니다.

CA_HEALTH_NUMBER

캐나다 보건 서비스 번호는 개인이 의료 혜택을 받는 데 필요한 10자리 고유 식별자입니다.

CA_SOCIAL_INSURANCE_NUMBER

캐나다 사회보험 번호(SIN)는 개인이 정부 프로그램 및 혜택을 이용할 때 필요한 9자리 고유 식별자입니다.

SIN은 세 자리 숫자로 구성된 세 개의 그룹 형식으로 되어 있습니다(예: 123-456-789). SIN은 Luhn 알고리즘이라는 간단한 숫자 확인 프로세스를 통해 검증할 수 있습니다.

IN_AADHAAR

인도 아드하르는 인도 정부가 인도 거주자에게 발급하는 12자리 고유 식별 번호입니다. Aadhaar 형식에서는 네 번째와 여덟 번째 자리 뒤에 공백이나 하이픈이 있습니다.

IN_NREGA

인도 국가 농촌 고용 보장법(NREGA) 번호는 문자 2개 + 숫자 14개로 구성됩니다.

IN_PERMANENT_ACCOUNT_NUMBER

인도 영구 계좌 번호는 소득세 부서에서 발급하는 10자리 고유 영숫자 번호입니다.

IN_VOTER_NUMBER

인도 유권자 신분증은 3개의 문자와 그에 이은 7개의 숫자로 구성됩니다.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

영국 국민 보건 서비스 번호는 10~17자리 숫자로, 예를 들어 485 777 3456입니다. 현재 시스템에서는 세 번째와 여섯 번째 자리 뒤에 공백을 넣어 10자리 숫자 형식을 지정합니다. 마지막 숫자는 오류 감지 체크섬입니다.

17자리 숫자 형식에서는 10자리와 13자리 뒤에 공백이 있습니다.

UK_NATIONAL_INSURANCE_NUMBER

영국 국민보험번호(NINO)는 개인에게 국민보험(사회보장) 혜택을 제공합니다. 또한 영국 조세 시스템에서도 일부 용도로 사용됩니다.

이 번호는 9자리 길이이며 문자 2개로 시작하고 그 뒤에 숫자 6개와 문자 1개가 옵니다. NINO는 문자 2개 뒤와 두 번째, 네 번째, 여섯 번째 숫자 뒤에 공백이나 대시를 넣어 형식을 지정할 수 있습니다.

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

영국 고유 납세자 참조(UTR)는 납세자 또는 사업체를 식별하는 10자리 숫자입니다.

BANK_ACCOUNT_NUMBER

일반적으로 10~12자리 길이의 미국 은행 계좌 번호입니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 신용카드 또는 직불카드 번호를 인식합니다.

BANK_ROUTING

미국 은행 계좌 라우팅 번호 일반적으로 길이는 9자리이지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 라우팅 번호를 인식합니다.

PASSPORT_NUMBER

미국 여권 번호 여권 번호의 범위는 6~9자의 영숫자입니다.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

미국 개인 납세자 식별 번호(ITIN)는 “9"로 시작하고 네 번째 자리로 “7" 또는 “8"이 포함된 9자리 숫자입니다. ITIN은 세 번째 및 네 번째 숫자 뒤에 공백이나 대시를 사용하여 형식을 지정할 수 있습니다.

SSN

미국 사회보장번호(SSN)는 미국 시민권자, 영주권자 및 임시 근로 거주자에게 발급되는 9자리 숫자입니다. 하지만 Amazon Comprehend는 마지막 4자리만 있는 경우에도 은행 계좌 번호 번호를 인식합니다.