Erkennung von PII-Entitäten - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkennung von PII-Entitäten

Sie können Amazon Comprehend verwenden, um PII-Entitäten in englischen oder spanischen Textdokumenten zu erkennen. Eine PII-Entität ist eine bestimmte Art von persönlich identifizierbaren Informationen (PII). Verwenden Sie die PII-Erkennung, um die PII-Entitäten zu lokalisieren oder die PII-Entitäten im Text zu schwärzen.

Suchen Sie nach PII-Entitäten

Um die PII-Entitäten in Ihrem Text zu finden, können Sie mithilfe von Echtzeitanalysen schnell ein einzelnes Dokument analysieren. Sie können auch einen asynchronen Batch-Job für eine Sammlung von Dokumenten starten.

Sie können die Konsole oder die API für die Echtzeitanalyse eines einzelnen Dokuments verwenden. Ihr Eingabetext kann bis zu 100 Kilobyte an UTF-8-kodierten Zeichen enthalten.

Sie können beispielsweise den folgenden Eingabetext einreichen, um die PII-Entitäten zu finden:

Hallo Paulo Santos. Der letzte Kontoauszug für Ihr Kreditkartenkonto 1111-0000-1111-0000 wurde an 123 Any Street, Seattle, WA 98109 gesendet.

Die Ausgabe enthält die Information, dass „Paul Santos“ den Typ hat, „1111-0000-1111-0000" den Typ hat und „123 Any StreetNAME, Seattle, WA 98109" den Typ hat. CREDIT_DEBIT_NUMBER ADDRESS

Amazon Comprehend gibt eine Liste der erkannten PII-Entitäten mit den folgenden Informationen für jede PII-Entität zurück:

  • Ein Wert, der die Wahrscheinlichkeit schätzt, dass es sich bei der erkannten Textspanne um den erkannten Entitätstyp handelt.

  • Der PII-Entitätstyp.

  • Die Position der PII-Entität im Dokument, angegeben als Zeichenversätze für den Anfang und das Ende der Entität.

Beispielsweise erzeugt der zuvor erwähnte Eingabetext die folgende Antwort:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

PII-Entitäten redigieren

Um die PII-Entitäten in Ihrem Text zu schwärzen, können Sie die Konsole oder die API verwenden, um einen asynchronen Batch-Job zu starten. Amazon Comprehend gibt eine Kopie des eingegebenen Textes mit Schwärzungen für jede PII-Entität zurück.

Sie können beispielsweise den folgenden Eingabetext einreichen, um die PII-Entitäten zu redigieren:

Hallo Paulo Santos. Der letzte Kontoauszug für Ihr Kreditkartenkonto 1111-0000-1111-0000 wurde an 123 Any Street, Seattle, WA 98109 gesendet.

Die Ausgabedatei enthält den folgenden Text:

Hallo ***** ******. Die letzte Abrechnung für Ihr Kreditkartenkonto ******************* wurde per Post an *** *** ******* ******** ** ***** gesendet.

Universelle PII-Entitätstypen

Einige PII-Entitätstypen sind universal (nicht spezifisch für einzelne Länder), wie E-Mail-Adressen und Kreditkartennummern. Amazon Comprehend erkennt die folgenden Typen von universellen PII-Entitäten:

ADDRESS

Eine physische Adresse, z. B. „100 Main Street, Anytown, USA“ oder „Suite #12, Building 123". Eine Adresse kann Informationen wie Straße, Gebäude, Standort, Stadt, Bundesland, Land, Bezirk, Postleitzahl, Bezirk und Nachbarschaft enthalten.

AGE

Das Alter einer Person, einschließlich Menge und Zeiteinheit. In der Phrase „Ich bin 40 Jahre alt“ erkennt Amazon Comprehend beispielsweise „40 Jahre“ als Alter an.

AWS_ACCESS_KEY

Eine eindeutige Kennung, die einem geheimen Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS Anfragen kryptografisch zu signieren.

AWS_SECRET_KEY

Eine eindeutige Kennung, die einem Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS Anfragen kryptografisch zu signieren.

CREDIT_DEBIT_CVV

Ein dreistelliger Kartenbestätigungscode (CVV), der auf Kredit- und Debitkarten von VISA und Discover vorhanden ist. MasterCard Bei Kredit- oder Debitkarten von American Express ist der CVV ein vierstelliger numerischer Code.

CREDIT_DEBIT_EXPIRATION

Das Ablaufdatum einer Kredit- oder Debitkarte. Diese Zahl ist normalerweise vierstellig und wird oft als Monat/Jahr oder MM/JJ formatiert. Amazon Comprehend erkennt Ablaufdaten wie den 21. Januar, den Januar 2021 und den Januar 2021.

CREDIT_DEBIT_NUMBER

Die Nummer einer Kredit- oder Debitkarte. Diese Zahlen können zwischen 13 und 16 Ziffern lang sein. Amazon Comprehend erkennt jedoch auch Kredit- oder Debitkartennummern, wenn nur die letzten vier Ziffern vorhanden sind.

DATE_TIME

Ein Datum kann ein Jahr, einen Monat, einen Tag, einen Wochentag oder eine Tageszeit enthalten. Amazon Comprehend erkennt beispielsweise „19. Januar 2020“ oder „11 Uhr“ als Daten. Amazon Comprehend erkennt Teildaten, Datumsbereiche und Datumsintervalle. Es erkennt auch Jahrzehnte wie „die 1990er“.

TREIBER_ID

Die Nummer, die einem Führerschein zugewiesen ist. Dabei handelt es sich um ein offizielles Dokument, das es einer Person ermöglicht, ein oder mehrere motorisierte Fahrzeuge auf einer öffentlichen Straße zu fahren. Eine Führerscheinnummer besteht aus alphanumerischen Zeichen.

EMAIL

Eine E-Mail-Adresse, z. B. marymajor@email.com.

INTERNATIONALE_BANKKONTONUMMER

Eine internationale Bankkontonummer hat in jedem Land spezifische Formate. Weitere Informationen finden Sie unter www.iban.com/structure.

IP_ADDRESS

Eine IPv4-Adresse, z. B. 198.51.100.0.

LICENSE_PLATE

Ein Nummernschild für ein Fahrzeug wird von dem Staat oder Land ausgestellt, in dem das Fahrzeug registriert ist. Das Format für Personenkraftwagen besteht in der Regel aus fünf bis acht Ziffern, die aus Großbuchstaben und Zahlen bestehen. Das Format variiert je nach Standort des ausstellenden Staates oder Landes.

MAC_ADRESS

Eine MAC-Adresse (Media Access Control) ist eine eindeutige Kennung, die einem Network Interface Controller (NIC) zugewiesen wird.

NAME

Der Name einer Person. Dieser Entitätstyp umfasst keine Titel wie Dr., Herr, Frau oder Fräulein. Amazon Comprehend wendet diesen Entitätstyp nicht auf Namen an, die Teil von Organisationen oder Adressen sind. Amazon Comprehend erkennt beispielsweise die „John Doe Organization“ als Organisation und „Jane Doe Street“ als Adresse an.

PASSWORD

Eine alphanumerische Zeichenfolge, die als Passwort verwendet wird, z. B. „*very20special #pass *“.

PHONE

Eine Telefonnummer. Dieser Entitätstyp umfasst auch Fax- und Pager-Nummern.

PIN

Eine vierstellige persönliche Identifikationsnummer (PIN), mit der Sie auf Ihr Bankkonto zugreifen können.

SWIFT_CODE

Ein SWIFT-Code ist ein Standardformat für den Bank Identifier Code (BIC), der zur Angabe einer bestimmten Bank oder Filiale verwendet wird. Banken verwenden diese Codes für Geldtransfers wie internationale Überweisungen.

SWIFT-Codes bestehen aus acht oder 11 Zeichen. Die 11-stelligen Codes beziehen sich auf bestimmte Filialen, während sich achtstellige Codes (oder 11-stellige Codes, die auf „XXX“ enden) auf den Hauptsitz oder die Hauptniederlassung beziehen.

URL

Eine Webadresse, z. B. www.example.com.

Die Datei „snowball-adapter.config“ enthält die Konfigurationseinstellungen für den Adapter.

Ein Benutzername, der ein Konto identifiziert, z. B. ein Anmeldename, ein Bildschirmname, ein Spitzname oder ein Nutzername.

FAHRZEUGIDENTIFIKATIONSNUMMER

Eine Fahrzeugidentifikationsnummer (VIN) identifiziert ein Fahrzeug eindeutig. Inhalt und Format der Fahrgestellnummer sind in der Spezifikation ISO 3779 definiert. Jedes Land hat spezifische Codes und Formate für VINs.

Länderspezifische PII-Entitätstypen

Einige PII-Entitätstypen sind länderspezifisch, z. B. Passnummern und andere von der Regierung ausgestellte Ausweisnummern. Amazon Comprehend erkennt die folgenden Typen von länderspezifischen PII-Entitäten:

CA_HEALTH_NUMBER

Eine kanadische Gesundheitsdienstnummer ist eine 10-stellige eindeutige Kennung, die für den Zugang zu Gesundheitsleistungen erforderlich ist.

CA_SOCIAL_INSURANCE_NUMBER

Eine kanadische Sozialversicherungsnummer (SIN) ist eine neunstellige eindeutige Kennung, die Einzelpersonen benötigen, um staatliche Programme und Leistungen in Anspruch zu nehmen.

Die SIN ist als drei Gruppen von drei Ziffern formatiert, z. B. 123-456-789. Eine SIN kann durch ein einfaches Prüfziffernverfahren, den so genannten Luhn-Algorithmus, validiert werden.

IN_AADHAAR

Ein indisches Aadhaar ist eine 12-stellige eindeutige Identifikationsnummer, die von der indischen Regierung an Einwohner Indiens vergeben wird. Das Aadhaar-Format hat nach der vierten und achten Ziffer ein Leerzeichen oder einen Bindestrich.

IN_NREGA

Eine Nummer nach dem Indian National Rural Employment Guarantee Act (NREGA) besteht aus zwei Buchstaben, gefolgt von 14 Zahlen.

IN_PERMANENT_ACCOUNT_NUMBER

Eine indische permanente Kontonummer ist eine 10-stellige eindeutige alphanumerische Nummer, die von der Einkommensteuerbehörde ausgestellt wird.

IN_VOTER_NUMBER

Ein indischer Wählerausweis besteht aus drei Buchstaben, gefolgt von sieben Zahlen.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

Eine Nummer des britischen National Health Service ist eine 10- bis 17-stellige Nummer, z. B. 485 777 3456. Das aktuelle System formatiert die 10-stellige Zahl mit Leerzeichen nach der dritten und sechsten Ziffer. Die letzte Ziffer ist eine Prüfsumme zur Fehlererkennung.

Das 17-stellige Zahlenformat enthält Leerzeichen nach der 10. und 13. Ziffer.

UK_NATIONAL_INSURANCE_NUMBER

Eine britische National Insurance Number (NINO) ermöglicht Einzelpersonen den Zugang zu Leistungen der nationalen Versicherung (Sozialversicherung). Sie wird auch für einige Zwecke im britischen Steuersystem verwendet.

Die Zahl ist neunstellig und beginnt mit zwei Buchstaben, gefolgt von sechs Zahlen und einem Buchstaben. Ein NINO kann mit einem Leerzeichen oder einem Gedankenstrich nach den beiden Buchstaben und nach der zweiten, vierten und sechsten Ziffer formatiert werden.

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

Eine Unique Taxpayer Reference (UTR) für Großbritannien ist eine 10-stellige Zahl, die einen Steuerzahler oder ein Unternehmen identifiziert.

BANKKONTONUMMER

Eine US-Bankkontonummer, die in der Regel 10 bis 12 Ziffern lang ist. Amazon Comprehend erkennt auch Bankkontonummern, wenn nur die letzten vier Ziffern vorhanden sind.

BANK_ROUTING

Eine US-Bankleitzahl. Diese sind normalerweise neun Ziffern lang, aber Amazon Comprehend erkennt auch Routing-Nummern, wenn nur die letzten vier Ziffern vorhanden sind.

REISEPASSNUMMER

Eine US-Passnummer. Die Passnummern bestehen aus sechs bis neun alphanumerischen Zeichen.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

Eine US-amerikanische Steueridentifikationsnummer (ITIN) ist eine neunstellige Zahl, die mit einer „9“ beginnt und eine „7“ oder „8“ als vierte Ziffer enthält. Eine ITIN kann mit einem Leerzeichen oder einem Gedankenstrich nach der dritten und vierten Ziffer formatiert werden.

SSN

Eine US-Sozialversicherungsnummer (SSN) ist eine neunstellige Zahl, die an US-Bürger, ständige Einwohner und vorübergehend erwerbstätige Einwohner vergeben wird. Amazon Comprehend erkennt auch Sozialversicherungsnummern, wenn nur die letzten vier Ziffern vorhanden sind.