Erkennen und Verarbeiten von sensiblen Daten

Fokusmodus

Erkennen und Verarbeiten von sensiblen Daten - AWS Glue

Auswahl der Scan-Methode der Daten Auswählen der zu erkennenden PII-Entitäten Angeben der Erkennungsempfindlichkeit Auswahl, was mit identifizierten PII-Daten zu tun ist Hinzufügen detaillierter Aktionsüberschreibungen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die Detect PII-Transformation identifiziert persönlich identifizierbare Informationen (PII) in Ihrer Datenquelle. Sie wählen die PII-Entität aus, um zu identifizieren, wie die Daten gescannt werden sollen und was mit der PII-Entität zu tun ist, die durch die Detect PII-Transformation identifiziert wurde.

Mit der Detect PII-Transformation lassen sich Entitäten erkennen, maskieren oder entfernen, die von Ihnen oder AWS definiert werden. Dies steigert die Compliance und senkt Haftungsrisiken. Beispielsweise möchten Sie möglicherweise sicherstellen, dass Ihre Daten keine personenbezogenen Daten enthalten, die gelesen werden können, und Sie möchten Sozialversicherungsnummern mit einer festen Zeichenfolge (z. B. xxx-xx-xxxx), Telefonnummern oder Adressen maskieren.

Um mit sensiblen Daten außerhalb von zu arbeiten AWS Glue Studio, siehe Erkennung sensibler Daten außerhalb von AWS Glue Studio verwenden

Themen

Auswahl der Scan-Methode der Daten
Auswählen der zu erkennenden PII-Entitäten
Angeben der Erkennungsempfindlichkeit
Auswahl, was mit identifizierten PII-Daten zu tun ist
Hinzufügen detaillierter Aktionsüberschreibungen

Auswahl der Scan-Methode der Daten

Wenn Sie Ihren Datensatz nach sensiblen Daten wie persönlich identifizierbaren Informationen (PII) durchsuchen, haben Sie die Wahl, PII in jeder Zeile zu erkennen oder die Spalten zu erkennen, die PII-Daten enthalten.

Der Screenshot zeigt die Optionen in der Detect PII-Transformation, wenn das Erkennen von Feldern, die PII in der Datenquelle enthalten, ausgewählt wird.

Wenn Sie Detect PII in each cell (PII in jeder Zelle erkennen) wählen, entscheiden Sie sich für das Scannen aller Zeilen in der Datenquelle. Dies ist ein umfassender Scan, um sicherzustellen, dass PII-Entitäten identifiziert werden.

Wenn Sie Detect fields containing PII (Felder mit PII erkennen) wählen, entscheiden Sie sich für das Scannen von Stichproben von Reihen auf PII-Entitäten. Dies ist eine Möglichkeit, Kosten und Ressourcen unten zu halten und gleichzeitig die Felder zu identifizieren, in denen PII-Entitäten gefunden werden.

Wenn Sie sich dafür entscheiden, Felder zu erkennen, die PII enthalten, können Sie Kosten reduzieren und Leistung durch die Anwendung von Stichprobenverfahren auf eine Teilmenge von Zeilen verbessern. Wenn Sie diese Option auswählen, können Sie zusätzliche Optionen angeben:

Sample portion (Stichproben-Teilmenge): Auf diese Weise können Sie den Prozentsatz der Zeile für die Stichprobe angeben. Wenn Sie beispielsweise „50“ eingeben, geben Sie an, dass Sie 50 Prozent der gescannten Zeilen für die PII-Entität wünschen.
Detection threshold (Schwellenwert der Erkennung): Auf diese Weise können Sie den Prozentsatz der Zeilen angeben, welche die PII-Entität enthalten, damit die gesamte Spalte als PII-Entität identifiziert wird. Wenn Sie beispielsweise „10“ eingeben, geben Sie an, dass die Nummer der PII-Entität, US Phone, in den gescannten Zeilen mindestens 10 Prozent betragen muss, damit das Feld als PII-Entität, US Phone, identifiziert wird. Wenn der Prozentsatz der Zeilen, welche die PII-Entität enthalten, weniger als 10 Prozent beträgt, wird dieses Feld nicht als PII-Entität, US Phone, bezeichnet.

Auswählen der zu erkennenden PII-Entitäten

Wenn Sie Detect PII in each cell (PII in jeder Zelle erkennen) wählen, haben Sie drei Optionen:

Alle verfügbaren PII-Muster — dazu gehören auch AWS Entitäten.
Kategorien auswählen – Wenn Sie Kategorien auswählen, enthalten PII-Muster automatisch Muster in den von Ihnen ausgewählten Kategorien.
„Select specific patterns“ (Bestimmte Muster auswählen) – Nur die ausgewählten Muster werden erkannt.

Eine vollständige Liste der verwalteten vertraulichen Datentypen finden Sie unter Verwaltete Datentypen.

Auswählen aus allen verfügbaren PII-Mustern

Wenn Sie Alle verfügbaren PII-Muster wählen, wählen Sie Entitäten aus, die von vordefiniert sind. AWS Sie können eine, mehrere oder alle Entitäten auswählen.

Der Screenshot zeigt die Optionen in der Liste der vordefinierten AWS Entitäten.

Kategorien auswählen

Wenn Sie Select categories (Kategorien auswählen) zum Erkennen von PII-Mustern ausgewählt haben, können Sie aus den Optionen im Dropdown-Menü auswählen. Beachten Sie, dass einige Entitäten mehreren Kategorien angehören können. Zum Beispiel fällt die Entität Person's name (Name der Person) in die Kategorien Universal (Universell) und HIPAA.

„Universal“ (Universell), z. B. „Email“ (E-Mail), „Credit Card“ (Kreditkarte)
HIPAA (Beispiele: US-Führerschein, Healthcare Common Procedure Coding System (HCPCS)-Code)
„Networking“ (Netzwerk), z. B. „IP-Address“ (IP-Adresse), „MAC-Address“ (MAC-Adresse)
Argentinien
Australien
Österreich
Belgien
Bosnien
Bulgarien
Kanada
Chile
Kolumbien
Kroatien
Zypern
Tschechien
Dänemark
Estland
Finnland
Frankreich
Deutschland
Griechenland
Ungarn
Irland
Korea
Japan
Mexiko
Niederlande
Neuseeland
Norwegen
Portugal
Rumänien
Singapur
Slowakei
Slowenien
Spanien
Schweden
Schweiz
Türkei
Ukraine
Vereinigte Staaten
Großbritannien und Nordirland
Venezuela

Bestimmte Muster auswählen

Wenn Sie Select specific patterns (Bestimmte Muster auswählen) zum Erkennen von PII-Mustern verwenden, können Sie eine Liste von bereits erstellten Mustern durchsuchen oder ein neues Muster zur Erkennung von Entitäten erstellen.

In den folgenden Schritten wird beschrieben, wie Sie ein neues benutzerdefiniertes Muster zum Erkennen sensibler Daten erstellen. Sie erstellen das benutzerdefinierte Muster, indem Sie einen Namen für das benutzerdefinierte Muster eingeben, einen regulären Ausdruck hinzufügen und optional Kontextwörter definieren.

Um ein neues Muster zu erstellen, klicken Sie auf Create new (Neues erstellen).
Geben Sie auf der Seite „Create detection entity“ (Entität zur Erkennung erstellen) den Entitätsnamen und einen regulären Ausdruck ein. Der reguläre Ausdruck (Regex) ist was AWS Glue wird verwendet, um Entitäten abzugleichen.
Klicken Sie auf Validate (Validieren). Wenn die Validierung erfolgreich ist, wird eine Bestätigungsmeldung angezeigt, die besagt, dass die Zeichenfolge ein gültiger regulärer Ausdruck ist. Wenn die Validierung nicht erfolgreich ist, wird eine Meldung angezeigt, die besagt, dass die Zeichenfolge nicht der richtigen Formatierung und den akzeptierten Zeichenliteralen, Operatoren oder Konstrukten entspricht.
Sie können zusätzlich zum regulären Ausdruck Kontextwörter hinzufügen. Kontextwörter können die Wahrscheinlichkeit einer Übereinstimmung erhöhen. Sie können in Fällen nützlich sein, in denen Feldnamen die Entität nicht beschreiben. Beispielsweise können US-Sozialversicherungsnummern (Social Security Numbers) „SSN“ oder „SS“ genannt werden. Das Hinzufügen dieser Kontextwörter kann helfen, die Entität abzugleichen.
Klicken Sie auf Create (Erstellen), um eine Entität zur Erkennung zu erstellen. Alle erstellten Entitäten sind sichtbar in AWS Glue Studio console. Klicken Sie Detection entities (Erkennungsentitäten) im linken Navigationsmenü.

Sie können Entitäten zur Erkennung auf der Seite Detection entities (Erkennungsentitäten) bearbeiten, löschen oder erstellen. Sie können auch über das Suchfeld nach einem Muster suchen.

Angeben der Erkennungsempfindlichkeit

Sie können für die Erkennung sensibler Daten den Grad der Empfindlichkeit festlegen.

Hoch – (Standard) Erkennt mehr Entitäten für Anwendungsfälle, die einen höheren Empfindlichkeitsgrad erfordern. Alle AWS Glue Jobs, die nach November 2023 erstellt wurden, werden automatisch für diese Einstellung aktiviert.
Niedrig – Erkennt weniger Entitäten und reduziert Fehlalarme.

Der Screenshot zeigt die globalen Erkennungsempfindlichkeitsoptionen. Es gibt eine Option mit niedriger Empfindlichkeit, die für eine höhere Genauigkeit sorgt, aber strikter ist und insgesamt zu geringeren Erkennungszahlen führen kann. Die zweite Option ist eine Einstellung mit hoher Empfindlichkeit, die für eine umfassendere Erkennung vorgesehen und besser geeignet ist, wenn Sie eine höhere PII-Erkennung benötigen.

Auswahl, was mit identifizierten PII-Daten zu tun ist

Wenn Sie PII in der gesamten Datenquelle erkennen möchten, können Sie eine globale Aktion auswählen:

Daten mit Erkennungsergebnissen bereichern: Wenn Sie in jeder Zelle Detect PII ausgewählt haben, können Sie die erkannten Entitäten in einer neuen Spalte speichern.
Redigieren von erkanntem Text: Sie können den erkannten PII-Wert durch eine Zeichenfolge ersetzen, die Sie im optionalen Texteingabefeld „Ersetzen“ angeben. Wenn keine Zeichenfolge angegeben wird, wird die erkannte PII-Entität durch ‚******* ‚ ersetzt.
Erkannten Text redigieren: Sie können den erkannten PII-Wert durch eine Zeichenfolge Ihrer Wahl ersetzen. Sie haben zwei Optionen. Entweder Sie lassen die Enden unmaskiert oder Sie geben ein explizites Regex-Muster zur Maskierung an. Diese Funktion ist nicht verfügbar in AWS Glue 2.0.
Apply cryptographic hash: (Anwendung eines kryptografischen Hashes): Sie können den erkannten PII-Wert an eine kryptografische SHA-256-Hash-Funktion übergeben und den Wert durch die Ausgabe der Funktion ersetzen.

Der Screenshot zeigt die Optionen in der Detect PII-Transformation, wenn alle Zeilen zum Erkennen von PII in der Datenquelle ausgewählt werden.

Unterschiede zwischen AWS Glue Versionen 2.0 und 3.0+

AWS Glue 2.0-Jobs geben einen neuen DataFrame mit den erkannten PII-Informationen für jede Spalte in einer zusätzlichen Spalte zurück. Jegliche Bearbeitung oder Hash-Bearbeitung ist sichtbar in AWS Glue Skript im visuellen Tab.

AWS Glue Jobs der Versionen 3.0 und 4.0 geben einen neuen DataFrame Wert mit derselben zusätzlichen Spalte zurück. Ein neuer Schlüssel für „actionUsed“ ist vorhanden und kann einen der folgenden Werte haben: DETECT, REDACT, PARTIAL_REDACT oder SHA256_HASH. Wenn eine Maskierungsaktion ausgewählt ist, DataFrame werden Daten zurückgegeben, bei denen sensible Daten maskiert sind.

Hinzufügen detaillierter Aktionsüberschreibungen

Zusätzliche Erkennungs- und Aktionseinstellungen können der Tabelle mit detaillierten Aktionsüberschreibungen hinzugefügt werden. Das ermöglicht Ihnen Folgendes:

Bestimmte Spalten für die Erkennung einschließen oder ausschließen: Ein abgeleitetes Schema für die Datenquelle füllt die Tabelle mit verfügbaren Spalten.
Einstellungen angeben, die detaillierter sind als globale Aktionen: Sie können beispielsweise unterschiedliche Einstellungen für die Textredigierung für verschiedene Entitätstypen angeben.
Eine andere Aktion als die globale Aktion angeben: Wenn Sie eine andere Aktion für einen anderen sensiblen Datentyp anwenden möchten, können Sie das hier tun. Beachten Sie, dass zwei verschiedene edit-in-place Aktionen (Schwärzen und Hashing) nicht für dieselbe Spalte verwendet werden können, Detect jedoch immer verwendet werden kann.

Der Screenshot zeigt die detaillierten Aktionsüberschreibungen. Sie können Aktionsüberschreibungen für den Auftrag hinzufügen, bearbeiten, löschen oder als JSON bearbeiten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Überwachung von Jobläufen

Verwalten von Aufträgen

Nächstes Thema:

Verwalten von Aufträgen

Vorheriges Thema:

Überwachung von Jobläufen

Brauchen Sie Hilfe?

Auf dieser Seite

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

Erkennen und Verarbeiten von sensiblen Daten

Themen

Auswahl der Scan-Methode der Daten

Auswählen der zu erkennenden PII-Entitäten

Auswählen aus allen verfügbaren PII-Mustern

Kategorien auswählen

Bestimmte Muster auswählen

Angeben der Erkennungsempfindlichkeit

Auswahl, was mit identifizierten PII-Daten zu tun ist

Unterschiede zwischen AWS Glue Versionen 2.0 und 3.0+

Hinzufügen detaillierter Aktionsüberschreibungen

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?

Auf dieser Seite

Related resources

Hat Ihnen diese Seite geholfen?

Related resources

Der Screenshot zeigt die Optionen in der Detect PII-Transformation, wenn das Erkennen von Feldern, die PII in der Datenquelle enthalten, ausgewählt wird.

Der Screenshot zeigt die Optionen in der Liste der vordefinierten AWS Entitäten.

Der Screenshot zeigt die Optionen in der Detect PII-Transformation, wenn alle Zeilen zum Erkennen von PII in der Datenquelle ausgewählt werden.

Der Screenshot zeigt die detaillierten Aktionsüberschreibungen. Sie können Aktionsüberschreibungen für den Auftrag hinzufügen, bearbeiten, löschen oder als JSON bearbeiten.

Der Screenshot zeigt den Abschnitt „Select patterns“ (Muster auswählen).