Erkennen und Verarbeiten von sensiblen Daten - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkennen und Verarbeiten von sensiblen Daten

Die PII Detect-Transformation identifiziert personenbezogene Daten (PII) in Ihrer Datenquelle. Sie wählen die PII Entität aus, die identifiziert werden soll, wie die Daten gescannt werden sollen und was mit der PII Entität geschehen soll, die durch die PII Detect-Transformation identifiziert wurde.

Die PII Detect-Transformation bietet die Möglichkeit, Entitäten zu erkennen, zu maskieren oder zu entfernen, die Sie definieren oder durch die Entitäten vordefiniert wurden AWS. Dies steigert die Compliance und senkt Haftungsrisiken. Beispielsweise möchten Sie möglicherweise sicherstellen, dass Ihre Daten keine personenbezogenen Daten enthalten, die gelesen werden können, und Sie möchten Sozialversicherungsnummern mit einer festen Zeichenfolge (z. B. xxx-xx-xxxx), Telefonnummern oder Adressen maskieren.

Informationen zum Arbeiten mit sensiblen Daten außerhalb von AWS Glue Studio finden Sie unter Verwendung der Erkennung sensibler Daten außerhalb von AWS Glue Studio.

Auswahl der Scan-Methode der Daten

Wenn Sie Ihren Datensatz nach sensiblen Daten wie personenbezogenen Daten (PII) durchsuchen, können Sie wählen, ob die Daten PII in jeder Zeile oder in den Spalten erkannt werden sollen, die PII Daten enthalten.

Der Screenshot zeigt die Optionen in der PII Transformation „Erkennen“, wenn Sie auswählen, ob Felder erkannt werden sollen, die PII in der Datenquelle enthalten sind.

Wenn Sie PIIin jeder Zelle die Option Erkennen auswählen, entscheiden Sie sich dafür, dass alle Zeilen in der Datenquelle gescannt werden. Dies ist ein umfassender Scan, um sicherzustellen, dass PII Entitäten identifiziert werden.

Wenn Sie Felder erkennen wählenPII, die enthalten, wählen Sie aus, dass eine Stichprobe von Zeilen nach PII Entitäten durchsucht werden soll. Auf diese Weise können Sie Kosten und Ressourcen niedrig halten und gleichzeitig die Felder identifizieren, in denen PII Entitäten gefunden werden.

Wenn Sie sich dafür entscheiden, Felder zu erkennen, die Folgendes enthaltenPII, können Sie die Kosten senken und die Leistung verbessern, indem Sie einen Teil der Zeilen abtasten. Wenn Sie diese Option auswählen, können Sie zusätzliche Optionen angeben:

  • Sample portion (Stichproben-Teilmenge): Auf diese Weise können Sie den Prozentsatz der Zeile für die Stichprobe angeben. Wenn Sie beispielsweise '50' eingeben, geben Sie an, dass 50 Prozent der gescannten Zeilen für die PII Entität verwendet werden sollen.

  • Erkennungsschwellenwert: Auf diese Weise können Sie den Prozentsatz der Zeilen angeben, die die PII Entität enthalten, damit erkannt wird, dass die gesamte Spalte die PII Entität enthält. Wenn Sie beispielsweise '10' eingeben, geben Sie an, dass die Nummer der PII Entität US Phone in den gescannten Zeilen mindestens 10 Prozent betragen muss, damit das Feld mit der PII Entität US Phone identifiziert werden kann. Wenn der Prozentsatz der Zeilen, die die PII Entität enthalten, weniger als 10 Prozent beträgt, wird dieses Feld nicht so beschriftet, dass es die PII Entität US Phone enthält.

Auswahl der zu erkennenden PII Entitäten

Wenn Sie PIIin jeder Zelle die Option Erkennen ausgewählt haben, können Sie aus einer von drei Optionen wählen:

  • Alle verfügbaren PII Muster — dazu gehören auch AWS Entitäten.

  • Kategorien auswählen — Wenn Sie Kategorien auswählen, enthalten PII Muster automatisch Muster in den von Ihnen ausgewählten Kategorien.

  • „Select specific patterns“ (Bestimmte Muster auswählen) – Nur die ausgewählten Muster werden erkannt.

Eine vollständige Liste der verwalteten vertraulichen Datentypen finden Sie unter Verwaltete Datentypen.

Wählen Sie aus allen verfügbaren PII Mustern

Wenn Sie Alle verfügbaren PII Muster wählen, wählen Sie Entitäten aus, die von AWS vordefiniert sind. Sie können eine, mehrere oder alle Entitäten auswählen.

Der Screenshot zeigt die Optionen in der Liste der vordefinierten AWS Entitäten.

Kategorien auswählen

Wenn Sie Kategorien auswählen als zu erkennende PII Muster ausgewählt haben, können Sie aus den Optionen im Drop-down-Menü auswählen. Beachten Sie, dass einige Entitäten mehreren Kategorien angehören können. Beispielsweise ist der Name einer Person eine Entität, die zu den HIPAAKategorien Universal und Universal gehört.

  • „Universal“ (Universell), z. B. „Email“ (E-Mail), „Credit Card“ (Kreditkarte)

  • HIPAA(Beispiele: US-Führerschein, Code für das Common Procedure Coding System (HCPCS) für das Gesundheitswesen)

  • Netzwerke (Beispiele: IP-Adresse, MAC Adresse)

  • Argentinien

  • Australien

  • Österreich

  • Belgien

  • Bosnien

  • Bulgarien

  • Kanada

  • Chile

  • Kolumbien

  • Kroatien

  • Zypern

  • Tschechien

  • Dänemark

  • Estland

  • Finnland

  • Frankreich

  • Deutschland

  • Griechenland

  • Ungarn

  • Irland

  • Korea

  • Japan

  • Mexiko

  • Niederlande

  • Neuseeland

  • Norwegen

  • Portugal

  • Rumänien

  • Singapur

  • Slowakei

  • Slowenien

  • Spanien

  • Schweden

  • Schweiz

  • Türkei

  • Ukraine

  • Vereinigte Staaten

  • Großbritannien und Nordirland

  • Venezuela

Bestimmte Muster auswählen

Wenn Sie Bestimmte Muster als zu erkennende PII Muster auswählen wählen, können Sie in einer Liste von Mustern suchen oder darin blättern oder ein neues Muster für die Erkennungseinheit erstellen.

In den folgenden Schritten wird beschrieben, wie Sie ein neues benutzerdefiniertes Muster zum Erkennen sensibler Daten erstellen. Sie erstellen das benutzerdefinierte Muster, indem Sie einen Namen für das benutzerdefinierte Muster eingeben, einen regulären Ausdruck hinzufügen und optional Kontextwörter definieren.

  1. Um ein neues Muster zu erstellen, klicken Sie auf Create new (Neues erstellen).

    Der Screenshot zeigt den Abschnitt „Select patterns“ (Muster auswählen).
  2. Geben Sie auf der Seite „Create detection entity“ (Entität zur Erkennung erstellen) den Entitätsnamen und einen regulären Ausdruck ein. Der reguläre Ausdruck (Regex) wird von AWS Glue verwendet, um Entitäten abzugleichen.

  3. Klicken Sie auf Validate (Validieren). Wenn die Validierung erfolgreich ist, wird eine Bestätigungsmeldung angezeigt, die besagt, dass die Zeichenfolge ein gültiger regulärer Ausdruck ist. Wenn die Validierung nicht erfolgreich ist, wird eine Meldung angezeigt, die besagt, dass die Zeichenfolge nicht der richtigen Formatierung und den akzeptierten Zeichenliteralen, Operatoren oder Konstrukten entspricht.

  4. Sie können zusätzlich zum regulären Ausdruck Kontextwörter hinzufügen. Kontextwörter können die Wahrscheinlichkeit einer Übereinstimmung erhöhen. Sie können in Fällen nützlich sein, in denen Feldnamen die Entität nicht beschreiben. Sozialversicherungsnummern können beispielsweise mit „“ oder „SSSSN“ bezeichnet werden. Das Hinzufügen dieser Kontextwörter kann helfen, die Entität abzugleichen.

  5. Klicken Sie auf Create (Erstellen), um eine Entität zur Erkennung zu erstellen. Erstellte Entitäten werden in der AWS Glue Studio-Konsole angezeigt. Klicken Sie Detection entities (Erkennungsentitäten) im linken Navigationsmenü.

    Sie können Entitäten zur Erkennung auf der Seite Detection entities (Erkennungsentitäten) bearbeiten, löschen oder erstellen. Sie können auch über das Suchfeld nach einem Muster suchen.

Angeben der Erkennungsempfindlichkeit

Sie können für die Erkennung sensibler Daten den Grad der Empfindlichkeit festlegen.

  • Hoch – (Standard) Erkennt mehr Entitäten für Anwendungsfälle, die einen höheren Empfindlichkeitsgrad erfordern. Für alle AWS Glue-Aufträge, die nach November 2023 erstellt wurden, ist diese Einstellung automatisch aktiviert.

  • Niedrig – Erkennt weniger Entitäten und reduziert Fehlalarme.

Der Screenshot zeigt die globalen Erkennungsempfindlichkeitsoptionen. Es gibt eine Option mit niedriger Empfindlichkeit, die für eine höhere Genauigkeit sorgt, aber strikter ist und insgesamt zu geringeren Erkennungszahlen führen kann. Die zweite Option ist eine Einstellung mit hoher Empfindlichkeit, die für eine breitere Erkennung vorgesehen ist und sich besser eignet, wenn Sie eine höhere PII Erkennung benötigen.

Sie entscheiden, was mit den identifizierten PII Daten geschehen soll

Wenn Sie sich dafür entschieden haben, die gesamte Datenquelle zu ermittelnPII, können Sie eine globale Aktion auswählen, die angewendet werden soll:

  • Daten mit Erkennungsergebnissen anreichern: Wenn Sie PII in jeder Zelle die Option Erkennen ausgewählt haben, können Sie die erkannten Entitäten in einer neuen Spalte speichern.

  • Entdeckten Text unkenntlich machen: Sie können den erkannten PII Wert durch eine Zeichenfolge ersetzen, die Sie im optionalen Eingabefeld Text ersetzen angeben. Wenn keine Zeichenfolge angegeben ist, wird die erkannte PII Entität durch '*******' ersetzt.

  • Erkannten Text teilweise redigieren: Sie können einen Teil des erkannten PII Werts durch eine von Ihnen gewählte Zeichenfolge ersetzen. Sie haben zwei Optionen. Entweder Sie lassen die Enden unmaskiert oder Sie geben ein explizites Regex-Muster zur Maskierung an. Diese Funktion ist in AWS Glue 2.0 nicht verfügbar.

  • Kryptografischen Hash anwenden: Sie können den erkannten PII Wert an eine kryptografische Hashfunktion mit SHA -256 übergeben und den Wert durch die Ausgabe der Funktion ersetzen.

Der Screenshot zeigt die Optionen in der PII Detect-Transformation, wenn alle Zeilen in der Datenquelle ausgewählt werden, die erkannt werden sollen. PII

Unterschiede zwischen den AWS Glue-Versionen 2.0 und 3.0+

AWS Glue2.0-Jobs geben für jede Spalte in einer zusätzlichen Spalte einen neuen Befehl DataFrame mit den erkannten PII Informationen zurück. Jede Redigierung oder Hash-Bearbeitung ist innerhalb des AWS Glue-Skripts auf der visuellen Registerkarte sichtbar.

AWS GlueJobs der Typen 3.0 und 4.0 geben einen neuen DataFrame Wert mit derselben zusätzlichen Spalte zurück. Ein neuer Schlüssel für „actionUsed“ ist vorhanden und kann einer vonDETECT, REDACTPARTIAL_REDACT, oder seinSHA256_HASH. Wenn eine Maskierungsaktion ausgewählt ist, DataFrame werden Daten zurückgegeben, bei denen sensible Daten maskiert sind.

Hinzufügen detaillierter Aktionsüberschreibungen

Zusätzliche Erkennungs- und Aktionseinstellungen können der Tabelle mit detaillierten Aktionsüberschreibungen hinzugefügt werden. Das ermöglicht Ihnen Folgendes:

  • Bestimmte Spalten für die Erkennung einschließen oder ausschließen: Ein abgeleitetes Schema für die Datenquelle füllt die Tabelle mit verfügbaren Spalten.

  • Einstellungen angeben, die detaillierter sind als globale Aktionen: Sie können beispielsweise unterschiedliche Einstellungen für die Textredigierung für verschiedene Entitätstypen angeben.

  • Eine andere Aktion als die globale Aktion angeben: Wenn Sie eine andere Aktion für einen anderen sensiblen Datentyp anwenden möchten, können Sie das hier tun. Beachten Sie, dass zwei verschiedene edit-in-place Aktionen (Schwärzen und Hashing) nicht für dieselbe Spalte verwendet werden können, Detect jedoch immer verwendet werden kann.

Der Screenshot zeigt die detaillierten Aktionsüberschreibungen. Sie können JSON beliebige Aktionen für den Job hinzufügen, bearbeiten, löschen oder bearbeiten.