Listenoptionen und Anforderungen in Amazon Macie zulassen - Amazon Macie

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Listenoptionen und Anforderungen in Amazon Macie zulassen

In Amazon Macie können Sie Zulassungslisten verwenden, um Text oder Textmuster anzugeben, die Macie ignorieren soll, wenn Amazon Simple Storage Service (Amazon S3) -Objekte auf sensible Daten untersucht werden. Macie bietet Optionen für zwei Arten von Zulassungslisten: vordefinierten Text und reguläre Ausdrücke.

Eine Liste mit vordefiniertem Text ist hilfreich, wenn Sie möchten, dass Macie bestimmte Wörter, Ausdrücke und andere Arten von Zeichenfolgen ignoriert, die Sie nicht für sensibel halten. Beispiele hierfür sind die Namen der öffentlichen Vertreter Ihrer Organisation, bestimmte Telefonnummern oder bestimmte Beispieldaten, die Ihre Organisation für Tests verwendet. Wenn Macie Text findet, der den Kriterien einer verwalteten oder benutzerdefinierten Daten-ID entspricht, und der Text auch einem Eintrag in einer Zulassungsliste entspricht, meldet Macie dieses Vorkommen von Text nicht in Ergebnissen sensibler Daten, Statistiken und anderen Ergebnissen.

Ein regulärer Ausdruck (Regex) ist hilfreich, wenn Sie möchten, dass Macie Text ignoriert, der variiert oder sich wahrscheinlich ändern wird, und gleichzeitig einem gemeinsamen Muster folgt. Der reguläre Ausdruck gibt ein Textmuster an, das ignoriert werden soll. Beispiele hierfür sind öffentliche Telefonnummern für Ihre Organisation, E-Mail-Adressen für die Domain Ihrer Organisation oder Musterdaten, die Ihre Organisation für Tests verwendet. Wenn Macie Text findet, der den Kriterien einer verwalteten oder benutzerdefinierten Daten-ID entspricht, und der Text auch einem Regex-Muster in einer Zulassungsliste entspricht, meldet Macie dieses Vorkommen von Text nicht in Ergebnissen, Statistiken und anderen Ergebnissen mit sensiblen Daten.

Sie können beide Arten von Zulassungslisten überall dort erstellen und verwenden, AWS-Regionen wo Macie derzeit verfügbar ist, mit Ausnahme der Region Asien-Pazifik (Osaka). Beachten Sie bei der Erstellung und Verwaltung von Zulassungslisten die folgenden Optionen und Anforderungen. Beachten Sie auch, dass Listeneinträge zulassen und Regex-Muster für Postanschriften nicht unterstützt werden.

Optionen und Anforderungen für Listen mit vordefiniertem Text

Für diese Art von Zulassungsliste stellen Sie eine durch Zeilen getrennte Klartextdatei bereit, in der bestimmte Zeichenfolgen aufgeführt sind, die ignoriert werden sollen. Bei den Listeneinträgen handelt es sich in der Regel um Wörter, Ausdrücke und andere Arten von Zeichenfolgen, die Sie nicht als vertraulich betrachten, die sich wahrscheinlich nicht ändern werden und die nicht unbedingt einem bestimmten Muster entsprechen. Wenn Sie diese Art von Liste verwenden, meldet Amazon Macie keine Textvorkommen, die exakt mit einem Eintrag in der Liste übereinstimmen. Macie behandelt jeden Listeneintrag als Zeichenkettenliteralwert.

Um diese Art von Zulassungsliste zu verwenden, erstellen Sie zunächst die Liste in einem Texteditor und speichern Sie sie als Klartextdatei. Laden Sie die Liste anschließend in einen S3-Allzweck-Bucket hoch. Stellen Sie außerdem sicher, dass die Speicher- und Verschlüsselungseinstellungen für den Bucket und das Objekt es Macie ermöglichen, die Liste abzurufen und zu entschlüsseln. Erstellen und konfigurieren Sie dann Einstellungen für die Liste in Macie.

Nachdem Sie die Einstellungen in Macie konfiguriert haben, empfehlen wir Ihnen, die Zulassungsliste mit einem kleinen, repräsentativen Datensatz für Ihr Konto oder Ihre Organisation zu testen. Um eine Liste zu testen, können Sie einen einmaligen Job erstellen und den Job so konfigurieren, dass er die Liste zusätzlich zu den verwalteten Datenkennungen und benutzerdefinierten Datenkennungen verwendet, die Sie normalerweise zur Datenanalyse verwenden. Anschließend können Sie die Ergebnisse des Jobs überprüfen — Ergebnisse sensibler Daten, Ergebnisse der Erkennung sensibler Daten oder beides. Wenn die Ergebnisse des Jobs von Ihren Erwartungen abweichen, können Sie die Liste ändern und testen, bis die Ergebnisse Ihren Erwartungen entsprechen.

Nachdem Sie die Konfiguration und das Testen einer Zulassungsliste abgeschlossen haben, können Sie zusätzliche Jobs erstellen und konfigurieren, um sie zu verwenden, oder sie zu den Einstellungen für die automatische Erkennung vertraulicher Daten für Ihr Konto hinzufügen. Wenn diese Jobs ausgeführt werden oder der nächste automatisierte Discovery-Analysezyklus beginnt, ruft Macie die neueste Version der Liste von Amazon S3 ab und speichert sie im temporären Speicher. Macie verwendet dann diese temporäre Kopie der Liste, wenn es S3-Objekte auf sensible Daten untersucht. Wenn die Ausführung eines Jobs beendet oder der Analysezyklus abgeschlossen ist, löscht Macie seine Kopie der Liste dauerhaft aus dem Speicher. Die Liste ist in Macie nicht vorhanden. Nur die Einstellungen der Liste bleiben in Macie bestehen.

Wichtig

Da Listen mit vordefiniertem Text in Macie nicht dauerhaft existieren, ist es wichtig, den Status Ihrer Zulassungslisten regelmäßig zu überprüfen. Wenn Macie eine Liste, für deren Verwendung Sie einen Job oder eine automatische Erkennung konfiguriert haben, nicht abrufen oder analysieren kann, verwendet Macie die Liste nicht. Dies kann zu unerwarteten Ergebnissen führen, z. B. zu Ergebnissen mit vertraulichen Daten für Text, den Sie in der Liste angegeben haben.

Anforderungen an die Syntax

Wenn Sie diese Art von Zulassungsliste erstellen, beachten Sie die folgenden Anforderungen für die Datei der Liste:

  • Die Liste muss als Klartextdatei (text/plain) gespeichert werden, z. B. als .txt-, .text- oder .plain-Datei.

  • Die Liste muss Zeilenumbrüche verwenden, um einzelne Einträge voneinander zu trennen. Beispielsweise:

    Akua Mansa John Doe Martha Rivera 425-555-0100 425-555-0101 425-555-0102

    Macie behandelt jede Zeile als einen einzelnen, eindeutigen Eintrag in der Liste. Die Datei kann auch Leerzeilen enthalten, um die Lesbarkeit zu verbessern. Macie überspringt Leerzeilen, wenn es die Datei analysiert.

  • Jeder Eintrag kann 1—90 UTF-8-Zeichen enthalten.

  • Jeder Eintrag muss vollständig und exakt übereinstimmen, damit der Text ignoriert werden kann. Macie unterstützt die Verwendung von Platzhalterzeichen oder Teilwerten für Einträge nicht. Macie behandelt jeden Eintrag als Zeichenkettenliteralwert. Bei Übereinstimmungen wird die Groß- und Kleinschreibung ignoriert.

  • Die Datei kann 1—100.000 Einträge enthalten.

  • Die Gesamtspeichergröße der Datei darf 35 MB nicht überschreiten.

Speicheranforderungen

Beachten Sie beim Hinzufügen und Verwalten von Zulassungslisten in Amazon S3 die folgenden Speicheranforderungen und Empfehlungen:

  • Regionaler Support — Eine Zulassungsliste muss in einem Bucket gespeichert werden, der sich in demselben Bucket AWS-Region wie Ihr Macie-Konto befindet. Macie kann nicht auf eine Zulassungsliste zugreifen, wenn sie in einer anderen Region gespeichert ist.

  • Besitz eines Buckets — Eine Zulassungsliste muss in einem Bucket gespeichert werden, dessen Eigentümer Sie AWS-Konto sind. Wenn Sie möchten, dass andere Konten dieselbe Zulassungsliste verwenden, sollten Sie erwägen, eine Amazon S3 S3-Replikationsregel zu erstellen, um die Liste in Buckets zu replizieren, die diesen Konten gehören. Informationen zum Replizieren von S3-Objekten finden Sie unter Objekte replizieren im Amazon Simple Storage Service-Benutzerhandbuch.

    Darüber hinaus muss Ihre AWS Identity and Access Management (IAM-) Identität Lesezugriff auf den Bucket und das Objekt haben, in denen die Liste gespeichert ist. Andernfalls ist es Ihnen nicht gestattet, die Einstellungen der Liste zu erstellen oder zu aktualisieren oder den Status der Liste mithilfe von Macie zu überprüfen.

  • Speichertypen und -klassen — Eine Zulassungsliste muss in einem Allzweck-Bucket gespeichert werden, nicht in einem Verzeichnis-Bucket. Darüber hinaus muss sie in einer der folgenden Speicherklassen gespeichert werden: Reduced Redundancy (RRS), S3 Glacier Instant Retrieval, S3 Intelligent-Tiering, S3 One Zone-IA, S3 Standard oder S3 Standard-IA.

  • Bucket-Richtlinien — Wenn Sie eine Zulassungsliste in einem Bucket speichern, für den eine restriktive Bucket-Richtlinie gilt, stellen Sie sicher, dass die Richtlinie Macie das Abrufen der Liste ermöglicht. Zu diesem Zweck können Sie der Bucket-Richtlinie eine Bedingung für die mit dem Macie-Dienst verknüpfte Rolle hinzufügen. Weitere Informationen finden Sie unter Erlaubt Macie den Zugriff auf S3-Buckets und -Objekte.

    Stellen Sie außerdem sicher, dass die Richtlinie Ihrer IAM-Identität Lesezugriff auf den Bucket gewährt. Andernfalls ist es Ihnen nicht gestattet, die Einstellungen der Liste zu erstellen oder zu aktualisieren oder den Status der Liste mithilfe von Macie zu überprüfen.

  • Objektpfade — Wenn Sie mehr als eine Zulassungsliste in Amazon S3 speichern, muss der Objektpfad für jede Liste eindeutig sein. Mit anderen Worten, jede Zulassungsliste muss separat als eigenes S3-Objekt gespeichert werden.

  • Versionierung — Wenn Sie einem Bucket eine Zulassungsliste hinzufügen, empfehlen wir, dass Sie auch die Versionierung für den Bucket aktivieren. Anschließend können Sie Datums- und Uhrzeitwerte verwenden, um Versionen der Liste mit den Ergebnissen von Aufträgen zur Erkennung vertraulicher Daten und automatisierter Erkennungszyklen für sensible Daten, die die Liste verwenden, zu korrelieren. Dies kann bei Prüfungen oder Untersuchungen zum Datenschutz, die Sie durchführen, hilfreich sein.

  • Objektsperre — Um zu verhindern, dass eine Zulassungsliste für einen bestimmten Zeitraum oder auf unbestimmte Zeit gelöscht oder überschrieben wird, können Sie die Objektsperre für den Bucket aktivieren, in dem die Liste gespeichert ist. Die Aktivierung dieser Einstellung verhindert nicht, dass Macie auf die Liste zugreift. Informationen zu dieser Einstellung finden Sie unter Verwenden von S3 Object Lock im Amazon Simple Storage Service-Benutzerhandbuch.

Anforderungen an die Verschlüsselung/Entschlüsselung

Wenn Sie eine Zulassungsliste in Amazon S3 verschlüsseln, gewährt die Berechtigungsrichtlinie für die mit dem Macie-Service verknüpfte Rolle Macie in der Regel die Berechtigungen, die es zum Entschlüsseln der Liste benötigt. Dies hängt jedoch von der Art der verwendeten Verschlüsselung ab:

  • Wenn eine Liste serverseitig mit einem von Amazon S3 verwalteten Schlüssel (SSE-S3) verschlüsselt ist, kann Macie die Liste entschlüsseln. Die serviceverknüpfte Rolle für Ihr Macie-Konto gewährt Macie die erforderlichen Berechtigungen.

  • Wenn eine Liste mithilfe einer serverseitigen Verschlüsselung mit einem AWS verwalteten System AWS KMS key (DSSE-KMS oder SSE-KMS) verschlüsselt wird, kann Macie die Liste entschlüsseln. Die dienstverknüpfte Rolle für Ihr Macie-Konto gewährt Macie die erforderlichen Berechtigungen.

  • Wenn eine Liste serverseitig verschlüsselt und vom Kunden verwaltet wird AWS KMS key (DSSE-KMS oder SSE-KMS), kann Macie die Liste nur entschlüsseln, wenn Sie Macie die Verwendung des Schlüssels gestatten. Weitere Informationen zur Vorgehensweise finden Sie unter Erlaubt Macie, einen vom Kunden verwalteten Dienst zu verwenden AWS KMS key.

    Anmerkung

    Sie können eine Liste mit einem Kunden verschlüsseln, die in einem externen Schlüsselspeicher verwaltet wird. AWS KMS key Der Schlüssel ist dann jedoch möglicherweise langsamer und weniger zuverlässig als ein Schlüssel, der vollständig intern AWS KMS verwaltet wird. Wenn Macie aufgrund von Latenz- oder Verfügbarkeitsproblemen daran gehindert wird, die Liste zu entschlüsseln, verwendet Macie die Liste nicht, wenn es S3-Objekte analysiert. Dies kann zu unerwarteten Ergebnissen führen, z. B. zu Ergebnissen mit vertraulichen Daten für Text, den Sie in der Liste angegeben haben. Um dieses Risiko zu verringern, sollten Sie erwägen, die Liste in einem S3-Bucket zu speichern, der so konfiguriert ist, dass der Schlüssel als S3-Bucket-Key verwendet wird.

    Informationen zur Verwendung von KMS-Schlüsseln in externen Schlüsselspeichern finden Sie unter Externe Schlüsselspeicher im AWS Key Management Service Entwicklerhandbuch. Informationen zur Verwendung von S3-Bucket Keys finden Sie unter Reduzierung der Kosten für SSE-KMS mit Amazon S3 S3-Bucket Keys im Amazon Simple Storage Service-Benutzerhandbuch.

  • Wenn eine Liste mit serverseitiger Verschlüsselung mit einem vom Kunden bereitgestellten Schlüssel (SSE-C) oder clientseitiger Verschlüsselung verschlüsselt wird, kann Macie die Liste nicht entschlüsseln. Erwägen Sie stattdessen die Verwendung der SSE-S3-, DSSE-KMS- oder SSE-KMS-Verschlüsselung.

Wenn eine Liste mit einem AWS verwalteten KMS-Schlüssel oder einem vom Kunden verwalteten KMS-Schlüssel verschlüsselt ist, muss Ihre AWS Identity and Access Management (IAM-) Identität den Schlüssel ebenfalls verwenden dürfen. Andernfalls ist es Ihnen nicht gestattet, die Einstellungen der Liste zu erstellen oder zu aktualisieren oder den Status der Liste mithilfe von Macie zu überprüfen. Informationen zum Überprüfen oder Ändern der Berechtigungen für einen KMS-Schlüssel finden Sie unter Wichtige Richtlinien AWS KMS im AWS Key Management Service Entwicklerhandbuch.

Ausführliche Informationen zu den Verschlüsselungsoptionen für Amazon S3 S3-Daten finden Sie unter Schützen von Daten durch Verschlüsselung im Amazon Simple Storage Service-Benutzerhandbuch.

Überlegungen und Empfehlungen zum Design

Im Allgemeinen behandelt Macie jeden Eintrag in einer Zulassungsliste als Zeichenkettenliteralwert. Das heißt, Macie ignoriert jedes Vorkommen von Text, der exakt einem vollständigen Eintrag in einer Zulassungsliste entspricht. Bei Übereinstimmungen wird die Groß- und Kleinschreibung ignoriert.

Macie verwendet die Einträge jedoch als Teil eines größeren Frameworks zur Datenextraktion und -analyse. Das Framework umfasst Funktionen für maschinelles Lernen und Musterabgleich, die Dimensionen wie grammatikalische und syntaktische Variationen und in vielen Fällen die Nähe von Schlüsselwörtern berücksichtigen. Das Framework berücksichtigt auch den Dateityp oder das Speicherformat eines S3-Objekts. Beachten Sie daher beim Hinzufügen und Verwalten von Einträgen in einer Zulassungsliste die folgenden Überlegungen und Empfehlungen.

Bereiten Sie sich auf verschiedene Dateitypen und Speicherformate vor

Bei unstrukturierten Daten, wie z. B. Text in einer Datei im Adobe Portable Document Format (.pdf), ignoriert Macie Text, der exakt mit einem vollständigen Eintrag in einer Zulassungsliste übereinstimmt, einschließlich Text, der sich über mehrere Zeilen oder Seiten erstreckt.

Bei strukturierten Daten, wie z. B. spaltenförmigen Daten in einer CSV-Datei oder datensatzbasierten Daten in einer JSON-Datei, ignoriert Macie Text, der exakt einem vollständigen Eintrag in einer Zulassungsliste entspricht, wenn der gesamte Text in einem einzigen Feld, einer Zelle oder einem Array gespeichert ist. Diese Anforderung gilt nicht für strukturierte Daten, die in einer ansonsten unstrukturierten Datei gespeichert sind, z. B. einer Tabelle in einer PDF-Datei.

Betrachten Sie beispielsweise den folgenden Inhalt in einer CSV-Datei:

Name,Account ID Akua Mansa,111111111111 John Doe,222222222222

Wenn Akua Mansa und Einträge in einer Zulassungsliste John Doe sind, ignoriert Macie diese Namen in der CSV-Datei. Der vollständige Text jedes Listeneintrags wird in einem einzigen Name Feld gespeichert.

Stellen Sie sich umgekehrt eine CSV-Datei vor, die die folgenden Spalten und Felder enthält:

First Name,Last Name,Account ID Akua,Mansa,111111111111 John,Doe,222222222222

Wenn Akua Mansa und Einträge in einer Zulassungsliste John Doe sind, ignoriert Macie diese Namen in der CSV-Datei nicht. Keines der Felder in der CSV-Datei enthält den vollständigen Text eines Eintrags in der Zulassungsliste.

Schließen Sie gängige Varianten ein

Fügen Sie Einträge für häufig verwendete Varianten numerischer Daten, Eigennamen, Begriffe und alphanumerische Zeichenfolgen hinzu. Wenn Sie beispielsweise Namen oder Ausdrücke hinzufügen, die nur ein Leerzeichen zwischen Wörtern enthalten, fügen Sie auch Varianten hinzu, die zwei Leerzeichen zwischen Wörtern enthalten. Fügen Sie auf ähnliche Weise Wörter und Ausdrücke hinzu, die Sonderzeichen enthalten oder nicht, und ziehen Sie in Betracht, häufig verwendete syntaktische und semantische Varianten einzubeziehen.

Für die US-Telefonnummer 425-555-0100 könnten Sie beispielsweise diese Einträge zu einer Zulassungsliste hinzufügen:

425-555-0100 425.555.0100 (425) 555-0100 +1-425-555-0100

Für das Datum 1. Februar 2022 könnten Sie in einem multinationalen Kontext Einträge hinzufügen, die gängige syntaktische Varianten für Englisch und Französisch enthalten, einschließlich Varianten, die Sonderzeichen enthalten und nicht:

February 1, 2022 1 février 2022 1 fevrier 2022 Feb 01, 2022 1 fév 2022 1 fev 2022 02/01/2022 01/02/2022

Fügen Sie bei Personennamen Einträge für verschiedene Formen von Namen hinzu, die Sie nicht als vertraulich betrachten. Fügen Sie beispielsweise Folgendes ein: den Vornamen, gefolgt vom Nachnamen, gefolgt vom Vornamen, den durch ein Leerzeichen getrennten Vor- und Nachnamen, den durch zwei Leerzeichen getrennten Vor- und Nachnamen sowie Spitznamen.

Für den Namen Martha Rivera könnten Sie beispielsweise Folgendes hinzufügen:

Martha Rivera Martha Rivera Rivera, Martha Rivera, Martha Rivera Martha Rivera Martha

Wenn Sie Varianten eines bestimmten Namens ignorieren möchten, der viele Teile enthält, erstellen Sie eine Zulassungsliste, die stattdessen einen regulären Ausdruck verwendet. Für den Namen Dr. Martha Lyda Rivera, PhD, könnten Sie beispielsweise den folgenden regulären Ausdruck verwenden:. ^(Dr. )?Martha\s(Lyda|L\.)?\s?Rivera,?( PhD)?$

Optionen und Anforderungen für reguläre Ausdrücke in Zulassungslisten

Für diese Art von Zulassungsliste geben Sie einen regulären Ausdruck (Regex) an, der ein zu ignorierendes Textmuster definiert, z. B. öffentliche Telefonnummern für Ihre Organisation, E-Mail-Adressen für die Domain Ihrer Organisation oder Musterdaten, die Ihre Organisation für Tests verwendet. Die Regex definiert ein allgemeines Muster für eine bestimmte Art von Daten, die Sie nicht als vertraulich betrachten. Wenn Sie diese Art von Zulassungsliste verwenden, meldet Amazon Macie keine Textvorkommen, die vollständig dem angegebenen Muster entsprechen. Im Gegensatz zu einer Zulassungsliste, die vordefinierten Text angibt, der ignoriert werden soll, erstellen und speichern Sie die Regex und alle anderen Listeneinstellungen in Macie.

Wenn Sie diese Art von Zulassungsliste erstellen oder aktualisieren, können Sie den regulären Ausdruck der Liste anhand von Beispieldaten testen, bevor Sie die Liste speichern. Wir empfehlen, dies mit mehreren Beispieldatensätzen zu tun. Wenn Sie eine zu allgemeine Regex erstellen, ignoriert Macie möglicherweise Textstellen, die Sie für sensibel halten. Wenn ein Regex zu spezifisch ist, ignoriert Macie möglicherweise nicht das Vorkommen von Text, den Sie nicht für sensibel halten. Zum Schutz vor falsch formatierten oder lang andauernden Ausdrücken kompiliert und testet Macie den regulären Ausdruck auch automatisch anhand einer Sammlung von Beispieltext und benachrichtigt Sie über Probleme, die behoben werden müssen.

Für zusätzliche Tests empfehlen wir Ihnen, den regulären Ausdruck der Liste auch mit einem kleinen, repräsentativen Datensatz für Ihr Konto oder Ihre Organisation zu testen. Zu diesem Zweck können Sie einen einmaligen Job erstellen und den Job so konfigurieren, dass er die Liste zusätzlich zu den verwalteten Datenkennungen und benutzerdefinierten Datenkennungen verwendet, die Sie normalerweise zur Datenanalyse verwenden. Anschließend können Sie die Ergebnisse des Jobs überprüfen — Ergebnisse sensibler Daten, Ergebnisse der Entdeckung sensibler Daten oder beides. Wenn die Ergebnisse des Jobs von Ihren Erwartungen abweichen, können Sie den regulären Ausdruck ändern und testen, bis die Ergebnisse Ihren Erwartungen entsprechen.

Nachdem Sie eine Zulassungsliste konfiguriert und getestet haben, können Sie zusätzliche Jobs erstellen und konfigurieren, um sie zu verwenden, oder sie zu den Einstellungen für die automatische Erkennung vertraulicher Daten für Ihr Konto hinzufügen. Wenn diese Jobs ausgeführt werden oder Macie eine automatische Erkennung für Ihr Konto durchführt, verwendet Macie die neueste Version der Regex der Liste, um Daten zu analysieren.

Syntaxunterstützung und Empfehlungen

In einer Zulassungsliste kann ein regulärer Ausdruck (Regex) angegeben werden, der bis zu 512 Zeichen enthält. Macie unterstützt eine Teilmenge der Regex-Mustersyntax, die von der Bibliothek Perl Compatible Regular Expressions (PCRE) bereitgestellt wird. Von den in der PCRE-Bibliothek bereitgestellten Konstrukten unterstützt Macie die folgenden Musterelemente nicht:

  • Rückverweise

  • Gruppen erfassen

  • Bedingungsmuster

  • Eingebetteter Code

  • Globale Musterflags, wie /i/m, und /x

  • Rekursive Muster

  • Positive und negative Look-Behind- und Look-Ahead-Assertionen mit einer Breite von Null, wie,, und ?= ?! ?<= ?<!

Beachten Sie auch die folgenden Tipps und Empfehlungen, um effektive Regex-Muster für Zulassungslisten zu erstellen:

  • Anker — Verwenden Sie Anker (^oder$) nur, wenn Sie erwarten, dass das Muster am Anfang oder Ende einer Datei erscheint, nicht am Anfang oder Ende einer Zeile.

  • Beschränkte Wiederholungen — Aus Leistungsgründen begrenzt Macie die Größe begrenzter Wiederholungsgruppen. Kompiliert beispielsweise \d{100,1000} nicht in Macie. Um sich dieser Funktionalität anzunähern, können Sie eine Wiederholung mit offenem Ende verwenden, wie z. \d{100,}

  • Keine Berücksichtigung von Groß- und Kleinschreibung — Um bei Teilen eines Musters die Groß- und Kleinschreibung nicht zu berücksichtigen, können Sie das (?i) Konstrukt anstelle des Flags verwenden. /i

  • Leistung — Präfixe oder Alternativen müssen nicht manuell optimiert werden. Wenn Sie beispielsweise /hello|hi|hey/ zu wechseln, /h(?:ello|i|ey)/ wird die Leistung nicht verbessert.

  • Platzhalter — Aus Leistungsgründen begrenzt Macie die Anzahl wiederholter Platzhalter. Kompiliert beispielsweise a*b*a* nicht in Macie.

  • Alternative — Um mehr als ein Muster in einer einzigen Zulassungsliste anzugeben, können Sie den Alternationsoperator (|) verwenden, um die Muster zu verketten. Wenn Sie dies tun, verwendet Macie die OR-Logik, um die Muster zu kombinieren und ein neues Muster zu bilden. Wenn Sie beispielsweise angeben(apple|orange), erkennt Macie sowohl Apfel als auch Orange als übereinstimmende Wörter und ignoriert das Vorkommen beider Wörter. Wenn Sie Muster verketten, achten Sie darauf, die Gesamtlänge des verketteten Ausdrucks auf 512 oder weniger Zeichen zu beschränken.

Wenn Sie die Regex entwickeln, sollten Sie sie schließlich so gestalten, dass sie unterschiedlichen Dateitypen und Speicherformaten gerecht wird. Macie verwendet die Regex als Teil eines größeren Frameworks zur Datenextraktion und -analyse. Das Framework berücksichtigt den Dateityp oder das Speicherformat eines S3-Objekts. Bei strukturierten Daten, wie z. B. spaltenförmigen Daten in einer CSV-Datei oder datensatzbasierten Daten in einer JSON-Datei, ignoriert Macie Text, der dem Muster vollständig entspricht, nur dann, wenn der gesamte Text in einem einzigen Feld, einer Zelle oder einem Array gespeichert ist. Diese Anforderung gilt nicht für strukturierte Daten, die in einer ansonsten unstrukturierten Datei gespeichert sind, z. B. einer Tabelle in einer Datei im Adobe Portable Document Format (.pdf). Bei unstrukturierten Daten, wie z. B. Text in einer PDF-Datei, ignoriert Macie Text, der vollständig dem Muster entspricht, einschließlich Text, der sich über mehrere Zeilen oder Seiten erstreckt.

Beispiele

Die folgenden Beispiele zeigen gültige Regex-Muster für einige gängige Szenarien.

E-Mail-Adressen

Wenn Sie eine benutzerdefinierte Daten-ID verwenden, um E-Mail-Adressen zu erkennen, können Sie E-Mail-Adressen ignorieren, die Sie nicht als vertraulich betrachten, z. B. E-Mail-Adressen für Ihre Organisation.

Um E-Mail-Adressen für eine bestimmte Domäne der zweiten und obersten Ebene zu ignorieren, können Sie dieses Muster verwenden:

[a-zA-Z0-9_.+\\-]+@example\.com

Dabei ist beispielsweise der Name der Second-Level-Domain und com die Top-Level-Domain. In diesem Fall gleicht Macie Adressen wie johndoe@example.com und john.doe@example.com ab und ignoriert sie.

Um E-Mail-Adressen für eine bestimmte Domain in einer generischen Top-Level-Domain (gTLD) wie .com oder .gov zu ignorieren, können Sie dieses Muster verwenden:

[a-zA-Z0-9_.+\\-]+@example\.[a-zA-Z]{2,}

Wobei das Beispiel der Name der Domain ist. In diesem Fall gleicht Macie Adressen wie johndoe@example.com, john.doe@example.gov und johndoe@example.edu ab und ignoriert sie.

Um E-Mail-Adressen für eine bestimmte Domain in einer länderspezifischen Top-Level-Domain (ccTLD) zu ignorieren, z. B. .ca für Kanada oder .au für Australien, können Sie dieses Muster verwenden:

[a-zA-Z0-9_.+\\-]+@example\.(ca|au)

Wobei Beispiel der Name der Domain ist und ca und au spezifische ccTLDs sind, die ignoriert werden müssen. In diesem Fall gleicht Macie Adressen wie johndoe@example.ca und john.doe@example.au ab und ignoriert sie.

Um E-Mail-Adressen zu ignorieren, die für eine bestimmte Domain und gTLD bestimmt sind und Domains der dritten und vierten Ebene enthalten, können Sie dieses Muster verwenden:

[a-zA-Z0-9_.+\\-]+@([a-zA-Z0-9-]+\.)?[a-zA-Z0-9-]+\.example\.com

Wobei Beispiel der Name der Domain und com die gTLD ist. In diesem Fall gleicht Macie Adressen wie johndoe@www.example.com und john.doe@www.team.example.com ab und ignoriert sie.

Phone numbers (Telefonnummern)

Macie bietet verwaltete Datenkennungen, mit denen Telefonnummern für mehrere Länder und Regionen erkannt werden können. Um bestimmte Telefonnummern zu ignorieren, z. B. gebührenfreie Nummern oder öffentliche Telefonnummern für Ihre Organisation, können Sie Muster wie die folgenden verwenden.

Um gebührenfreie US-Telefonnummern zu ignorieren, die die Vorwahl 800 verwenden und als (800) ###-#### formatiert sind:

^\(?800\)?[ -]?\d{3}[ -]?\d{4}$

Um gebührenfreie US-Telefonnummern zu ignorieren, die die 888-Vorwahl verwenden und als (888) ###-#### formatiert sind:

^\(?888\)?[ -]?\d{3}[ -]?\d{4}$

Um 10-stellige französische Telefonnummern zu ignorieren, die die Landesvorwahl 33 enthalten und als +33 ## ## ## formatiert sind:

^\+33 \d( \d\d){4}$

Um US-amerikanische und kanadische Telefonnummern zu ignorieren, die eine bestimmte Vorwahlnummer und Vorwahlnummer verwenden, keine Landesvorwahl enthalten und als (###) ###-#### formatiert sind:

^\(?123\)?[ -]?555[ -]?\d{4}$

Wobei 123 die Ortsvorwahl und 555 die Vorwahl ist.

Um US-amerikanische und kanadische Telefonnummern zu ignorieren, die bestimmte Vorwahlen und Vorwahlen verwenden, eine Landesvorwahl enthalten und als +1 (###) ###-#### formatiert sind:

^\+1\(?123\)?[ -]?555[ -]?\d{4}$

Wobei 123 die Ortsvorwahl und 555 die Vorwahl ist.