Datenschutz - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenschutz

Das AWS-Modell der geteilten Verantwortlichkeit wird auf den Datenschutz in Amazon EMR in EKS angewendet. Wie in diesem Modell beschrieben, ist AWS für den Schutz der globalen Infrastruktur verantwortlich, auf der die gesamte AWS-Cloud läuft. Sie sind dafür verantwortlich, die Kontrolle über Ihre in dieser Infrastruktur gehosteten Inhalte zu behalten. Dieser Inhalt enthält die Sicherheitskonfigurations- und Verwaltungsaufgaben für die von Ihnen verwendeten AWS-Services. Weitere Informationen zum Datenschutz finden Sie unter Häufig gestellte Fragen zum Datenschutz. Informationen zum Datenschutz in Europa finden Sie im Blog-Beitrag AWS-Modell der geteilten Verantwortung und die GDPR im Blog zur AWS-Sicherheit.

Aus Datenschutzgründen empfehlen wir Ihnen, die Anmeldeinformationen für AWS-Konten zu schützen und individuelle Konten mit AWS Identity and Access Management (IAM) einzurichten. So erhält jeder Benutzer nur die Berechtigungen, die zum Durchführen seiner Aufgaben erforderlich sind. Außerdem sollten Sie die Daten mit folgenden Methoden schützen:

  • Verwenden Sie für jedes Konto die Multi-Faktor Authentifizierung (MFA).

  • Verwenden Sie SSL/TLS für die Kommunikation mit AWS-Ressourcen. Wir empfehlen TLS 1.2 oder höher.

  • Richten Sie die API und die Protokollierung von Benutzeraktivitäten mit ein AWS CloudTrail.

  • Verwenden Sie AWS-Verschlüsselungslösungen zusammen mit allen Standardsicherheitskontrollen in AWS-Services.

  • Verwenden Sie erweiterte verwaltete Sicherheitsservices wie Amazon Macie, die dabei helfen, in Amazon S3 gespeicherte persönliche Daten zu erkennen und zu sichern.

  • Verwenden Sie Amazon EMR in EKS Verschlüsselungsoptionen für die Verschlüsselung von Daten im Ruhezustand bei der Speicherung und während der Übertragung.

  • Wenn Sie für den Zugriff auf AWS über eine Befehlszeilenschnittstelle oder über eine API FIPS 140-2-validierte kryptografische Module benötigen, verwenden Sie einen FIPS-Endpunkt. Weitere Informationen über verfügbare FIPS-Endpunkte finden Sie unter Federal Information Processing Standard (FIPS) 140-2.

Wir empfehlen dringend, in Freitextfeldern wie z. B. im Feld Name keine sensiblen, identifizierenden Informationen wie Kontonummern von Kunden einzugeben. Dies gilt auch, wenn Sie mit Amazon EMR in EKS oder anderen AWS-Services über die Konsole, API, AWS CLI oder AWS SDKs arbeiten. Alle Daten, die Sie in der Amazon EMR in EKS oder andere Services eingeben, können in Diagnoseprotokolle aufgenommen werden. Wenn Sie eine URL für einen externen Server bereitstellen, schließen Sie keine Anmeldeinformationen zur Validierung Ihrer Anforderung an den betreffenden Server in die URL ein.

Verschlüsselung im Ruhezustand

Die Datenverschlüsselung verhindert, dass nicht autorisierte Benutzer Daten auf einem Cluster und in den dazugehörigen Datenspeichersystemen lesen können. Dies gilt für auf persistenten Medien gespeicherte Daten, auch als Daten im Ruhezustand bezeichnet, und für Daten, die während der Übertragung im Netzwerk möglicherweise abgefangen werden, auch als Daten während der Übertragung bezeichnet.

Die Datenverschlüsselung erfordert Aktivierungsschlüssel und Zertifikate. Sie können wählen zwischen verschiedenen Optionen, einschließlich Schlüsseln, die von AWS Key Management Service verwaltet werden, Schlüsseln, die von Amazon S3 verwaltet werden, sowie Schlüsseln und Zertifikaten, die von Anbietern bereitgestellt werden, die Sie angeben. Wenn Sie AWS KMS als Ihren Schlüsselanbieter auswählen, fallen für die Speicherung und Nutzung der Verschlüsselungsschlüssel Gebühren an. Weitere Informationen finden Sie unter AWS KMS-Preisgestaltung.

Bevor Sie Verschlüsselungsoptionen angeben, entscheiden Sie sich für die Schlüssel- und Zertifikatsverwaltungssysteme, die Sie verwenden möchten. Erstellen Sie anschließend die Schlüssel und Zertifikate für die benutzerdefinierten Anbieter, die Sie im Rahmen der Verschlüsselungseinstellungen angeben.

Verschlüsselung im Ruhezustand von EMRFS-Daten in Amazon S3

Die Amazon-S3-Verschlüsselung funktioniert mit EMR File System (EMRFS)-Objekten, die gelesen werden und zu Amazon S3 geschrieben werden. Sie geben serverseitige Verschlüsselung (SSE) von Amazon S3 oder clientseitige Verschlüsselung (CSE) als Standardverschlüsselungsmodus an, wenn Sie die Verschlüsselung im Ruhezustand aktivieren. Optional können Sie verschiedene Verschlüsselungsmethoden für einzelne Buckets mithilfe von Per bucket encryption overrides (Bucket-weises Überschreiben der Verschlüsselung) angeben. Unabhängig davon, ob Amazon-S3-Verschlüsselung aktiviert ist, verschlüsselt Transport Layer Security (TLS) EMRFS-Objekte bei der Übertragung zwischen EMR-Cluster-Knoten und Amazon S3. Ausführliche Informationen zur Amazon-S3-Verschlüsselung finden Sie unter Schützen von Daten mithilfe von Verschlüsselung im Entwicklerhandbuch für Amazon Simple Storage Service.

Anmerkung

Wenn Sie AWS KMS auswählen, fallen für die Speicherung und Nutzung der Verschlüsselungsschlüssel Gebühren an. Weitere Informationen finden Sie unter AWS KMS-Preisgestaltung.

Serverseitige Verschlüsselung im Amazon S3

Wenn Sie die Amazon-S3-Verschlüsselung einrichten, verschlüsselt Amazon S3 die Daten auf der Objektebene, während die Daten auf den Datenträger geschrieben werden, und entschlüsselt sie, wenn auf sie zugegriffen wird. Weitere Informationen über SSE finden Sie unter Schützen von Daten mit serverseitiger Verschlüsselung im Entwicklerhandbuch zu Amazon Simple Storage Service.

Wenn Sie SSE in Amazon EMR in EKS einrichten, haben Sie die Wahl zwischen zwei verschiedenen Systemen für die Schlüsselverwaltung:

  • SSE-S3 – Hierbei verwaltet Amazon S3 die Aktivierungsschlüssel für Sie.

  • SSE-KMS – Sie verwenden eine AWS KMS key, um Richtlinien einzurichten, die für Amazon EMR in EKS geeignet sind.

SSE mit vom Kunden bereitgestellten Schlüsseln (SSE-C) ist für Amazon EMR in EKS; nicht verfügbar.

Clientseitige Verschlüsselung für Amazon S3

Mit Amazon S3 bei der clientseitigen Verschlüsselung erfolgt der Amazon-S3-Ver- und Entschlüsselungsvorgang im EMRFS-Client auf Ihrem EMR-Cluster. Objekte werden vor dem Hochladen nach Amazon S3 verschlüsselt und nach dem Herunterladen entschlüsselt. Der von Ihnen festgelegte Anbieter stellt den vom Client verwendeten Verschlüsselungsschlüssel bereit. Der Client kann vom AWS KMS bereitgestellte Schlüssel (CSE-KMS) oder eine benutzerdefinierte Java-Klasse verwenden, die den clientseitigen Root-Schlüssel (CSE-C) bereitstellt. Die Verschlüsselungseigenschaften unterscheiden sich geringfügig zwischen CSE-KMS und CSE-C, abhängig vom festgelegten Anbieter und von den Metadaten des Objekts, das entschlüsselt oder verschlüsselt werden soll. Weitere Informationen finden Sie unter Schützen von Daten mit clientseitiger Verschlüsselung im Entwicklerhandbuch von Amazon Simple Storage Service.

Anmerkung

Amazon S3 CSE stellt nur sicher, dass EMRFS-Daten, die mit Amazon S3 ausgetauscht werden, verschlüsselt sind. Nicht alle Daten auf den Cluster-Instance-Volumes werden verschlüsselt. Da Hue EMRFS nicht verwendet, werden darüber hinaus Objekte, die vom Hue-S3-Dateibrowser in Amazon S3 geschrieben werden, nicht verschlüsselt.

Verschlüsselung lokaler Datenträger

Apache Spark unterstützt die Verschlüsselung temporärer Daten, die auf lokale Festplatten geschrieben werden. Dies deckt Shuffle-Dateien, Shuffle-Spills und Datenblöcke ab, die sowohl für Caching- als auch für Broadcast-Variablen auf der Festplatte gespeichert sind. Es gilt nicht für die Verschlüsselung von Ausgabedaten, die von Anwendungen mit APIs wie saveAsHadoopFile oder saveAsTable generiert werden. Es gilt möglicherweise auch nicht für temporäre Dateien, die explizit vom Benutzer erstellt wurden. Weitere Informationen finden Sie unter Lokale Speicherverschlüsselung in der Spark-Dokumentation. Spark unterstützt keine verschlüsselten Daten auf der lokalen Festplatte, wie z. B. Zwischendaten, die von einem Executor-Prozess auf eine lokale Festplatte geschrieben werden, wenn die Daten nicht in den Arbeitsspeicher passen. Daten, die dauerhaft auf der Festplatte gespeichert werden, sind auf die Laufzeit des Aufträge beschränkt, und der Schlüssel, der zum Verschlüsseln der Daten verwendet wird, wird von Spark bei jeder Auftragausführung dynamisch generiert. Sobald der Spark-Auftrag beendet ist, kann kein anderer Prozess die Daten entschlüsseln.

Für den Treiber- und den Ausführer-Pod verschlüsseln Sie Daten im Ruhezustand, die auf dem bereitgestellten Volume gespeichert werden. Es gibt drei verschiedene AWS native Speicheroptionen, die Sie mit Kubernetes verwenden können: EBS, EFS und FSx für Lustre. Alle drei bieten Verschlüsselung im Ruhezustand mit einem vom Service verwalteten Schlüssel oder einem AWS KMS key. Weitere Informationen finden Sie unter EKS-Leitfaden für bewährte Methoden. Bei diesem Ansatz werden alle Daten, die auf dem bereitgestellten Volume gespeichert werden, verschlüsselt.

Schlüsselverwaltung

Sie können KMS so konfigurieren, dass Ihre KMS-Schlüssel automatisch rotiert werden. Dadurch werden Ihre Schlüssel einmal im Jahr rotiert, während alte Schlüssel auf unbestimmte Zeit gespeichert werden, sodass Ihre Daten weiterhin entschlüsselt werden können. Weitere Informationen finden Sie unter Rotieren von AWS KMS keys.

Verschlüsselung während der Übertragung

Bei der Verschlüsselung während der Übertragung sind mehrere Verschlüsselungsmechanismen aktiviert. Dabei handelt es sich um Open-Source-Features, die anwendungsspezifisch sind und je nach Amazon EMR in EKS Version variieren können. Die folgenden anwendungsspezifischen Verschlüsselungsfeatures können mit Amazon EMR in EKS aktiviert werden:

  • Spark

    • Interne RPC-Kommunikationen zwischen Spark-Komponenten, z. B. dem Blocktransferdienst und dem externen Shuffle-Service, werden in Amazon-EMR-Version 5.9.0 und höher mit der AES-256-Bit-Verschlüsselung verschlüsselt. In früheren Versionen werden interne RPC-Kommunikationen mithilfe des Verschlüsselungsverfahrens SASL mit DIGEST-MD5 verschlüsselt.

    • HTTP-Protokollkommunikationen mit Benutzeroberflächen wie Spark History Server und HTTPS-fähigen Dateiservern werden mithilfe der SSL-Konfiguration von Spark verschlüsselt. Weitere Informationen finden Sie unter SSL Configuration in der Spark-Dokumentation.

    Weitere Informationen finden Sie unter Spark-Sicherheitseinstellungen.

  • Sie sollten nur verschlüsselte Verbindungen über HTTPS (TLS) unter Anwendung der Bedingung aws:SecureTransport auf Amazon-S3-Bucket IAM-Richtlinien zulassen.

  • Abfrageergebnisse, die zu JDBC- oder ODBC-Clients gestreamt werden, werden mit TLS verschlüsselt.