Überlegungen und Einschränkungen bei der Verwendung des Spark-Connectors

Der Spark-Konnektor unterstützt eine Vielzahl von Methoden zur Verwaltung von Anmeldeinformationen, zur Konfiguration der Sicherheit und zur Verbindung mit anderen Diensten. AWS Machen Sie sich mit den Empfehlungen in dieser Liste vertraut, um eine funktionale und belastbare Verbindung zu konfigurieren.

Wir empfehlen, Ihnen SSL für die JDBC-Verbindung von Spark auf Amazon EMR zu Amazon Redshift zu aktivieren.
Als bewährte Methode empfehlen wir Ihnen, die Anmeldeinformationen für den Amazon-Redshift-Cluster in AWS Secrets Manager zu verwalten. Ein Beispiel finden Sie unter Verwenden AWS Secrets Manager zum Abrufen von Anmeldeinformationen für die Verbindung mit Amazon Redshift.
Wir empfehlen, dass Sie eine IAM-Rolle mit dem Parameter aws_iam_role für den Amazon-Redshift-Authentifizierungsparameter zu übergeben.
Derzeit wird das Parquet-Format vom Parameter tempformat nicht unterstützt.
Die tempdir-URI verweist auf einen Amazon-S3-Speicherort. Dieses temporäre Verzeichnis wird nicht automatisch bereinigt und kann zusätzliche Kosten verursachen.
Beachten Sie die folgenden Empfehlungen für Amazon Redshift:
- Wir empfehlen, den öffentlichen Zugriff auf den Amazon-Redshift-Cluster zu blockieren.
- Wir empfehlen, die Amazon-Redshift-Auditprotokollierung zu aktivieren.
- Wir empfehlen, die Amazon-Redshift-Verschlüsselung im Ruhezustand zu aktivieren.
Beachten Sie die folgenden Empfehlungen für Amazon S3:
- Wir empfehlen, den öffentlichen Zugriff auf Amazon-S3-Buckets zu blockieren.
- Wir empfehlen die Verwendung der serverseitigen Amazon-S3-Verschlüsselung, um die verwendeten S3-Buckets zu verschlüsseln.
- Wir empfehlen, die Lebenszyklusrichtlinien für Amazon S3 zu verwenden, um die Aufbewahrungsregeln für den S3-Bucket zu definieren.
- Amazon EMR überprüft immer Code, der aus Open Source in das Image importiert wurde. Aus Sicherheitsgründen unterstützen wir die Verschlüsselung von AWS Zugriffsschlüsseln in der tempdir URI nicht als Authentifizierungsmethode von Spark zu Amazon S3.

Weitere Informationen zum Verwenden des Konnektors und seiner unterstützten Parameter finden Sie in den folgenden Ressourcen:

Amazon-Redshift-Integration für Apache Spark im Amazon-Redshift-Verwaltungshandbuch
Das spark-redshift-Community-Repository auf Github

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

In Amazon Redshift schreiben und lesen

Volcano verwenden