Überlegungen zu Amazon EMR mit Lake Formation - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überlegungen zu Amazon EMR mit Lake Formation

Beachten Sie Folgendes, wenn Sie Amazon EMR mit AWS Lake Formation verwenden.

Amazon EMR mit Lake Formation ist in allen verfügbaren Regionen verfügbar.

  • Amazon EMR unterstützt eine differenzierte Zugriffskontrolle über Lake Formation nur für Apache Hive- und Apache Iceberg-Tabellen. Zu den Apache Hive-Formaten gehören Parquet, ORC und xSv.

  • Du kannst nicht DynamicResourceAllocation für Jobs in Lake Formation abschalten.

  • Sie können Lake Formation nur mit Spark-Jobs verwenden.

  • Amazon EMR mit Lake Formation unterstützt nur eine einzige Spark-Sitzung während eines Jobs.

  • Amazon EMR mit Lake Formation unterstützt nur kontenübergreifende Tabellenabfragen, die über Ressourcenlinks gemeinsam genutzt werden.

  • Folgendes wird nicht unterstützt:

    • Resilient Distributed Datasets (RDD)

    • Spark-Streaming

    • Schreiben Sie mit Lake Formation erteilten Berechtigungen

    • Zugriffskontrolle für verschachtelte Spalten

  • Amazon EMR blockiert Funktionen, die die vollständige Isolierung des Systemtreibers untergraben könnten, darunter die folgenden:

    • UDTs, Hive und alle benutzerdefinierten FunktionenUDFs, die benutzerdefinierte Klassen beinhalten

    • Benutzerdefinierte Datenquellen

    • Bereitstellung zusätzlicher Jars für Spark-Erweiterungen, Konnektoren oder Metastore

    • ANALYZE TABLE command

  • Um Zugriffskontrollen EXPLAIN PLAN und DDL-Operationen durchzusetzen, z. B. um eingeschränkte DESCRIBE TABLE Informationen nicht preiszugeben.

  • Amazon EMR schränkt den Zugriff auf Systemtreiber-Spark-Protokolle für Lake Formation-fähige Anwendungen ein. Da der Systemtreiber mit erhöhten Rechten ausgeführt wird, können Ereignisse und Protokolle, die der Systemtreiber generiert, vertrauliche Informationen enthalten. Um zu verhindern, dass unbefugte Benutzer oder Code auf diese sensiblen Daten zugreifen, deaktiviert Amazon EMR den Zugriff auf Systemtreiberprotokolle.

    Systemprofilprotokolle werden immer im verwalteten Speicher gespeichert — dies ist eine obligatorische Einstellung, die nicht deaktiviert werden kann. Diese Protokolle werden sicher gespeichert und entweder mit einem vom Kunden verwalteten KMS-Schlüssel oder einem AWS verwalteten KMS-Schlüssel verschlüsselt.

    Wenn sich Ihre Amazon EMR-Anwendung in einem privaten Subnetz mit VPC-Endpunkten für Amazon S3 befindet und Sie eine Endpunktrichtlinie zur Zugriffskontrolle anhängen, müssen Sie, bevor Ihre Jobs Protokolldaten an AWS Managed Amazon S3 senden können, die unter Verwalteter Speicher beschriebenen Berechtigungen in Ihre VPC-Richtlinie für den S3-Gateway-Endpunkt aufnehmen. Wenden Sie sich bei Anfragen zur Fehlerbehebung an den Support. AWS

  • Wenn Sie einen Tabellenstandort bei Lake Formation registriert haben, durchläuft der Datenzugriffspfad unabhängig von der IAM-Berechtigung für die Amazon EMR-Job-Runtime-Rolle die gespeicherten Anmeldeinformationen von Lake Formation. Wenn Sie die mit der Tabellenposition registrierte Rolle falsch konfigurieren, schlagen gesendete Jobs fehl, die die Rolle mit der S3-IAM-Berechtigung für den Tabellenspeicherort verwenden.

  • Beim Schreiben in eine Lake Formation-Tabelle werden IAM-Berechtigungen und nicht die von Lake Formation erteilten Berechtigungen verwendet. Wenn Ihre Job-Runtime-Rolle über die erforderlichen S3-Berechtigungen verfügt, können Sie sie zum Ausführen von Schreibvorgängen verwenden.

Im Folgenden finden Sie Überlegungen und Einschränkungen bei der Verwendung von Apache Iceberg:

  • Sie können Apache Iceberg nur mit Sitzungskatalogen und nicht mit beliebig benannten Katalogen verwenden.

  • Iceberg-Tabellen, die in Lake Formation registriert sind, unterstützen nur die Metadatentabellen historymetadata_log_entries,snapshots,files,manifests, undrefs. Amazon EMR blendet die Spalten aus, die möglicherweise vertrauliche Daten wie partitionspath, und enthalten. summaries Diese Einschränkung gilt nicht für Iceberg-Tabellen, die nicht in Lake Formation registriert sind.

  • Tabellen, die Sie nicht in Lake Formation registrieren, unterstützen alle gespeicherten Iceberg-Prozeduren. Die migrate Prozeduren register_table und werden für keine Tabellen unterstützt.

  • Wir empfehlen, Iceberg DataFrameWriter V2 statt V1 zu verwenden.

  • EMR 7.10 bietet die Möglichkeit, wieder zu Funktionen zu RecordServer wechseln, die von nativem FGAC unterstützt RecordServer, aber noch nicht unterstützt werden, wie z. B. das Zurückschreiben in registrierte Tabellen von Lake Formation. Um zurück zu wechseln, geben Sie beim Starten des Clusters die folgenden Konfigurationen an.

    { "Classification": "spark-defaults", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }, { "Classification": "yarn-site", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }