AWS Glue Data Catalog als Apache Hive-Metastore angeben AWS Glue Data Catalog als Apache Iceberg-Katalog angeben IAM-Berechtigungen Überlegungen

Verwenden Sie den AWS Glue Data Catalog-Katalog mit Spark auf Amazon EMR

Mit Amazon EMR Version 5.8.0 oder höher können Sie Spark so konfigurieren, dass der AWS Glue-Datenkatalog als Apache Hive-Metastore verwendet wird. Wir empfehlen diese Konfiguration, wenn Sie einen persistenten Hive-Metastore oder einen Hive-Metastore benötigen, der von verschiedenen Clustern, Diensten, Anwendungen oder Konten gemeinsam genutzt wird. AWS

Mit Amazon EMR Version 6.5.0 oder höher können Sie Spark so konfigurieren, dass der AWS Glue-Datenkatalog mit Apache Iceberg verwendet wird.

Mit Amazon EMR Version 7.5.0 oder höher können Sie Spark so konfigurieren, dass der AWS Glue-Datenkatalog als Iceberg-REST-Katalog verwendet wird.

AWS Glue ist ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden), mit dem Sie Ihre Daten einfach und kostengünstig kategorisieren, bereinigen, anreichern und zuverlässig zwischen verschiedenen Datenspeichern verschieben können. Der AWS Glue Data Catalog bietet ein einheitliches Metadaten-Repository für eine Vielzahl von Datenquellen und Datenformaten, das sich in Amazon EMR sowie Amazon RDS, Amazon Redshift, Redshift Spectrum, Athena und jede mit dem Apache Hive Metastore kompatible Anwendung integrieren lässt. AWS Glue-Crawler können automatisch Schemas aus Quelldaten in Amazon S3 ableiten und die zugehörigen Metadaten im Datenkatalog speichern. Weitere Informationen zum Datenkatalog finden Sie unter Füllen des AWS Glue-Datenkatalogs im AWS Glue-Entwicklerhandbuch.

Für AWS Glue fallen separate Gebühren an. Es gibt eine monatliche Gebühr für das Speichern und Zugreifen auf die Metadaten im Datenkatalog, einen Stundensatz, der pro Minute für AWS Glue ETL-Jobs und Crawler-Laufzeit abgerechnet wird, und einen Stundensatz, der pro Minute für jeden bereitgestellten Entwicklungsendpunkt abgerechnet wird. Der Datenkatalog ermöglicht Ihnen die gebührenfreie Speicherung von bis zu einer Million Objekten. Wenn Sie mehr als eine Million Objekte speichern, fällt eine Gebühr von 1 USD für jeweils 100.000 zusätzliche Objekte an. Im Data Catalog ist ein Objekt eine Tabelle, eine Partition oder eine Datenbank. Weitere Informationen finden Sie unter Glue-Preise.

Wichtig

Wenn Sie vor dem 14. August 2017 Tabellen mit Amazon Athena oder Amazon Redshift Spectrum erstellt haben, werden Datenbanken und Tabellen in einem von Athena verwalteten Katalog gespeichert, der vom Glue-Datenkatalog getrennt ist. AWS Um Amazon EMR mit diesen Tabellen zu integrieren, müssen Sie ein Upgrade auf den AWS Glue Data Catalog durchführen. Weitere Informationen finden Sie unter Upgrade auf den AWS Glue-Datenkatalog im Amazon Athena Athena-Benutzerhandbuch.

AWS Glue Data Catalog als Apache Hive-Metastore angeben

Sie können den AWS Glue-Datenkatalog mithilfe der Amazon EMR-API AWS Management Console AWS CLI, oder als Metastore angeben. Wenn Sie die CLI oder API verwenden, verwenden Sie die Konfigurationsklassifizierung für Spark, um den Datenkatalog anzugeben. Darüber hinaus können Sie mit Amazon EMR 5.16.0 und höher die Konfigurationsklassifizierung verwenden, um einen Datenkatalog in einem anderen Format anzugeben. AWS-KontoWenn Sie die Konsole verwenden, können Sie den Data Catalog mit den erweiterten Optionen oder den Schnelloptionen angeben.

Anmerkung

Die Option zur Verwendung von AWS Glue Data Catalog ist auch bei Zeppelin verfügbar, da Zeppelin mit Spark-Komponenten installiert ist.

Console

Um AWS Glue Data Catalog mit der neuen Konsole als Apache Hive-Metastore zu spezifizieren

Melden Sie sich bei der AWS Management Console an und öffnen Sie die Amazon EMR-Konsole unter https://console.aws.amazon.com/emr.
Wählen Sie EC2 im linken Navigationsbereich unter Amazon EMR on die Option Clusters und dann Create cluster aus.
Wählen Sie unter Anwendungspaket die Option Spark oder Benutzerdefiniert aus. Wenn Sie Ihren Cluster anpassen, stellen Sie sicher, dass Sie Zeppelin oder Spark als eine Ihrer Anwendungen auswählen.
Aktivieren Sie unter Einstellungen für den AWS Glue Data Catalog das Kontrollkästchen Für Spark-Tabellenmetadaten verwenden.
Wählen Sie alle anderen Optionen aus, die für Ihren Cluster gelten.
Um Ihren Cluster jetzt zu starten, wählen Sie Cluster erstellen aus.

AWS CLI

Um den AWS Glue-Datenkatalog als Apache Hive-Metastore anzugeben mit dem AWS CLI

Weitere Informationen zur Angabe einer Konfigurationsklassifizierung mithilfe der AWS CLI Amazon EMR-API finden Sie unterAnwendungen konfigurieren.

Geben Sie den Wert für hive.metastore.client.factory.class mit der Klassifizierung spark-hive-site an, wie in dem folgenden Beispiel gezeigt:


[
  {
    "Classification": "spark-hive-site",
    "Properties": {
      "hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"
    }
  }
]

Um einen Datenkatalog in einem anderen AWS Konto anzugeben, fügen Sie die hive.metastore.glue.catalogid Eigenschaft hinzu, wie im folgenden Beispiel gezeigt. Ersetzen Sie acct-id durch das AWS -Konto des Data Catalog.


[
  {
    "Classification": "spark-hive-site",
    "Properties": {
      "hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory",
      "hive.metastore.glue.catalogid": "acct-id"
    }
  }
]

AWS Glue Data Catalog als Apache Iceberg-Katalog angeben

Sie können den AWS Glue-Datenkatalog als Apache Iceberg-Katalogimplementierung oder als Apache Iceberg-REST-Katalogendpunkt angeben, indem Sie die AWS Management Console AWS CLI, oder die Amazon EMR-API oder die Laufzeitkonfiguration der Spark-Sitzung verwenden. Wenn Sie die CLI oder API verwenden, verwenden Sie die Konfigurationsklassifizierung für Spark, um den Datenkatalog anzugeben. Weitere Informationen finden Sie unter AWS Glue Data Catalog als Apache Iceberg-Katalog angeben.

IAM-Berechtigungen

Das EC2 Instanzprofil für einen Cluster muss über IAM-Berechtigungen für AWS Glue-Aktionen verfügen. Wenn Sie die Verschlüsselung für AWS Glue Data Catalog-Objekte aktivieren, muss die Rolle außerdem berechtigt sein, die für die Verschlüsselung AWS KMS key verwendeten Daten zu verschlüsseln, zu entschlüsseln und zu generieren.

Berechtigungen für AWS Glue-Aktionen

Wenn Sie das EC2 Standard-Instance-Profil für Amazon EMR verwenden, ist keine Aktion erforderlich. Die AmazonElasticMapReduceforEC2Role verwaltete Richtlinie, die an die angehängt ist, EMR_EC2_DefaultRole ermöglicht alle erforderlichen AWS Glue-Aktionen. Wenn Sie jedoch ein benutzerdefiniertes EC2 Instanzprofil und Berechtigungen angeben, müssen Sie die entsprechenden AWS Glue-Aktionen konfigurieren. Verwenden Sie hierzu die verwaltete Richtlinie AmazonElasticMapReduceforEC2Role als Ausgangspunkt. Weitere Informationen finden Sie unter Servicerolle für EC2 Cluster-Instances (EC2 Instance-Profil) im Amazon EMR Management Guide.

Berechtigungen zum Verschlüsseln und Entschlüsseln von AWS Glue Data Catalog

Ihr Instance-Profil benötigt die Erlaubnis, Daten mithilfe Ihres Schlüssels zu verschlüsseln und zu entschlüsseln. Sie müssen diese Berechtigungen nicht konfigurieren, wenn die beiden folgenden Aussagen zutreffen:

Sie aktivieren die Verschlüsselung für AWS Glue Data Catalog-Objekte mithilfe von verwalteten Schlüsseln für AWS Glue.
Sie verwenden einen Cluster, der sich im selben Verzeichnis befindet AWS-Konto wie der AWS Glue-Datenkatalog.

Andernfalls müssen Sie der Berechtigungsrichtlinie, die Ihrem EC2 Instanzprofil beigefügt ist, die folgende Erklärung hinzufügen.


[
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Action": [
                    "kms:Decrypt",
                    "kms:Encrypt",
                    "kms:GenerateDataKey"
                ],
                "Resource": "arn:aws:kms:region:acct-id:key/12345678-1234-1234-1234-123456789012"
            }
        ]
    }
]

Weitere Informationen zur Verschlüsselung von AWS Glue Data Catalog finden Sie unter Verschlüsselung Ihres Datenkatalogs im AWS Glue Developer Guide.

Ressourcenbasierte Berechtigungen

Wenn Sie AWS Glue in Verbindung mit Hive, Spark oder Presto in Amazon EMR verwenden, unterstützt AWS Glue ressourcenbasierte Richtlinien zur Steuerung des Zugriffs auf Datenkatalogressourcen. Zu diesen Ressourcen gehören Datenbanken, Tabellen, Verbindungen und benutzerdefinierte Funktionen. Weitere Informationen finden Sie unter Verwenden von ressourcenbasierten Richtlinien für AWS Glue im AWS -Glue-Entwicklerhandbuch.

Wenn Sie ressourcenbasierte Richtlinien verwenden, um den Zugriff auf AWS Glue von Amazon EMR aus zu beschränken, muss der Principal, den Sie in der Berechtigungsrichtlinie angeben, der Rollen-ARN sein, der dem EC2 Instance-Profil zugeordnet ist, das bei der Erstellung eines Clusters angegeben wird. Für eine ressourcenbasierte Richtlinie, die an einen Katalog angehängt ist, können Sie beispielsweise den Rollen-ARN für die Standarddienstrolle für EC2 Clusterinstanzen angeben, EMR_EC2_DefaultRole indem Sie das Principal im folgenden Beispiel gezeigte Format verwenden:


arn:aws:iam::acct-id:role/EMR_EC2_DefaultRole

Die acct-id kann sich von der AWS Glue-Konto-ID unterscheiden. Dies ermöglicht den Zugriff von EMR-Clustern in verschiedenen Konten aus. Sie können mehrere Principals angeben, von denen jeder aus einem anderen Konto stammt.

Überlegungen zur Verwendung von AWS Glue Data Catalog

Beachten Sie die folgenden Punkte, wenn Sie AWS Glue Data Catalog als Apache Hive-Metastore mit Spark verwenden:

Das Vorhandensein einer Standarddatenbank ohne Speicherort-URI sorgt für Fehler beim Erstellen einer Tabelle. Um dieses Problem zu umgehen, verwenden Sie die LOCATION-Klausel, um den Bucket-Speicherort anzugeben, z. B. s3://amzn-s3-demo-bucket1, wenn Sie CREATE TABLE verwenden. Alternativ können Sie auch Tabellen in einer anderen Datenbank als der Standarddatenbank erstellen.
Das Umbenennen von Tabellen in AWS Glue wird nicht unterstützt.
Wenn Sie eine Hive-Tabelle erstellen, ohne eine LOCATION anzugeben, werden die Tabellendaten an dem in der Eigenschaft hive.metastore.warehouse.dir angegebenen Ort gespeichert. Standardmäßig ist dies ein Speicherort in HDFS. Wenn ein anderer Cluster auf die Tabelle zugreifen muss, schlägt er fehl, sofern er nicht über ausreichende Berechtigungen für den Cluster verfügt, der die Tabelle erstellt hat. Da HDFS-Speicher vorübergehend ist, gehen außerdem die Tabellendaten verloren, wenn der Cluster beendet wird, und die Tabelle muss neu erstellt werden. Wir empfehlen, dass Sie LOCATION in Amazon S3 a angeben, wenn Sie eine Hive-Tabelle mit AWS Glue erstellen. Alternativ können Sie die hive-site-Konfigurationsklassifizierung verwenden, um einen Speicherort in Amazon S3 für hive.metastore.warehouse.dir anzugeben, der für alle Hive-Tabellen gilt. Wenn eine Tabelle an einem HDFS-Speicherort erstellt wurde und der Cluster, der sie erstellt hat, noch läuft, können Sie den Tabellenspeicherort von AWS Glue aus auf Amazon S3 aktualisieren. Weitere Informationen finden Sie unter Arbeiten mit Tabellen auf der AWS Glue-Konsole im AWS Glue-Entwicklerhandbuch.
Partitionswerte, die Anführungszeichen und Apostrophe enthalten, werden nicht unterstützt, zum Beispiel PARTITION (owner="Doe's").
Spaltenstatistiken werden für emr-5.31.0 und höher unterstützt.
Die Verwendung der Hive-Autorisierung wird nicht unterstützt. Als Alternative sollten Sie die Verwendung ressourcenbasierter Richtlinien für AWS Glue in Betracht ziehen. Weitere Informationen finden Sie unter Verwenden von ressourcenbasierten Richtlinien für Amazon EMR Access to AWS Glue Data Catalog.

Beachten Sie Folgendes, wenn Sie AWS Glue Data Catalog als Apache Iceberg REST-Katalog mit Spark verwenden:

Wenn Sie den Spark-Sitzungskatalog mit Iceberg verwenden, der unter beschrieben istKonfigurationsunterschiede bei der Verwendung von Iceberg versus SparkCatalog SparkSessionCatalog, müssen Sie zusätzlich zur Konfiguration des AWS Glue-Datenkatalogs als Apache Hive-Metastore den AWS Glue-Datenkatalog als Apache Iceberg-REST-Katalog konfigurieren.
Der IRC-Endpunkt AWS Glue Data Catalog unterstützt nur das Amazon SigV4-Authentifizierungsschema. OAuth wird nicht unterstützt. OAuth Benutzer verwenden bitte IAM Identity Center, um den Zugriff zu konfigurieren. Weitere Informationen finden Sie unter Verbindung von Lake Formation mit dem IAM Identity Center.
Der AWS Glue Iceberg REST-Katalog unterstützt nicht alle Operationen in Open Source.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Spark-Anwendungen mit Docker mithilfe von Amazon EMR 6.x ausführen

Arbeiten mit einer Hierarchie mit mehreren Katalogen in AWS Glue Data Catalog