Voraussetzungen für Crawler - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Voraussetzungen für Crawler

Der Crawler übernimmt die Rechte der Rolle AWS Identity and Access Management (IAM), die Sie bei der Definition angeben. Diese IAM Rolle muss über Berechtigungen verfügen, um Daten aus Ihrem Datenspeicher zu extrahieren und in den Datenkatalog zu schreiben. In der AWS Glue Konsole werden nur IAM Rollen aufgeführt, denen eine Vertrauensrichtlinie für den AWS Glue Prinzipaldienst zugewiesen wurde. Von der Konsole aus können Sie auch eine IAM Rolle mit einer IAM Richtlinie für den Zugriff auf Amazon S3 S3-Datenspeicher erstellen, auf die der Crawler zugreift. Weitere Informationen zum Bereitstellen von Rollen für AWS Glue finden Sie unter Identitätsbasierte Richtlinien für Glue AWS.

Anmerkung

Beim Crawling eines Delta Lake-Datenspeichers benötigen Sie Lese-/Schreibberechtigungen für den Amazon S3-Speicherort.

Für Ihren Crawler können Sie eine Rolle erstellen und die folgenden Richtlinien anfügen:

  • Die AWSGlueServiceRole AWS verwaltete Richtlinie, die die erforderlichen Berechtigungen für den Datenkatalog gewährt

  • Eine Inline-Richtlinie, die Berechtigungen für die Datenquelle erteilt.

  • Eine Inline-Richtlinie, die iam:PassRole Berechtigungen für die Rolle gewährt.

Ein schnellerer Ansatz besteht darin, den Crawler-Assistenten der AWS Glue-Konsole eine Rolle für Sie erstellen zu lassen. Die Rolle, die sie erstellt, ist speziell für den Crawler bestimmt und umfasst die AWSGlueServiceRole AWS verwaltete Richtlinie sowie die erforderliche Inline-Richtlinie für die angegebene Datenquelle.

Wenn Sie eine vorhandene Rolle für einen Crawler angeben, stellen Sie sicher, dass dieser die AWSGlueServiceRole-Richtlinie oder eine gleichwertige Version dieser Richtlinie (oder eine abgespeckte Version) sowie die erforderlichen Inline-Richtlinien enthält. Für einen Amazon-S3-Datenspeicher wäre die Inline-Richtlinie beispielsweise mindestens die folgende:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

Für einen Amazon-DynamoDB-Datenspeicher wäre die Richtlinie beispielsweise mindestens die folgende:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:region:account-id:table/table-name*" ] } ] }

Wenn der Crawler verschlüsselte Amazon S3 S3-Daten liest AWS Key Management Service (AWS KMS), muss die IAM Rolle außerdem über die Entschlüsselungsberechtigung für den AWS KMS Schlüssel verfügen. Weitere Informationen finden Sie unter Schritt 2: Erstellen Sie eine IAM Rolle für AWS Glue.