Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Wenn Sie einen konfigurieren AWS-Glue-Crawler, haben Sie mehrere Möglichkeiten, das Verhalten Ihres Crawlers zu definieren.
-
Inkrementelle Crawls — Sie können einen Crawler so konfigurieren, dass er inkrementelle Crawls ausführt, um dem Tabellenschema nur neue Partitionen hinzuzufügen.
-
Partitionsindizes — Ein Crawler erstellt standardmäßig Partitionsindizes für Amazon S3- und Delta Lake-Ziele, um eine effiziente Suche nach bestimmten Partitionen zu ermöglichen.
-
Beschleunigen Sie die Crawlzeit mithilfe von Amazon S3-Ereignissen — Sie können einen Crawler so konfigurieren, dass er Amazon S3 S3-Ereignisse verwendet, um die Änderungen zwischen zwei Crawls zu identifizieren, indem Sie alle Dateien aus dem Unterordner auflisten, der das Ereignis ausgelöst hat, anstatt das vollständige Amazon S3- oder Data Catalog-Ziel aufzulisten.
Umgang mit Schemaänderungen — Sie können verhindern, dass ein Crawler Schemaänderungen am vorhandenen Schema vornimmt. Sie können das AWS Management Console oder das verwenden AWS Glue API, um zu konfigurieren, wie Ihr Crawler bestimmte Arten von Änderungen verarbeitet.
-
Ein einziges Schema für mehrere Amazon S3 S3-Pfade — Sie können einen Crawler so konfigurieren, dass er für jeden S3-Pfad ein einzelnes Schema erstellt, sofern die Daten kompatibel sind.
Tabellenposition und Partitionierungsebenen — Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen.
Tabellenschwellenwert — Sie können die maximale Anzahl von Tabellen angeben, die der Crawler erstellen darf, indem Sie einen Tabellenschwellenwert angeben.
AWS Lake Formation Anmeldeinformationen — Sie können einen Crawler so konfigurieren, dass er Lake Formation Formation-Anmeldeinformationen verwendet, um auf einen Amazon S3 S3-Datenspeicher oder eine Datenkatalogtabelle mit einem zugrunde liegenden Amazon S3 S3-Speicherort innerhalb desselben AWS-Konto oder eines anderen AWS-Konto zuzugreifen.
Weitere Informationen zur Verwendung von AWS Glue Konsole zum Hinzufügen eines Crawlers finden Sie unterKonfiguration eines Crawlers.
Themen
Planung inkrementeller Crawls zum Hinzufügen neuer Partitionen
Erstellen eines einzelnen Schemas für jeden Amazon S3 S3-Include-Pfad
Angabe des Tabellenspeicherorts und der Partitionierungsebene
Angabe der maximalen Anzahl von Tabellen, die der Crawler erstellen darf
Konfiguration eines Crawlers für die Verwendung von Lake Formation Formation-Anmeldeinformationen
Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen