Crawler-Verhalten anpassen

Wenn Sie einen konfigurieren AWS-Glue-Crawler, haben Sie mehrere Möglichkeiten, das Verhalten Ihres Crawlers zu definieren.

Inkrementelle Crawls — Sie können einen Crawler so konfigurieren, dass er inkrementelle Crawls ausführt, um dem Tabellenschema nur neue Partitionen hinzuzufügen.
Partitionsindizes — Ein Crawler erstellt standardmäßig Partitionsindizes für Amazon S3- und Delta Lake-Ziele, um eine effiziente Suche nach bestimmten Partitionen zu ermöglichen.
Beschleunigen Sie die Crawlzeit mithilfe von Amazon S3-Ereignissen — Sie können einen Crawler so konfigurieren, dass er Amazon S3 S3-Ereignisse verwendet, um die Änderungen zwischen zwei Crawls zu identifizieren, indem Sie alle Dateien aus dem Unterordner auflisten, der das Ereignis ausgelöst hat, anstatt das vollständige Amazon S3- oder Data Catalog-Ziel aufzulisten.
Umgang mit Schemaänderungen — Sie können verhindern, dass ein Crawler Schemaänderungen am vorhandenen Schema vornimmt. Sie können die AWS Management Console oder die AWS Glue API verwenden, um zu konfigurieren, wie Ihr Crawler bestimmte Arten von Änderungen verarbeitet.
Ein einziges Schema für mehrere Amazon S3 S3-Pfade — Sie können einen Crawler so konfigurieren, dass er für jeden S3-Pfad ein einzelnes Schema erstellt, sofern die Daten kompatibel sind.
Tabellenposition und Partitionierungsebenen — Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen.
Tabellenschwellenwert — Sie können die maximale Anzahl von Tabellen angeben, die der Crawler erstellen darf, indem Sie einen Tabellenschwellenwert angeben.
AWS Lake Formation Anmeldeinformationen — Sie können einen Crawler so konfigurieren, dass er Lake Formation Formation-Anmeldeinformationen verwendet, um auf einen Amazon S3 S3-Datenspeicher oder eine Datenkatalogtabelle mit einem zugrunde liegenden Amazon S3 S3-Speicherort innerhalb desselben AWS-Konto oder eines anderen AWS-Konto zuzugreifen.

Weitere Informationen zur Verwendung der AWS Glue-Konsole zum Hinzufügen eines Crawlers finden Sie unter Konfiguration eines Crawlers.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Parameter, die vom Crawler in Data-Catalog-Tabellen festgelegt wurden

Planung inkrementeller Crawls