新しいパーティションを追加するための増分クロール - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

新しいパーティションを追加するための増分クロール

クローラーには新しいパーティションを追加するオプションがあり、安定したテーブルスキーマを持つ増分データセットのクロールが速くなります。典型的なユースケースは、スケジュールされたクローラーで、クロールごとに新しいパーティションが追加されます。このオプションをオンにすると、最初にターゲットデータセットで完全なクロールを実行し、クローラーが初期スキーマとパーティション構造を記録できるようになります。クロールの再実行時、スキーマに互換性がある場合にのみ、新しいパーティションが既存のテーブルに追加されます。最初のクロール実行後に、スキーマの変更は行われず、Data Catalog に新しいテーブルを追加することはありません。

Amazon S3 データソースを設定するときにこのオプションを使用できます。CreateCrawler API で「Crawl_New_Folders」として RecrawlBehaviorRecrawlPolicy 設定することも、コンソールで [Subsequent crawler runs][Crawl new sub-folders only] と設定することもできます。

クローラーは、どのようにパーティションを作成するタイミングを判断していますか? の例を続けます。次の図は、3 月のファイルが追加されていることを示しています。

次の図は、3 月のファイルが追加されていることを示しています。

「Crawl_New_Folders」として RecrawlBehavior オプションを設定した場合、新しいフォルダ month=Mar のみがクロールされます。

注意と制限

このオプションをオンにすると、クローラーの編集時に Amazon S3 ターゲットデータストアを変更できなくなります。このオプションは、ある特定のクローラー設定に影響します。オンにすると、クローラーの更新動作と削除動作が LOG になります。これにより、以下のように処理されます。

  • スキーマに互換性がないオブジェクトを検出した場合、クローラーはデータカタログにオブジェクトを追加せず、この詳細を CloudWatch Logs のログとして追加します。

  • データカタログで削除されたオブジェクトは更新されません。

詳細については、「クローラーの動作のカスタマイズ」を参照してください。