クローラーの動作のカスタマイズ

AWS Glue クローラーを設定する場合、クローラーの動作を定義するためのオプションをいくつか使用できます。

増分クロール – テーブルスキーマに新しいパーティションのみを追加する増分クロールを実行するようにクローラーを設定できます。
パーティションインデックス – クローラーは、特定のパーティションを効率的に検索するために、デフォルトで Amazon S3 および Delta Lake ターゲットのパーティションインデックスを作成します。
Amazon S3 イベントを使用してクロール時間を短縮する – Amazon S3 または Data Catalog ターゲット全体を一覧表示するのではなく、Amazon S3 イベントを使用してイベントをトリガーしたサブフォルダからのすべてのファイルを一覧表示して 2 つのクロール間の変更を識別するようにクローラーを設定できます。
スキーマの変更の処理 – クローラーが既存のスキーマに対してスキーマの変更を行わないようにすることができます。AWS Management Console または AWS Glue API を使用して、特定のタイプの変更をクローラーで処理する方法を設定できます。
複数の Amazon S3 パスの単一のスキーマ – データに互換性がある場合は、各 S3 パスの単一のスキーマを作成するようにクローラーを設定できます。
テーブルの場所とパーティションレベル – テーブルレベルのクローラーオプションを使用すると、クローラーにテーブルの配置場所やパーティションの作成方法を柔軟に指定できます。
テーブルしきい値 – テーブルしきい値を指定することで、クローラーが作成できるテーブルの最大数を指定できます。
AWS Lake Formation 認証情報 – Lake Formation 認証情報を使用するようにクローラーを設定すると、同じ AWS アカウントまたは別の AWS アカウント内の Amazon S3 データストアまたは Data Catalog テーブルにアクセスできます。これらのテーブルは、Amazon S3 の場所を基盤としています。

AWS Glue コンソールを使用してクローラーを追加する方法の詳細については、「クローラーの設定」を参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

クローラーによって設定されたデータカタログテーブルのパラメータ

増分クロールのスケジューリング