クローラー API - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

クローラー API

クローラー API では、クローラーのデータ型と、 AWS Glue クローラーを作成、削除、更新、および一覧表示するための API について説明します。

データ型

Crawler 構造

データソースを検査し、分類子を使用してスキーマを判別しようとするクローラープログラムを指定します。成功すると、クローラーはデータソースに関するメタデータを AWS Glue Data Catalog に記録します。

フィールド
  • Name – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    クローラー名。

  • Role – UTF-8 文字列。

    Amazon Simple Storage Service (Amazon S3) データなどの顧客リソースへのアクセスに使用される IAM ロールの Amazon リソースネーム (ARN)。

  • TargetsCrawlerTargets オブジェクト。

    クロールするターゲットのコレクション。

  • DatabaseName – UTF-8 文字列。

    クローラーの出力が保存されている場所のデータベース名。

  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    クローラーの説明。

  • Classifiers – UTF-8 文字列の配列。

    クローラーに関連付けられたカスタム分類子を指定する UTF-8 文字列のリスト。

  • RecrawlPolicyRecrawlPolicy オブジェクト。

    データセット全体を再度クロールするか、前回のクローラー実行以降に追加されたフォルダのみをクロールするかを指定するポリシー。

  • SchemaChangePolicySchemaChangePolicy オブジェクト。

    クローラーの更新と削除の動作を指定するポリシー。

  • LineageConfigurationLineageConfiguration オブジェクト。

    クローラーに対してデータ系統を有効にするかどうかを指定する設定。

  • State – UTF-8 文字列 (有効な値: READY | RUNNING | STOPPING)。

    クローラーが実行中かどうか、あるいは実行が保留中かどうかを示します。

  • TablePrefix - UTF-8 文字列。128 バイト長以下。

    作成されたテーブルの名前に追加されるプレフィックス。

  • Scheduleスケジュール オブジェクト。

    スケジュールされたクローラーの場合、クローラーが実行されるスケジュール。

  • CrawlElapsedTime – 数値 (long 型)。

    クローラーが実行されている場合は、最後のクロールが開始されてから経過した合計時間が含まれます。

  • CreationTime – タイムスタンプ。

    クローラーが作成された時刻。

  • LastUpdated – タイムスタンプ。

    クローラーが最後に更新された時刻。

  • LastCrawlLastCrawlInfo オブジェクト。

    最後のクロールのステータス、およびエラーが発生した場合はエラー情報。

  • Version – 数値 (long 型)。

    クローラーのバージョン。

  • Configuration – UTF-8 文字列。

    クローラーの構成情報。このバージョン付きの JSON 文字列では、クローラーの動作特性を指定できます。詳細については、「クローラー設定オプションの設定」を参照してください。

  • CrawlerSecurityConfiguration - UTF-8 文字列。128 バイト長以下。

    このクローラーで使用される SecurityConfiguration 構造の名前。

  • LakeFormationConfigurationLakeFormationConfiguration オブジェクト。

    クローラーが IAM ロール AWS Lake Formation の認証情報の代わりにクローラーの認証情報を使用するかどうかを指定します。

Schedule 構造

cron ステートメントを使用してイベントをスケジュールするスケジューリングオブジェクト。

フィールド
  • ScheduleExpression – UTF-8 文字列。

    スケジュールを指定するために使用される cron 式 (ジョブとクローラーの時間ベースのスケジュールを参照してください。) たとえば、毎日 12:15 UTC に何かを実行するには、cron(15 12 * * ? *) を指定します。

  • State – UTF-8 文字列 (有効な値: SCHEDULED | NOT_SCHEDULED | TRANSITIONING)。

    スケジュールの状態。

CrawlerTargets 構造

クロールするデータストアを指定します。

フィールド
  • S3TargetsS3Target オブジェクトの配列。

    Amazon Simple Storage Service (Amazon S3) のターゲットを指定します。

  • JdbcTargetsJdbcTarget オブジェクトの配列。

    JDBC ターゲットを指定します。

  • MongoDBTargetsMongoDBTarget オブジェクトの配列。

    Amazon DocumentDB または MongoDB のターゲットを指定します。

  • DynamoDBTargetsDynamoDBTarget オブジェクトの配列。

    Amazon DynamoDB のターゲットを指定します。

  • CatalogTargetsCatalogTarget オブジェクトの配列。

    AWS Glue Data Catalog ターゲットを指定します。

  • DeltaTargetsDeltaTarget オブジェクトの配列。

    Delta データストアのターゲットを指定します。

  • IcebergTargetsIcebergTarget オブジェクトの配列。

    Apache Iceberg データストアのターゲットを指定します。

  • HudiTargetsHudiTarget オブジェクトの配列。

    Apache Hudi データストアのターゲットを指定します。

S3Target 構造

Amazon Simple Storage Service (Amazon S3) のデータストアを指定します。

フィールド
  • Path – UTF-8 文字列。

    Simple Storage Service (Amazon S3) ターゲットへのパス。

  • Exclusions – UTF-8 文字列の配列。

    クロールから除外するために使用される glob パターンのリスト。詳細については、「クローラーを使用したカタログテーブル」を参照してください。

  • ConnectionName – UTF-8 文字列。

    ジョブまたはクローラーが Amazon Virtual Private Cloud 環境 (Amazon VPC) 内の Amazon S3 のデータにアクセスすることを可能にする接続の名前。

  • SampleSize – 数値 (整数)。

    データセット内のサンプルファイルをクロールするときにクロールされる各リーフフォルダ内のファイル数を設定します。設定されていない場合、すべてのファイルがクロールされます。有効な値は、1 から 249 までの整数です。

  • EventQueueArn – UTF-8 文字列。

    有効な Amazon SQS の ARN。例えば arn:aws:sqs:region:account:sqs です。

  • DlqEventQueueArn – UTF-8 文字列。

    有効な Amazon デッドレター SQS ARN。例えば arn:aws:sqs:region:account:deadLetterQueue です。

S3DeltaCatalogTarget 構造

AWS Glue データカタログ内の Delta Lake データソースに書き込むターゲットを指定します。

フィールド
  • Name – 必須: UTF-8 文字列。Custom string pattern #37 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Table – 必須: UTF-8 文字列。Custom string pattern #34 に一致。

    書き込むデータベーステーブルの名前。

  • Database – 必須: UTF-8 文字列。Custom string pattern #34 に一致。

    書き込むデータベースの名前。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #34 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #34 に適合する UTF-8 文字列です。

    コネクタの追加接続オプションを指定します。

  • SchemaChangePolicyCatalogSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

S3DeltaDirectTarget 構造

で Delta Lake データソースに書き込むターゲットを指定します Amazon S3。

フィールド
  • Name – 必須: UTF-8 文字列。Custom string pattern #37 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Path – 必須: UTF-8 文字列。Custom string pattern #34 に一致。

    書き込み先の Delta Lake データソースの Amazon S3 パス。

  • Compression – 必須: UTF-8 文字列 (有効な値: uncompressed="UNCOMPRESSED" | snappy="SNAPPY")。

    データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は "gzip" および "bzip" です。

  • Format – 必須: UTF-8 文字列 (有効な値: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA")。

    ターゲットのデータ出力形式を指定します。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #34 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #34 に適合する UTF-8 文字列です。

    コネクタの追加接続オプションを指定します。

  • SchemaChangePolicyDirectSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

JdbcTarget 構造

クロールする JDBC データストアを指定します。

フィールド
  • ConnectionName – UTF-8 文字列。

    JDBC ターゲットに接続するために使用する接続名。

  • Path – UTF-8 文字列。

    JDBC ターゲットのパス。

  • Exclusions – UTF-8 文字列の配列。

    クロールから除外するために使用される glob パターンのリスト。詳細については、「クローラーを使用したカタログテーブル」を参照してください。

  • EnableAdditionalMetadata – UTF-8 文字列の配列。

    RAWTYPES または COMMENTS の値を指定して、テーブルのレスポンスでその他のメタデータを有効にできます。RAWTYPES はネイティブレベルのデータ型、COMMENTS はデータベース内の列またはテーブルに関連するコメントを提供します。

    その他のメタデータが必要ない場合は、フィールドを空白のままにしてください。

MongoDBTarget 構造

クロールする Amazon DocumentDB または MongoDB データストアを指定します。

フィールド
  • ConnectionName – UTF-8 文字列。

    Amazon DocumentDB または MongoDB ターゲットに接続するために使用する接続名。

  • Path – UTF-8 文字列。

    Amazon DocumentDB または MongoDB ターゲット (データベース/コレクション) のパス。

  • ScanAll – ブール。

    すべてのレコードをスキャンするか、テーブルから行をサンプリングするかを示します。テーブルが高スループットテーブルではない場合、すべてのレコードのスキャンには時間がかかることがあります。

    true 値はすべてのレコードをスキャンすることを意味し、false 値はレコードをサンプリングすることを意味します。値を指定しないと、true 値にデフォルト設定されます。

DynamoDBTarget 構造

クロールする Amazon DynamoDB テーブルを指定します。

フィールド
  • Path – UTF-8 文字列。

    クロールする DynamoDB テーブルの名前。

  • scanAll – ブール。

    すべてのレコードをスキャンするか、テーブルから行をサンプリングするかを示します。テーブルが高スループットテーブルではない場合、すべてのレコードのスキャンには時間がかかることがあります。

    true 値はすべてのレコードをスキャンすることを意味し、false 値はレコードをサンプリングすることを意味します。値を指定しないと、true 値にデフォルト設定されます。

  • scanRate – 数値 (double)。

    AWS Glue クローラーが使用する設定済み読み込みキャパシティーユニットの割合。読み取りキャパシティーユニットは、DynamoDB で定義されている用語で、テーブルに対して実行できる読み取り回数/秒のレート制限として機能する数値です。

    有効な値は NULL または 0.1~1.5 の値です。NULL 値は、ユーザーが値を指定しない場合に使用され、設定済み読み取りキャパシティーユニットでは 0.5 (プロビジョニングされたテーブルの場合)、は最大の設定済み読み取りキャパシティーユニットの場合は 0.25 (オンデマンドモードを使用するテーブルの場合) にデフォルト設定されます。

DeltaTarget 構造

1 つ以上の Delta テーブルをクロールする Delta データストアを指定します。

フィールド
  • DeltaTables – UTF-8 文字列の配列。

    Delta テーブルへの Simple Storage Service (Amazon S3) パスのリスト。

  • ConnectionName – UTF-8 文字列。

    Delta テーブルターゲットに接続するために使用する接続の名前。

  • WriteManifest – ブール。

    マニフェストファイルを Delta テーブルパスに書き込むかどうかを指定します。

  • CreateNativeDeltaTable – ブール。

    クローラーがネイティブテーブルを作成するかどうかを指定します。これにより、Delta トランザクションログの直接クエリをサポートするクエリエンジンとの統合が可能になります。

IcebergTarget 構造

Amazon S3 内の Iceberg テーブルが格納されている Apache Iceberg データソースを指定します。

フィールド
  • Paths – UTF-8 文字列の配列。

    として Iceberg メタデータフォルダを含む 1 つ以上の Amazon S3 パスs3://bucket/prefix

  • ConnectionName – UTF-8 文字列。

    Iceberg ターゲットに接続するために使用する接続の名前。

  • Exclusions – UTF-8 文字列の配列。

    クロールから除外するために使用される glob パターンのリスト。詳細については、「クローラーを使用したカタログテーブル」を参照してください。

  • MaximumTraversalDepth – 数値 (整数)。

    クローラーが Amazon S3 パス内の Iceberg メタデータフォルダを検出するためにトラバースできる Amazon S3 パスの最大深度。クローラーの実行時間を制限するために使用されます。

HudiTarget 構造

Apache Hudi データソースを指定します。

フィールド
  • Paths – UTF-8 文字列の配列。

    Hudi Amazon S3 の場所文字列の配列で、それぞれが Hudi テーブルのメタデータファイルが存在するルートフォルダを示します。Hudi フォルダは、ルートフォルダの子フォルダ内に存在する場合があります。

    クローラーは、Hudi フォルダのパス以下にあるすべてのフォルダをスキャンします。

  • ConnectionName – UTF-8 文字列。

    Hudi ターゲットに接続するために使用する接続の名前。Hudi ファイルが VPC 認証を必要とするバケットに格納されている場合、ここで接続プロパティを設定できます。

  • Exclusions – UTF-8 文字列の配列。

    クロールから除外するために使用される glob パターンのリスト。詳細については、「クローラーを使用したカタログテーブル」を参照してください。

  • MaximumTraversalDepth – 数値 (整数)。

    クローラーが Amazon S3 パス内の Hudi メタデータフォルダを検出するためにトラバースできる Amazon S3 パスの最大深度。クローラーの実行時間を制限するために使用されます。

CatalogTarget 構造

AWS Glue Data Catalog ターゲットを指定します。

フィールド
  • DatabaseName – 必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    同期するデータベースの名前。

  • Tables – 必須: UTF-8 文字列の配列。1 個の以上の文字列。

    同期するテーブルのリスト。

  • ConnectionName – UTF-8 文字列。

    NETWORK 接続タイプとペアになっている Catalog 接続タイプを使用するときにクロールのターゲットとなる Amazon S3-backed データカタログテーブルの接続の名前。

  • EventQueueArn – UTF-8 文字列。

    有効な Amazon SQS の ARN。例えば arn:aws:sqs:region:account:sqs です。

  • DlqEventQueueArn – UTF-8 文字列。

    有効な Amazon デッドレター SQS ARN。例えば arn:aws:sqs:region:account:deadLetterQueue です。

CrawlerMetrics 構造

指定されたクローラーのメトリクス。

フィールド
  • CrawlerName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    クローラー名。

  • TimeLeftSeconds – 数値 (double)。None 以下。

    実行中のクロールを完了までの予測時間。

  • StillEstimating – ブール。

    クローラーがこの実行を完了するのにどれくらいの時間がかかるかをまだ見積もっている場合は true です。

  • LastRuntimeSeconds – 数値 (double)。None 以下。

    クローラーの最新の実行にかかる時間 (秒単位)。

  • MedianRuntimeSeconds – 数値 (double)。None 以下。

    このクローラーの実行時間の中央値 (秒単位)。

  • TablesCreated – 数値 (整数)、None 以下。

    このクローラーで作成されたテーブルの数。

  • TablesUpdated – 数値 (整数)、None 以下。

    このクローラーで更新されたテーブルの数。

  • TablesDeleted – 数値 (整数)、None 以下。

    このクローラーで削除されたテーブルの数。

CrawlerHistory 構造

クローラーの実行に関する情報が含まれます。

フィールド
  • CrawlId – UTF-8 文字列。

    各クロールの UUID 識別子。

  • State – UTF-8 文字列 (有効な値: RUNNING | COMPLETED | FAILED | STOPPED)。

    クロールの状態。

  • StartTime – タイムスタンプ。

    クロールが開始された日時。

  • EndTime – タイムスタンプ。

    クロールが終了された日時。

  • Summary – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    特定のクロールに関する JSON 形式の実行サマリー。追加、更新、または削除されたカタログテーブルとパーティションが含まれます。

  • ErrorMessage – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    エラーが発生した場合は、クロールに関連付けられたエラーメッセージ。

  • LogGroup - UTF-8 文字列。1 ~ 512 バイト長。Log group string pattern に一致。

    クロールに関連付けられたロググループ。

  • LogStream - UTF-8 文字列。1 ~ 512 バイト長。Log-stream string pattern に一致。

    クロールに関連付けられたログストリーム。

  • MessagePrefix – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このクロールに関する CloudWatch メッセージのプレフィックス。

  • DPUHour – 数値 (double)。None 以下。

    クロールに使用されるデータ処理単位 (DPU) の数 (時間単位)。

CrawlsFilter 構造

指定されたクローラーのクローラー実行をフィルタリングするために使用できるフィールド、コンパレータ、および値のリスト。

フィールド
  • FieldName – UTF-8 文字列 (有効な値: CRAWL_ID | STATE | START_TIME | END_TIME | DPU_HOUR)。

    指定されたクローラーに対するクローラーの実行をフィルタリングするために使用されるキー。各フィールド名に有効な値は次のとおりです。

    • CRAWL_ID: クロールの UUID 識別子を表す文字列。

    • STATE: クロールの状態を表す文字列。

    • START_TIME および END_TIME: epoch タイムスタンプ (ミリ秒単位)。

    • DPU_HOUR: クロールに使用されるデータ処理単位 (DPU) の数 (時間単位)。

  • FilterOperator - UTF-8 文字列 (有効値: GT | GE | LT | LE | EQ | NE).。

    値を操作する定義済みのコンパレータ。利用できる演算子は次のとおりです。

    • GT: より大きい。

    • GE: 以上。

    • LT: より小さい。

    • LE: 以下。

    • EQ: 等しい。

    • NE: 等しくない。

  • FieldValue – UTF-8 文字列。

    クロールフィールドでの比較のために提供される値。

SchemaChangePolicy 構造

クローラーの更新と削除の動作を指定するポリシー。

フィールド
  • UpdateBehavior – UTF-8 文字列 (有効な値: LOG | UPDATE_IN_DATABASE)。

    クローラーが変更されたスキーマを検出したときの更新動作。

  • DeleteBehavior – UTF-8 文字列 (有効な値: LOG | DELETE_FROM_DATABASE | DEPRECATE_IN_DATABASE)。

    クローラーが削除されたオブジェクトを検出したときの削除動作。

LastCrawlInfo 構造

最新のクロールについてのステータスとエラー情報。

フィールド
  • Status – UTF-8 文字列 (有効な値: SUCCEEDED | CANCELLED | FAILED)。

    最後のクロールのステータス。

  • ErrorMessage – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    エラーが発生した場合、最後のクロールに関するエラー情報。

  • LogGroup - UTF-8 文字列。1 ~ 512 バイト長。Log group string pattern に一致。

    最後のクロールのロググループ。

  • LogStream - UTF-8 文字列。1 ~ 512 バイト長。Log-stream string pattern に一致。

    最後のクロールのログストリーム。

  • MessagePrefix – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このクロールについてのメッセージのプレフィックス。

  • StartTime – タイムスタンプ。

    クロールが開始された時刻。

RecrawlPolicy 構造

最初のクロールの完了後に Amazon S3 データソースをクロールするときに、データセット全体を再度クロールするか、前回のクローラーの実行以降に追加されたフォルダのみをクロールするかを指定します。詳細については、デベロッパーガイドの「AWS Glue の増分クロール」を参照してください。

フィールド
  • RecrawlBehavior – UTF-8 文字列 (有効な値: CRAWL_EVERYTHING | CRAWL_NEW_FOLDERS_ONLY | CRAWL_EVENT_MODE)。

    データセット全体を再度クロールするか、前回のクローラーの実行以降に追加されたフォルダのみをクロールするかを指定します。

    CRAWL_EVERYTHING という値は、データセット全体を再度クロールすることを指定します。

    CRAWL_NEW_FOLDERS_ONLY という値は、前回のクローラー実行後に追加されたフォルダのみをクロールすることを指定します。

    CRAWL_EVENT_MODE の値は Simple Storage Service (Amazon S3) イベントによって識別される変更のみをクロールするように指定します。

LineageConfiguration 構造

クローラーのデータ系統設定を指定します。

フィールド
  • CrawlerLineageSettings – UTF-8 文字列 (有効な値: ENABLE | DISABLE)。

    クローラーに対してデータ系統を有効にするかどうかを指定します。有効な値は次のとおりです。

    • ENABLE: クローラーのデータ系統を有効にします。

    • DISABLE:クローラーのデータ系統を無効にします。

LakeFormationConfiguration 構造

クローラー AWS Lake Formation の構成設定を指定します。

フィールド
  • UseLakeFormationCredentials – ブール。

    IAM ロールの AWS Lake Formation 認証情報の代わりにクローラーの認証情報を使用するかどうかを指定します。

  • AccountId - UTF-8 文字列。12 バイト長以下。

    クロスアカウントクロールに必要です。ターゲットデータと同じアカウントのクロールでは、null のままにすることができます。

操作

CreateCrawler アクション (Python: create_crawler)

指定されたターゲット、ロール、設定、およびオプションのスケジュールを使用して、新しいクローラーを作成します。s3TargetsjdbcTargets、またはDynamoDBTargets フィールドで、少なくとも 1 つ以上のクロールを指定する必要があります。

リクエスト
  • Name – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    新しいクローラーの名前。

  • Role – 必須: UTF-8 文字列。

    新しいクローラーが顧客リソースにアクセスするために使用する IAM ロール、または IAM ロールの Amazon リソースネーム (ARN)。

  • DatabaseName – UTF-8 文字列。

    など、結果が書き込まれる AWS Glue データベースarn:aws:daylight:us-east-1::database/sometable/*

  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    新しいクローラーの説明。

  • Targets – 必須: CrawlerTargets オブジェクト。

    クロールするターゲットのコレクションのリスト。

  • Schedule – UTF-8 文字列。

    スケジュールを指定するために使用される cron 式 (ジョブとクローラーの時間ベースのスケジュールを参照してください。) たとえば、毎日 12:15 UTC に何かを実行するには、cron(15 12 * * ? *) を指定します。

  • Classifiers – UTF-8 文字列の配列。

    ユーザーが登録したカスタム分類子のリスト。デフォルトでは、すべての組み込みの分類子がクロールに含まれますが、これらのカスタム分類子によって常に分類別のデフォルトの分類子が上書きされます。

  • TablePrefix - UTF-8 文字列。128 バイト長以下。

    作成されたカタログテーブルに使用されるテーブルプレフィックス。

  • SchemaChangePolicySchemaChangePolicy オブジェクト。

    クローラーの更新と削除動作のためのポリシー。

  • RecrawlPolicyRecrawlPolicy オブジェクト。

    データセット全体を再度クロールするか、前回のクローラー実行以降に追加されたフォルダのみをクロールするかを指定するポリシー。

  • LineageConfigurationLineageConfiguration オブジェクト。

    クローラーのデータ系統設定を指定します。

  • LakeFormationConfigurationLakeFormationConfiguration オブジェクト。

    クローラー AWS Lake Formation の構成設定を指定します。

  • Configuration – UTF-8 文字列。

    クローラーの構成情報。このバージョン付きの JSON 文字列では、クローラーの動作特性を指定できます。詳細については、「クローラー設定オプションの設定」を参照してください。

  • CrawlerSecurityConfiguration - UTF-8 文字列。128 バイト長以下。

    このクローラーで使用される SecurityConfiguration 構造の名前。

  • Tags – キーと値のペアのマップ配列。50 ペア以下。

    各キーは UTF-8 文字列で、1~128 バイト長です。

    各値は UTF-8 文字列で、256 バイト長以下です。

    このクローラーリクエストで使用するタグ。クローラーへのアクセスを制限するためにタグを使用することができます。のタグの詳細については AWS Glue、「 デベロッパーガイド」のAWS 「 のタグ AWS Glue」を参照してください。

レスポンス
  • 応答パラメータはありません。

エラー
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

DeleteCrawler アクション (Python: delete_crawler)

クローラーの状態が でない限り AWS Glue Data Catalog、指定されたクローラーを から削除しますRUNNING

リクエスト
  • Name – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    削除するクローラーの名前。

レスポンス
  • 応答パラメータはありません。

エラー
  • EntityNotFoundException

  • CrawlerRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException

GetCrawler アクション (Python: get_crawler)

指定されたクローラーのメタデータを取得します。

リクエスト
  • Name – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    メタデータを取得するクローラーの名前。

レスポンス
  • CrawlerCrawler オブジェクト。

    指定されたクローラーのメタデータ。

エラー
  • EntityNotFoundException

  • OperationTimeoutException

GetCrawlers アクション (Python: get_crawlers)

顧客アカウントで定義されたすべてのクローラーのメタデータを取得します。

リクエスト
  • MaxResults – 1~1000 の数値 (整数)。

    各呼び出しで返されるクローラーの数。

  • NextToken – UTF-8 文字列。

    継続トークン (これが継続リクエストの場合)。

応答
  • CrawlersCrawler オブジェクトの配列。

    クローラーメタデータのリスト。

  • NextToken – UTF-8 文字列。

    継続トークン (返されるリストがこの顧客アカウントで定義されたリストの最後に達していない場合)。

エラー
  • OperationTimeoutException

GetCrawlerMetrics アクション (Python: get_crawler_metrics)

指定されたクローラーに関するメトリクスを取得します。

リクエスト
  • CrawlerNameList - UTF-8 文字列の配列、文字列 100 個以下。

    メトリクスを取得するクローラーの名前のリスト。

  • MaxResults – 1~1000 の数値 (整数)。

    返されるリストの最大サイズ。

  • NextToken – UTF-8 文字列。

    継続トークン (これが継続呼び出しの場合)。

応答
  • CrawlerMetricsListCrawlerMetrics オブジェクトの配列。

    指定されたクローラーのメトリクスのリスト。

  • NextToken – UTF-8 文字列。

    継続トークン (戻されたリストに最後に使用可能なメトリクスが含まれていない場合)。

エラー
  • OperationTimeoutException

UpdateCrawler アクション (Python: update_crawler)

クローラーを更新します。クローラーが実行されている場合、クローラーを更新する前に StopCrawler を使用してクローラーを停止する必要があります。

リクエスト
  • Name – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    新しいクローラーの名前。

  • Role – UTF-8 文字列。

    新しいクローラーが顧客リソースにアクセスするために使用する IAM ロール、または IAM ロールの Amazon リソースネーム (ARN)。

  • DatabaseName – UTF-8 文字列。

    など、結果が保存される AWS Glue データベースarn:aws:daylight:us-east-1::database/sometable/*

  • Description - UTF-8 文字列。2,048 バイト長以下。URI address multi-line string pattern に一致。

    新しいクローラーの説明。

  • TargetsCrawlerTargets オブジェクト。

    クロールするターゲットのリスト。

  • Schedule – UTF-8 文字列。

    スケジュールを指定するために使用される cron 式 (ジョブとクローラーの時間ベースのスケジュールを参照してください。) たとえば、毎日 12:15 UTC に何かを実行するには、cron(15 12 * * ? *) を指定します。

  • Classifiers – UTF-8 文字列の配列。

    ユーザーが登録したカスタム分類子のリスト。デフォルトでは、すべての組み込みの分類子がクロールに含まれますが、これらのカスタム分類子によって常に分類別のデフォルトの分類子が上書きされます。

  • TablePrefix - UTF-8 文字列。128 バイト長以下。

    作成されたカタログテーブルに使用されるテーブルプレフィックス。

  • SchemaChangePolicySchemaChangePolicy オブジェクト。

    クローラーの更新と削除動作のためのポリシー。

  • RecrawlPolicyRecrawlPolicy オブジェクト。

    データセット全体を再度クロールするか、前回のクローラー実行以降に追加されたフォルダのみをクロールするかを指定するポリシー。

  • LineageConfigurationLineageConfiguration オブジェクト。

    クローラーのデータ系統設定を指定します。

  • LakeFormationConfigurationLakeFormationConfiguration オブジェクト。

    クローラー AWS Lake Formation の構成設定を指定します。

  • Configuration – UTF-8 文字列。

    クローラーの構成情報。このバージョン付きの JSON 文字列では、クローラーの動作特性を指定できます。詳細については、「クローラー設定オプションの設定」を参照してください。

  • CrawlerSecurityConfiguration - UTF-8 文字列。128 バイト長以下。

    このクローラーで使用される SecurityConfiguration 構造の名前。

レスポンス
  • 応答パラメータはありません。

エラー
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StartCrawler アクション (Python: start_crawler)

スケジュールされているものに関係なく、指定されたクローラーを使用してクロールを開始します。クローラーがすでに実行されている場合、 は を返しますCrawlerRunningException

リクエスト
  • Name – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    開始するクローラーの名前。

レスポンス
  • 応答パラメータはありません。

エラー
  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StopCrawler アクション (Python: stop_crawler)

指定されたクローラーが実行されている場合は、クロールを停止します。

リクエスト
  • Name – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    停止するクローラーの名前。

レスポンス
  • 応答パラメータはありません。

エラー
  • EntityNotFoundException

  • CrawlerNotRunningException

  • CrawlerStoppingException

  • OperationTimeoutException

BatchGetCrawlers アクション (Python: batch_get_crawlers)

指定されたクローラー名のリストのリソースメタデータのリストを返します。ListCrawlers オペレーションを呼び出した後で、このオペレーションを呼び出すことで、アクセス許可が付与されているデータにアクセスできます。このオペレーションは、タグを使用するアクセス許可条件を含め、すべての IAM のアクセス許可をサポートします。

リクエスト
  • CrawlerNames必須: UTF-8 文字列の配列。文字列 100 個以下。

    クローラー名のリスト。これは ListCrawlers 操作から返された名前であることもあります。

応答
  • CrawlersCrawler オブジェクトの配列。

    クローラー定義のリスト。

  • CrawlersNotFound - UTF-8 文字列の配列、文字列 100 個以下。

    クローラーの名前のリストが見つかりません。

エラー
  • InvalidInputException

  • OperationTimeoutException

ListCrawlers アクション (Python: list_crawlers)

この AWS アカウントのすべてのクローラーリソース、または指定されたタグを持つリソースの名前を取得します。このオペレーションにより、アカウントで利用可能なリソースとその名前を確認できます。

このオペレーションはオプションの Tags フィールドを受け取ります。このフィールドを応答のフィルターとして使用すると、タグ付きリソースをグループとして取得できます。タグフィルタリングの使用を選択した場合は、タグが付いたリソースのみが取得されます。

リクエスト
  • MaxResults – 1~1000 の数値 (整数)。

    返されるリストの最大サイズ。

  • NextToken – UTF-8 文字列。

    継続トークン (これが継続リクエストの場合)。

  • Tags – キーと値のペアのマップ配列。50 ペア以下。

    各キーは UTF-8 文字列で、1~128 バイト長です。

    各値は UTF-8 文字列で、256 バイト長以下です。

    これらのタグ付きリソースのみを返すように指定します。

レスポンス
  • CrawlerNames - UTF-8 文字列の配列、文字列 100 個以下。

    アカウント内のすべてのクローラーの名前、または指定されたタグを持つクローラーの名前。

  • NextToken – UTF-8 文字列。

    継続トークン (戻されたリストに最後に使用可能なメトリクスが含まれていない場合)。

エラー
  • OperationTimeoutException

ListCrawls アクション (Python: list_crawls)

指定されたクローラーのすべてのクロールを返します。クローラー履歴機能の起動日以降に発生したクロールのみを返し、最大 12 ヶ月分のクロールのみを保持します。古いクロールは返されません。

この API は以下の操作に使用できます。

  • 指定されたクローラーのすべてのクロールを取得します。

  • 指定されたクローラーのすべてのクロールを、制限されたカウント内に取得します。

  • 特定された時間範囲内に、指定されたクローラーのすべてのクロールを取得します。

  • 特定の状態、クロール ID、または DPU 時間値を持つ指定されたクローラーのすべてのクロールを取得します。

リクエスト
  • CrawlerName – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    取得する実行のクローラー名。

  • MaxResults – 1~1000 の数値 (整数)。

    返される結果の最大数。デフォルトは 20 で、最大は 100 です。

  • FiltersCrawlsFilter オブジェクトの配列。

    CrawlsFilter オブジェクトのリストで指定した条件で、クロールをフィルタリングします。

  • NextToken – UTF-8 文字列。

    継続トークン (これが継続呼び出しの場合)。

応答
  • CrawlsCrawlerHistory オブジェクトの配列。

    条件を満たしたクロール実行を表す CrawlerHistory オブジェクトのリスト。

  • NextToken – UTF-8 文字列。

    返されたトークンのリストをページ分割するための継続トークン。リストの現在のセグメントが最後のセグメントではない場合に返されます。

エラー
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException