爬行者 API - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

爬行者 API

「爬行者程式」會API說明 AWS Glue 爬行者程式資料類型,以及用來建立、刪除、更新和列出爬行者程式的資料類型。API

資料類型

Crawler 結構

指定爬蟲程式,以檢驗資料來源並使用分類器嘗試判斷其結構描述。如果成功,爬蟲程式會將與資料來源有關的中繼資料記錄到 AWS Glue Data Catalog。

欄位
  • Name— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    爬蟲程式的名稱。

  • Role— UTF -8 個字符串。

    用於存取客戶資源的IAM角色的 Amazon 資源名稱 (ARN),例如 Amazon Simple Storage Service (Amazon S3) 資料。

  • TargetsCrawlerTargets 物件。

    待編目的目標集合。

  • DatabaseName— UTF -8 個字符串。

    爬蟲程式輸出存放所在的資料庫名稱。

  • Description – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    爬蟲程式的描述。

  • Classifiers-UTF -8 個字符串的數組。

    UTF-8 個字串清單,指定與爬行者程式相關聯的自訂分類器。

  • RecrawlPolicyRecrawlPolicy 物件。

    一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。

  • SchemaChangePolicySchemaChangePolicy 物件。

    指定爬蟲程式更新及刪除行為的政策。

  • LineageConfigurationLineageConfiguration 物件。

    指定是否為爬蟲程式啟用資料歷程的組態。

  • State-UTF -8 字符串(有效值:READYRUNNING| |STOPPING)。

    指出爬蟲程式是否正在執行,或是否正在等待執行。

  • TablePrefix-UTF -8 個字符串,長度不超過 128 個字節。

    新增到所建立資料表名稱之前的字首。

  • Schedule排程 物件。

    如為排程的爬蟲程式,也就是爬蟲程式執行的排程。

  • CrawlElapsedTime – 數字 (long)。

    如果爬蟲程式正在執行,包含爬蟲程式上次啟動後經過的總時間。

  • CreationTime – 時間戳記。

    爬蟲程式建立的時間。

  • LastUpdated – 時間戳記。

    爬蟲程式上次更新的時間。

  • LastCrawlLastCrawlInfo 物件。

    最後一次編目的狀態,以及發生錯誤時的可能錯誤資訊。

  • Version – 數字 (long)。

    爬蟲程式的版本。

  • Configuration— UTF -8 個字符串。

    爬蟲程式組態資訊。此版本化JSON字串可讓使用者指定搜尋器行為的各個層面。如需詳細資訊,請參閱設定爬蟲程式組態選項

  • CrawlerSecurityConfiguration-UTF -8 個字符串,長度不超過 128 個字節。

    此爬蟲程式要使用的 SecurityConfiguration 結構。

  • LakeFormationConfigurationLakeFormationConfiguration 物件。

    指定爬行者程式是否應使用爬行者程式的 AWS Lake Formation 證明資料,而非IAM角色證明資料。

Schedule 結構

排程物件,使用 cron 陳述式來將事件排程。

欄位
  • ScheduleExpression— UTF -8 個字符串。

    用來指定排程的 cron 表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,若要每天在 12:15 執行某項作業UTC,您可以指定:cron(15 12 * * ? *)

  • State-UTF -8 字符串(有效值:SCHEDULEDNOT_SCHEDULED| |TRANSITIONING)。

    排程的狀態。

CrawlerTargets 結構

指定要編目的資料存放區。

欄位
  • S3Targets – 一個 S3Target 物件陣列。

    指定 Amazon Simple Storage Service (Amazon S3) 的目標。

  • JdbcTargets – 一個 JdbcTarget 物件陣列。

    指定 JDBC 目標。

  • MongoDBTargets – 一個 M ongoDBTarget 物件陣列。

    指定 Amazon DocumentDB 或 MongoDB 目標。

  • DynamoDBTargets – 一個 D ynamoDBTarget 物件陣列。

    指定 Amazon DynamoDB 的目標。

  • CatalogTargets – 一個 CatalogTarget 物件陣列。

    指定 AWS Glue Data Catalog 目標。

  • DeltaTargets – 一個 DeltaTarget 物件陣列。

    指定 Delta 資料存放區目標。

  • IcebergTargets – 一個 IcebergTarget 物件陣列。

    指定 Apache Iceberg 資料存放區目標。

  • HudiTargets – 一個 HudiTarget 物件陣列。

    指定 Apache Hudi 資料存放區目標。

S3Target 結構

指定 Amazon Simple Storage Service (Amazon S3) 中資料存放區。

欄位
  • Path— UTF -8 個字符串。

    至 Amazon S3 目標的路徑。

  • Exclusions-UTF -8 個字符串的數組。

    用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄

  • ConnectionName— UTF -8 個字符串。

    允許任務或爬行者程式在 Amazon 虛擬私有雲端環境 (AmazonVPC) 內存取 Amazon S3 中資料的連線名稱。

  • SampleSize – 數字 (整數)。

    設定在資料集中網路爬取範例檔案時,每個分葉資料夾中要編目的檔案數目。如果未設定,則會網路爬取所有檔案。有效值是介於 1 到 249 之間的整數。

  • EventQueueArn— UTF -8 個字符串。

    一個有效的 Amazon SQS ARN。例如:arn:aws:sqs:region:account:sqs

  • DlqEventQueueArn— UTF -8 個字符串。

    一個有效的 Amazon 死信SQSARN。例如:arn:aws:sqs:region:account:deadLetterQueue

S3 DeltaCatalogTarget 結構

指定寫入「 AWS Glue 資料目錄」中 Delta Lake 資料來源的目標。

欄位
  • Name必要:UTF-8 個字串,符合Custom string pattern #45.

    資料目標的名稱。

  • Inputs必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。

    輸入到資料目標的節點。

  • PartitionKeys-UTF -8 個字符串的數組。

    指定使用一系列索引鍵的原生分割。

  • Table必要:UTF-8 個字串,符合Custom string pattern #43.

    要寫入之資料庫中資料表的名稱。

  • Database必要:UTF-8 個字串,符合Custom string pattern #43.

    要寫入之資料庫的名稱。

  • AdditionalOptions – 金鑰值對的映射陣列。

    每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.

    每個值都是 UTF -8 字串,符合Custom string pattern #43.

    指定連接器的其他連接選項。

  • SchemaChangePolicyCatalogSchemaChangePolicy 物件。

    可以針對爬蟲程式指定更新行為的政策。

S3 DeltaDirectTarget 結構

在中指定寫入 Delta 湖資料來源的目標 Amazon S3。

欄位
  • Name必要:UTF-8 個字串,符合Custom string pattern #45.

    資料目標的名稱。

  • Inputs必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。

    輸入到資料目標的節點。

  • PartitionKeys-UTF -8 個字符串的數組。

    指定使用一系列索引鍵的原生分割。

  • Path必要:UTF-8 個字串,符合Custom string pattern #43.

    要寫入 Delta Lake 資料來源的 Amazon S3 路徑。

  • Compression必要:UTF-8 字串 (有效值:uncompressed="UNCOMPRESSED"|snappy="SNAPPY")。

    指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為 "gzip""bzip"

  • Format必要項目:UTF-8 字串 (有效值:json="JSON"csv="CSV"avro="AVRO"| orc="ORC" | parquet="PARQUET" | hudi="HUDI" | |delta="DELTA")。

    指定目標的資料輸出格式。

  • AdditionalOptions – 金鑰值對的映射陣列。

    每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.

    每個值都是 UTF -8 字串,符合Custom string pattern #43.

    指定連接器的其他連接選項。

  • SchemaChangePolicyDirectSchemaChangePolicy 物件。

    可以針對爬蟲程式指定更新行為的政策。

JdbcTarget 結構

指定要編目的JDBC資料存放區。

欄位
  • ConnectionName— UTF -8 個字符串。

    用於連線至JDBC目標的連線名稱。

  • Path— UTF -8 個字符串。

    JDBC目標的路徑。

  • Exclusions-UTF -8 個字符串的數組。

    用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄

  • EnableAdditionalMetadata-UTF -8 個字符串的數組。

    指定值 RAWTYPESCOMMENTS,以在表格回應中啟用其他中繼資料。RAWTYPES 提供本機層級的資料類型。COMMENTS 提供與資料庫中的資料欄或資料表關聯的註解。

    若您不需要其他中繼資料,請讓欄位保持空白。

M 型ongoDBTarget 結構

指定要網路爬取的 Amazon DocumentDB 資料庫或 MongoDB 資料存放區。

欄位
  • ConnectionName— UTF -8 個字符串。

    用來連接到 Amazon DocumentDB 或 MongoDB 目標的連線名稱。

  • Path— UTF -8 個字符串。

    Amazon DocumentDB 或 MongoDB 目標 (資料庫/集合) 的路徑。

  • ScanAll – 布林值。

    指出是否掃描所有記錄,還是從資料表中取樣資料列。當資料表不是高傳輸量資料表時,掃描所有記錄可能需要很長的時間。

    一個 true 值代表會掃描所有記錄,而一個 false 值代表會取樣記錄。如果未指定任何值,則預設值為 true

D 型ynamoDBTarget 結構

指定要抓取的 Amazon DynamoDB 資料表。

欄位
  • Path— UTF -8 個字符串。

    所要抓取 DynamoDB 資料表的名稱。

  • scanAll – 布林值。

    指出是否掃描所有記錄,還是從資料表中取樣資料列。當資料表不是高傳輸量資料表時,掃描所有記錄可能需要很長的時間。

    一個 true 值代表會掃描所有記錄,而一個 false 值代表會取樣記錄。如果未指定任何值,則預設值為 true

  • scanRate – 數字 (雙位數)。

    AWS Glue 爬行者程式所要使用的已設定讀取容量單位百分比。讀取容量單位是 DynamoDB 定義的術語,此數值可作為每秒可在該資料表上執行的讀取次數速率限制符號。

    有效值為 null 值或介於 0.1 到 1.5 之間的值。當使用者未提供值,且預設為已設定讀取容量單位的 0.5 (針對已佈建的資料表),或最大設定讀取容量單位的 0.25 (針對使用隨需模式的資料表) 時,系統會使用 Null 值。

DeltaTarget 結構

指定用於網路爬取一個或多個 Delta 資料表的 Delta 資料存放區。

欄位
  • DeltaTables-UTF -8 個字符串的數組。

    Delta 資料表的 Amazon S3 路徑清單。

  • ConnectionName— UTF -8 個字符串。

    用來連接到 Delta 資料表目標的連線名稱。

  • WriteManifest – 布林值。

    指定是否將資訊清單檔案寫入 Delta 資料表路徑。

  • CreateNativeDeltaTable – 布林值。

    指定爬蟲程式是否要建立原生資料表,以便與支援直接查詢 Delta 交易記錄日誌的查詢引擎整合。

IcebergTarget 結構

指定 Apache Iceberg 資料來源,其中 Iceberg 資料表存放在 Amazon S3中。

欄位
  • Paths-UTF -8 個字符串的數組。

    包含 Iceberg 中繼資料資料夾的一個或多個 Amazon S3 路徑。s3://bucket/prefix

  • ConnectionName— UTF -8 個字符串。

    用來連線到 Iceberg 目標的連線名稱。

  • Exclusions-UTF -8 個字符串的數組。

    用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄

  • MaximumTraversalDepth – 數字 (整數)。

    爬蟲可以遍歷以發現 Amazon S3 路徑中的 Iceberg 元數據文件夾的最大路徑深度。 Amazon S3 用來限制爬蟲程式執行時間。

HudiTarget 結構

指定 Apache Hudi 資料來源。

欄位
  • Paths-UTF -8 個字符串的數組。

    Hudi 的 Amazon S3 位置字串陣列,每個位置字串都指出 Hudi 資料表中繼資料檔案所在的根資料夾。Hudi 資料夾可能位於根資料夾的子資料夾中。

    爬蟲程式將掃描路徑下所有資料夾中的 Hudi 資料夾。

  • ConnectionName— UTF -8 個字符串。

    用來連線到 Hudi 目標的連線名稱。如果您的 Hudi 文件存儲在需要VPC授權的存儲桶中,則可以在此處設置其連接屬性。

  • Exclusions-UTF -8 個字符串的數組。

    用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄

  • MaximumTraversalDepth – 數字 (整數)。

    爬蟲可以遍歷以探索 Amazon S3 路徑中 Hudi 元數據文件夾的最大路徑深度。 Amazon S3 用來限制爬蟲程式執行時間。

CatalogTarget 結構

指定一個 AWS Glue Data Catalog 目標。

欄位
  • DatabaseName必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    要同步的資料庫名稱。

  • Tables必要:UTF-8 個字串的陣列,至少 1 個字串。

    要同步的資料表清單。

  • ConnectionName— UTF -8 個字符串。

    配對使用 Catalog 連接類型與 NETWORK 連接類型時,Amazon S3 支援的資料目錄資料表的連接名稱將作為編目的目標。

  • EventQueueArn— UTF -8 個字符串。

    一個有效的 Amazon SQS ARN。例如:arn:aws:sqs:region:account:sqs

  • DlqEventQueueArn— UTF -8 個字符串。

    一個有效的 Amazon 死信SQSARN。例如:arn:aws:sqs:region:account:deadLetterQueue

CrawlerMetrics 結構

指定爬蟲程式的指標。

欄位
  • CrawlerName— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    爬蟲程式的名稱。

  • TimeLeftSeconds – 數字 (雙精度浮點數),不可大於 None (無)。

    完成執行中爬蟲程式的預估剩餘時間。

  • StillEstimating – 布林值。

    假如爬蟲程式仍在預估完成執行所需要的時間,將顯示 True。

  • LastRuntimeSeconds – 數字 (雙精度浮點數),不可大於 None (無)。

    爬蟲程式最近一次執行的持續時間 (以秒為單位)。

  • MedianRuntimeSeconds – 數字 (雙精度浮點數),不可大於 None (無)。

    此爬蟲程式執行的中位數持續時間 (以秒為單位)。

  • TablesCreated – 數字 (整數),不可大於 None (無)。

    此爬蟲程式建立的資料表數量。

  • TablesUpdated – 數字 (整數),不可大於 None (無)。

    此爬蟲程式更新的資料表數量。

  • TablesDeleted – 數字 (整數),不可大於 None (無)。

    此爬蟲程式刪除的資料表數量。

CrawlerHistory 結構

包含爬蟲程式的執行資訊。

欄位
  • CrawlId— UTF -8 個字符串。

    每個編目的UUID識別碼。

  • State-UTF -8 字符串(有效值:RUNNINGCOMPLETED| FAILED | |STOPPED)。

    網路爬取的狀態。

  • StartTime – 時間戳記。

    開始編目的日期和時間。

  • EndTime – 時間戳記。

    網路爬取結束的日期和時間。

  • Summary— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    中特定編目的執行摘要JSON。包含已新增、更新或刪除的目錄資料表和分割區。

  • ErrorMessage – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    如果發生錯誤,則為與此網路爬取相關聯的錯誤訊息。

  • LogGroup— UTF -8 個字串,長度不小於 1 或超過 512 個位元組,符合Log group string pattern.

    與編目相關聯的日誌群組。

  • LogStream— UTF -8 個字串,長度不小於 1 或超過 512 個位元組,符合Log-stream string pattern.

    與編目相關聯的日誌串流。

  • MessagePrefix— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    有關此編目之 CloudWatch 訊息的前置詞。

  • DPUHour – 數字 (雙精度浮點數),不可大於 None (無)。

    編目所使用的資料處理單位 (DPU) 數目 (以小時為單位)。

CrawlsFilter 結構

欄位、比較運算子和值的清單,您可以用來篩選指定爬蟲程式的爬蟲程式執行。

欄位
  • FieldName-UTF -8 字符串(有效值:CRAWL_IDSTATE| START_TIME | END_TIME |DPU_HOUR)。

    用來篩選特定爬蟲程式的爬蟲程式執行的索引鍵。每個欄位名稱的有效值為:

    • CRAWL_ID: 代表編目之UUID識別碼的字串。

    • STATE:代表網路爬取狀態的字串。

    • START_TIMEEND_TIME:時間戳記,以毫秒為單位。

    • DPU_HOUR:用於編目的資料處理單元 (DPU) 小時數。

  • FilterOperator-UTF -8 字符串(有效值:GTGELT| | LE | EQ |NE)。

    對值進行操作的已定義比較程式。可用的運算子包括:

    • GT:大於。

    • GE:大於或等於。

    • LT:小於。

    • LE:小於或等於。

    • EQ:等於。

    • NE:不等於。

  • FieldValue— UTF -8 個字符串。

    在網路爬取欄位上提供用於比較的值。

SchemaChangePolicy 結構

可以針對爬蟲程式指定更新和刪除行為的政策。

欄位
  • UpdateBehavior-UTF -8 字符串(有效值:LOG|UPDATE_IN_DATABASE)。

    爬蟲程式找到變更結構描述時的更新行為。

  • DeleteBehavior-UTF -8 字符串(有效值:LOGDELETE_FROM_DATABASE| |DEPRECATE_IN_DATABASE)。

    爬蟲程式找到刪除物件時的刪除行為。

LastCrawlInfo 結構

關於最近一次編目的狀態和錯誤探索。

欄位
  • Status-UTF -8 字符串(有效值:SUCCEEDEDCANCELLED| |FAILED)。

    最近一次編目的狀態。

  • ErrorMessage – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    如果發生錯誤,則為最後一次編目的錯誤資訊。

  • LogGroup— UTF -8 個字串,長度不小於 1 或超過 512 個位元組,符合Log group string pattern.

    最後一次編目的日誌群組。

  • LogStream— UTF -8 個字串,長度不小於 1 或超過 512 個位元組,符合Log-stream string pattern.

    最後一次編目的日誌串流。

  • MessagePrefix— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    此爬蟲程式相關訊息的字首。

  • StartTime – 時間戳記。

    爬蟲程式開始的時間。

RecrawlPolicy 結構

在第一次網路爬取完成後網路爬取 Amazon S3 資料來源時,指定是要再次網路爬取整個資料集,還是只網路爬取自上次爬蟲程式執行以來新增的資料夾。如需詳細資訊,請參閱開發人員指南中的 AWS Glue中的增量網路爬取

欄位
  • RecrawlBehavior-UTF -8 字符串(有效值:CRAWL_EVERYTHINGCRAWL_NEW_FOLDERS_ONLY| |CRAWL_EVENT_MODE)。

    指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。

    值為 CRAWL_EVERYTHING 指定再次網路爬取整個資料集。

    值為 CRAWL_NEW_FOLDERS_ONLY 指定只網路爬取自上次執行爬蟲程式之後,已新增的資料夾。

    CRAWL_EVENT_MODE 值會指定只網路爬取 Amazon S3 事件所識別的變更。

LineageConfiguration 結構

指定爬蟲程式的資料歷程組態設定。

欄位
  • CrawlerLineageSettings-UTF -8 字符串(有效值:ENABLE|DISABLE)。

    指定是否啟用爬蟲程式的資料歷程。有效的 值如下:

    • ENABLE:啟用爬行者程式的資料歷程

    • DISABLE:停用爬行者程式的資料歷程

LakeFormationConfiguration 結構

指 AWS Lake Formation 定爬行者程式的組態設定值。

欄位
  • UseLakeFormationCredentials – 布林值。

    指定是否要使用爬行者程式的 AWS Lake Formation 證明資料,而非IAM角色證明資料。

  • AccountId— UTF -8 個字符串,長度不超過 12 個字節。

    跨帳戶網路爬取的必要項目。對於與目標資料相同的帳戶網路爬取,則可以將其保留為 null。

作業

CreateCrawler 動作(Python:創建履帶)

建立新的爬蟲程式,為其指定目標、角色、組態和選用的排程。至少必須在 s3Targets 欄位、jdbcTargets 欄位或 DynamoDBTargets 欄位中指定一個抓取目標。

請求
  • Name必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    新爬蟲程式的名稱。

  • Role必要:UTF-8 個字串。

    新爬行者程式用來存取客戶資源之IAM角色的角色或 Amazon 資源名稱 (ARN)。IAM

  • DatabaseName— UTF -8 個字符串。

    寫入結果的 AWS Glue 資料庫,例如:arn:aws:daylight:us-east-1::database/sometable/*

  • Description – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    新爬蟲程式的描述。

  • Targets必要:CrawlerTargets 物件。

    待編目的目標集合清單。

  • Schedule— UTF -8 個字符串。

    用來指定排程的 cron 表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,若要每天在 12:15 執行某項作業UTC,您可以指定:cron(15 12 * * ? *)

  • Classifiers-UTF -8 個字符串的數組。

    使用者已註冊的自訂分類器清單。依預設,所有內建分類器均包含在編目內,但這些自訂分類器一律覆寫特定分類的預設分類器。

  • TablePrefix-UTF -8 個字符串,長度不超過 128 個字節。

    用於為所建立之資料表建立目錄的資料表字首。

  • SchemaChangePolicySchemaChangePolicy 物件。

    爬蟲程式的更新和刪除行為政策。

  • RecrawlPolicyRecrawlPolicy 物件。

    一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。

  • LineageConfigurationLineageConfiguration 物件。

    指定爬蟲程式的資料歷程組態設定。

  • LakeFormationConfigurationLakeFormationConfiguration 物件。

    指 AWS Lake Formation 定爬行者程式的組態設定值。

  • Configuration— UTF -8 個字符串。

    爬蟲程式組態資訊。此版本化JSON字串可讓使用者指定搜尋器行為的各個層面。如需詳細資訊,請參閱設定爬蟲程式組態選項

  • CrawlerSecurityConfiguration-UTF -8 個字符串,長度不超過 128 個字節。

    此爬蟲程式要使用的 SecurityConfiguration 結構。

  • Tags – 金鑰值對的對應陣列,不超過 50 對。

    每個鍵是 UTF -8 個字符串,長度不小於 1 或超過 128 個字節。

    每個值都是 UTF -8 個字串,長度不超過 256 個位元組。

    要搭配此爬蟲程式要求使用的標籤。您可以使用標籤來限制對於爬蟲程式的存取情況。如需中標籤的詳細資訊 AWS Glue,請參閱開發人員指南AWS Glue中的「AWS 標籤」。

回應
  • 無回應參數。

錯誤
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

DeleteCrawler 行動(Python:刪除履帶)

從中移除指定的 AWS Glue Data Catalog爬行者程式 (除非爬行者程式狀態為)。RUNNING

請求
  • Name必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    要移除之爬蟲程式的名稱。

回應
  • 無回應參數。

錯誤
  • EntityNotFoundException

  • CrawlerRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException

GetCrawler 行動(Python:獲取履帶)

擷取特定爬蟲程式的中繼資料。

請求
  • Name必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    要擷取中繼資料之爬蟲程式的名稱。

回應
  • Crawler爬蟲程式 物件。

    特定爬蟲程式的中繼資料。

錯誤
  • EntityNotFoundException

  • OperationTimeoutException

GetCrawlers 行動(Python:獲取爬蟲)

從客戶帳戶中定義之所有爬蟲程式擷取中繼資料。

請求
  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    每次呼叫要傳回的爬蟲程式數量。

  • NextToken— UTF -8 個字符串。

    接續符記,如果這是接續要求。

回應
  • Crawlers – 一個 爬蟲程式 物件陣列。

    爬蟲程式中繼資料清單。

  • NextToken— UTF -8 個字符串。

    持續字元,如果傳回的清單沒有達到此客戶帳戶中定義的結尾。

錯誤
  • OperationTimeoutException

GetCrawlerMetrics 動作(Python:獲取履帶程序度量)

擷取指定爬蟲程式的指標。

請求
  • CrawlerNameList-UTF -8 個字符串的數組,不超過 100 個字符串。

    要擷取指標之爬蟲程式的名稱清單。

  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    所要回傳清單的大小上限。

  • NextToken— UTF -8 個字符串。

    接續符記,如果這是接續呼叫。

回應
  • CrawlerMetricsList – 一個 CrawlerMetrics 物件陣列。

    指定爬蟲程式的指標清單。

  • NextToken— UTF -8 個字符串。

    接續字元,如果傳回的清單未包含最後一個可用指標。

錯誤
  • OperationTimeoutException

UpdateCrawler 行動(Python:更新 _ 爬蟲)

更新爬蟲程式。如果爬蟲程式執行中,您必須先使用 StopCrawler 停止爬蟲程式,然後再更新。

請求
  • Name必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    新爬蟲程式的名稱。

  • Role— UTF -8 個字符串。

    新爬行者程式用來存取客戶資源之IAM角色的角色或 Amazon 資源名稱 (ARN)。IAM

  • DatabaseName— UTF -8 個字符串。

    儲存結果的 AWS Glue 資料庫,例如:arn:aws:daylight:us-east-1::database/sometable/*

  • Description— UTF -8 個字串,長度不超過 2048 個位元組,符合URI address multi-line string pattern.

    新爬蟲程式的描述。

  • TargetsCrawlerTargets 物件。

    待編目的目標清單。

  • Schedule— UTF -8 個字符串。

    用來指定排程的 cron 表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,若要每天在 12:15 執行某項作業UTC,您可以指定:cron(15 12 * * ? *)

  • Classifiers-UTF -8 個字符串的數組。

    使用者已註冊的自訂分類器清單。依預設,所有內建分類器均包含在編目內,但這些自訂分類器一律覆寫特定分類的預設分類器。

  • TablePrefix-UTF -8 個字符串,長度不超過 128 個字節。

    用於為所建立之資料表建立目錄的資料表字首。

  • SchemaChangePolicySchemaChangePolicy 物件。

    爬蟲程式的更新和刪除行為政策。

  • RecrawlPolicyRecrawlPolicy 物件。

    一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。

  • LineageConfigurationLineageConfiguration 物件。

    指定爬蟲程式的資料歷程組態設定。

  • LakeFormationConfigurationLakeFormationConfiguration 物件。

    指 AWS Lake Formation 定爬行者程式的組態設定值。

  • Configuration— UTF -8 個字符串。

    爬蟲程式組態資訊。此版本化JSON字串可讓使用者指定搜尋器行為的各個層面。如需詳細資訊,請參閱設定爬蟲程式組態選項

  • CrawlerSecurityConfiguration-UTF -8 個字符串,長度不超過 128 個字節。

    此爬蟲程式要使用的 SecurityConfiguration 結構。

回應
  • 無回應參數。

錯誤
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StartCrawler 行動(Python:開始履帶)

使用指定的爬蟲程式開始編目,無論排程。如果爬行者程式已經在執行中,會傳回. CrawlerRunningException

請求
  • Name必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    要啟動的爬蟲程式名稱。

回應
  • 無回應參數。

錯誤
  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StopCrawler 行動(Python:停止履帶)

如果指定的爬蟲程式正在執行中,停止編目。

請求
  • Name必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    要停止的爬蟲程式名稱。

回應
  • 無回應參數。

錯誤
  • EntityNotFoundException

  • CrawlerNotRunningException

  • CrawlerStoppingException

  • OperationTimeoutException

BatchGetCrawlers 動作(Python:批處理抓取器)

為指定的爬蟲程式名稱清單,傳回資源中繼資料的清單。呼叫 ListCrawlers 操作之後,您便可以呼叫此操作來存取您已授與許可的資料。此作業支援所有IAM權限,包括使用標籤的權限條件。

請求
  • CrawlerNames必要:UTF-8 個字串的陣列,不超過 100 個字串。

    爬蟲程式名稱清單,可能是從 ListCrawlers 操作傳回的名稱。

回應
  • Crawlers – 一個 爬蟲程式 物件陣列。

    爬蟲程式定義的清單。

  • CrawlersNotFound-UTF -8 個字符串的數組,不超過 100 個字符串。

    未尋獲爬蟲程式的名稱清單。

錯誤
  • InvalidInputException

  • OperationTimeoutException

ListCrawlers 動作(Python:列表爬蟲)

擷取此 AWS 帳戶中所有爬行者程式資源的名稱,或具有指定標籤的資源。您可運用此操作,查看帳戶下有哪些可用資源及其名稱。

此操作會接收您可在回應時做為篩選條件的選用 Tags 欄位,因此已標記的資源可分組進行擷取。如果您選擇使用標籤進行篩選,則此時只會擷取包含該標籤的資源。

請求
  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    所要回傳清單的大小上限。

  • NextToken— UTF -8 個字符串。

    接續符記,如果這是接續要求。

  • Tags – 金鑰值對的對應陣列,不超過 50 對。

    每個鍵是 UTF -8 個字符串,長度不小於 1 或超過 128 個字節。

    每個值都是 UTF -8 個字串,長度不超過 256 個位元組。

    指定只傳回包含這些標籤的資源。

回應
  • CrawlerNames-UTF -8 個字符串的數組,不超過 100 個字符串。

    這個帳戶下所有爬蟲程式的名稱,或是使用指定標籤的爬蟲程式。

  • NextToken— UTF -8 個字符串。

    接續字元,如果傳回的清單未包含最後一個可用指標。

錯誤
  • OperationTimeoutException

ListCrawls 動作(Python:列表爬行)

傳回指定爬蟲程式的所有網路爬取。僅傳回自爬蟲程式歷史記錄功能啟動日期以來發生的網路爬取,而且最多只會保留 12 個月的網路爬取。不會傳回較舊的網路爬取。

您可以使用API它來:

  • 擷取指定爬蟲程式的所有網路爬取。

  • 在有限的計數內擷取指定爬蟲程式的所有網路爬取。

  • 擷取特定時間範圍內指定爬蟲程式的所有網路爬取。

  • 擷取具有特定狀態、編目 ID 或DPU小時值之指定爬行者程式的所有編目。

請求
  • CrawlerName必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    您希望擷取其執行的爬蟲程式名稱。

  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    回傳結果的數量上限。預設值為 20,最大值為 100。

  • Filters – 一個 CrawlsFilter 物件陣列。

    依照您在下列 CrawlsFilter 物件的清單中指定的條件篩選網路爬取。

  • NextToken— UTF -8 個字符串。

    接續符記,如果這是接續呼叫。

回應
  • Crawls – 一個 CrawlerHistory 物件陣列。

    CrawlerHistory 物件的清單,代表符合您條件的網路爬取執行。

  • NextToken— UTF -8 個字符串。

    為一種接續符記,用於將傳回的符記清單分頁,而如果清單目前的區段不是最後區段就會傳回。

錯誤
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException