爬蟲程式排程器 API - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

爬蟲程式排程器 API

爬蟲程式排程器 API 說明 AWS Glue 爬蟲程式資料類型,以及用於建立、刪除、更新和列出爬蟲程式的 API。

資料類型

Schedule 結構

排程物件,使用 cron 陳述式來將事件排程。

欄位
  • ScheduleExpression – UTF-8 字串。

    用來指定排程的 cron 表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)

  • State – UTF-8 字串 (有效值:SCHEDULED | NOT_SCHEDULED | TRANSITIONING)。

    排程的狀態。

操作

UpdateCrawlerSchedule 動作 (Python: update_crawler_schedule)

使用 cron 表達式來更新爬蟲程式排程。

請求
  • CrawlerName必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern

    要更新排程之爬蟲程式的名稱。

  • Schedule – UTF-8 字串。

    更新的 cron 表達式,用來指定排程 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)

回應
  • 無回應參數。

錯誤
  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • SchedulerTransitioningException

  • OperationTimeoutException

StartCrawlerSchedule 動作 (Python: start_crawler_schedule)

將指定爬蟲程式的排程狀態變更為 SCHEDULED (除非爬蟲程式已在執行中,或排程狀態已經是 SCHEDULED。)

請求
  • CrawlerName必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern

    要排程的爬蟲程式的名稱。

回應
  • 無回應參數。

錯誤
  • EntityNotFoundException

  • SchedulerRunningException

  • SchedulerTransitioningException

  • NoScheduleException

  • OperationTimeoutException

StopCrawlerSchedule 動作 (Python: stop_crawler_schedule)

將指定爬蟲程式的排程狀態設定為 NOT_SCHEDULED,但如果爬蟲程式已在執行中,此動作不會停止爬蟲程式。

請求
  • CrawlerName必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern

    要更新其排程狀態的爬蟲程式的名稱。

回應
  • 無回應參數。

錯誤
  • EntityNotFoundException

  • SchedulerNotRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException