API penjadwal perayap - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

API penjadwal perayap

Crawler scheduler API menjelaskan tipe data AWS Glue crawler, bersama dengan API untuk membuat, menghapus, memperbarui, dan mencantumkan crawler.

Jenis Data

Struktur jadwal

Sebuah objek penjadwalan menggunakan pernyataan cron untuk menjadwalkan sebuah peristiwa.

Bidang
  • ScheduleExpression – String UTF-8.

    Sebuah ekspresi cron yang digunakan untuk menentukan jadwal (lihat Jadwal Berbasis Waktu untuk Tugas dan Crawler. Sebagai contoh, untuk menjalankan sesuatu setiap hari pada 12:15 UTC, Anda harus menentukan cron(15 12 * * ? *).

  • State – String UTF-8 (nilai yang valid: SCHEDULED | NOT_SCHEDULED | TRANSITIONING).

    Status jadwal.

Operasi

UpdateCrawlerSchedule tindakan (Python: update_crawler_schedule)

Memperbarui jadwal sebuah crawler dengan menggunakan ekspresi cron.

Permintaan
  • CrawlerNameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama crawler yang jadwalnya akan diperbarui.

  • Schedule – String UTF-8.

    Ekspresi cron yang diperbarui yang digunakan untuk menentukan jadwal (lihat Jadwal Berbasis Waktu untuk Tugas dan Crawler. Sebagai contoh, untuk menjalankan sesuatu setiap hari pada 12:15 UTC, Anda harus menentukan cron(15 12 * * ? *).

Response
  • Tidak ada parameter Respons.

Kesalahan
  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • SchedulerTransitioningException

  • OperationTimeoutException

StartCrawlerSchedule tindakan (Python: start_crawler_schedule)

Mengubah status jadwal crawler yang ditentukan untuk SCHEDULED, kecuali crawler sudah berjalan atau status jadwal sudah SCHEDULED.

Permintaan
  • CrawlerNameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama crawler yang akan dijadwal.

Response
  • Tidak ada parameter Respons.

Kesalahan
  • EntityNotFoundException

  • SchedulerRunningException

  • SchedulerTransitioningException

  • NoScheduleException

  • OperationTimeoutException

StopCrawlerSchedule tindakan (Python: stop_crawler_schedule)

Menetapkan status jadwal dari crawler yang ditentukan untuk NOT_SCHEDULED, tapi tidak menghentikan crawler jika sudah berjalan.

Permintaan
  • CrawlerNameWajib: String UTF-8, sepanjang tidak kurang dari 1 atau lebih dari 255 byte, yang cocok dengan Single-line string pattern.

    Nama crawler yang status jadwalnya akan ditetapkan.

Response
  • Tidak ada parameter Respons.

Kesalahan
  • EntityNotFoundException

  • SchedulerNotRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException