本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
爬行者 API
「爬行者程式」會API說明 AWS Glue 爬行者程式資料類型,以及用來建立、刪除、更新和列出爬行者程式的資料類型。API
資料類型
Crawler 結構
指定爬蟲程式,以檢驗資料來源並使用分類器嘗試判斷其結構描述。如果成功,爬蟲程式會將與資料來源有關的中繼資料記錄到 AWS Glue Data Catalog。
欄位
-
Name
— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.爬蟲程式的名稱。
-
Role
— UTF -8 個字符串。用於存取客戶資源的IAM角色的 Amazon 資源名稱 (ARN),例如 Amazon Simple Storage Service (Amazon S3) 資料。
-
Targets
– CrawlerTargets 物件。待編目的目標集合。
-
DatabaseName
— UTF -8 個字符串。爬蟲程式輸出存放所在的資料庫名稱。
-
Description
– 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern。爬蟲程式的描述。
-
Classifiers
-UTF -8 個字符串的數組。UTF-8 個字串清單,指定與爬行者程式相關聯的自訂分類器。
-
RecrawlPolicy
– RecrawlPolicy 物件。一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。
-
SchemaChangePolicy
– SchemaChangePolicy 物件。指定爬蟲程式更新及刪除行為的政策。
-
LineageConfiguration
– LineageConfiguration 物件。指定是否為爬蟲程式啟用資料歷程的組態。
-
State
-UTF -8 字符串(有效值:READY
RUNNING
| |STOPPING
)。指出爬蟲程式是否正在執行,或是否正在等待執行。
-
TablePrefix
-UTF -8 個字符串,長度不超過 128 個字節。新增到所建立資料表名稱之前的字首。
-
Schedule
– 排程 物件。如為排程的爬蟲程式,也就是爬蟲程式執行的排程。
-
CrawlElapsedTime
– 數字 (long)。如果爬蟲程式正在執行,包含爬蟲程式上次啟動後經過的總時間。
-
CreationTime
– 時間戳記。爬蟲程式建立的時間。
-
LastUpdated
– 時間戳記。爬蟲程式上次更新的時間。
-
LastCrawl
– LastCrawlInfo 物件。最後一次編目的狀態,以及發生錯誤時的可能錯誤資訊。
-
Version
– 數字 (long)。爬蟲程式的版本。
-
Configuration
— UTF -8 個字符串。爬蟲程式組態資訊。此版本化JSON字串可讓使用者指定搜尋器行為的各個層面。如需詳細資訊,請參閱設定爬蟲程式組態選項。
-
CrawlerSecurityConfiguration
-UTF -8 個字符串,長度不超過 128 個字節。此爬蟲程式要使用的
SecurityConfiguration
結構。 -
LakeFormationConfiguration
– LakeFormationConfiguration 物件。指定爬行者程式是否應使用爬行者程式的 AWS Lake Formation 證明資料,而非IAM角色證明資料。
Schedule 結構
排程物件,使用 cron
陳述式來將事件排程。
欄位
-
ScheduleExpression
— UTF -8 個字符串。用來指定排程的
cron
表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,若要每天在 12:15 執行某項作業UTC,您可以指定:cron(15 12 * * ? *)
。 -
State
-UTF -8 字符串(有效值:SCHEDULED
NOT_SCHEDULED
| |TRANSITIONING
)。排程的狀態。
CrawlerTargets 結構
指定要編目的資料存放區。
欄位
-
S3Targets
– 一個 S3Target 物件陣列。指定 Amazon Simple Storage Service (Amazon S3) 的目標。
-
JdbcTargets
– 一個 JdbcTarget 物件陣列。指定 JDBC 目標。
-
MongoDBTargets
– 一個 M ongoDBTarget 物件陣列。指定 Amazon DocumentDB 或 MongoDB 目標。
-
DynamoDBTargets
– 一個 D ynamoDBTarget 物件陣列。指定 Amazon DynamoDB 的目標。
-
CatalogTargets
– 一個 CatalogTarget 物件陣列。指定 AWS Glue Data Catalog 目標。
-
DeltaTargets
– 一個 DeltaTarget 物件陣列。指定 Delta 資料存放區目標。
-
IcebergTargets
– 一個 IcebergTarget 物件陣列。指定 Apache Iceberg 資料存放區目標。
-
HudiTargets
– 一個 HudiTarget 物件陣列。指定 Apache Hudi 資料存放區目標。
S3Target 結構
指定 Amazon Simple Storage Service (Amazon S3) 中資料存放區。
欄位
-
Path
— UTF -8 個字符串。至 Amazon S3 目標的路徑。
-
Exclusions
-UTF -8 個字符串的數組。用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄。
-
ConnectionName
— UTF -8 個字符串。允許任務或爬行者程式在 Amazon 虛擬私有雲端環境 (AmazonVPC) 內存取 Amazon S3 中資料的連線名稱。
-
SampleSize
– 數字 (整數)。設定在資料集中網路爬取範例檔案時,每個分葉資料夾中要編目的檔案數目。如果未設定,則會網路爬取所有檔案。有效值是介於 1 到 249 之間的整數。
-
EventQueueArn
— UTF -8 個字符串。一個有效的 Amazon SQS ARN。例如:
arn:aws:sqs:region:account:sqs
。 -
DlqEventQueueArn
— UTF -8 個字符串。一個有效的 Amazon 死信SQSARN。例如:
arn:aws:sqs:region:account:deadLetterQueue
。
S3 DeltaCatalogTarget 結構
指定寫入「 AWS Glue 資料目錄」中 Delta Lake 資料來源的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定連接器的其他連接選項。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3 DeltaDirectTarget 結構
在中指定寫入 Delta 湖資料來源的目標 Amazon S3。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Path
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入 Delta Lake 資料來源的 Amazon S3 路徑。
-
Compression
— 必要:UTF-8 字串 (有效值:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Format
— 必要項目:UTF-8 字串 (有效值:json="JSON"
csv="CSV"
avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
| |delta="DELTA"
)。指定目標的資料輸出格式。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定連接器的其他連接選項。
-
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
JdbcTarget 結構
指定要編目的JDBC資料存放區。
欄位
-
ConnectionName
— UTF -8 個字符串。用於連線至JDBC目標的連線名稱。
-
Path
— UTF -8 個字符串。JDBC目標的路徑。
-
Exclusions
-UTF -8 個字符串的數組。用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄。
-
EnableAdditionalMetadata
-UTF -8 個字符串的數組。指定值
RAWTYPES
或COMMENTS
,以在表格回應中啟用其他中繼資料。RAWTYPES
提供本機層級的資料類型。COMMENTS
提供與資料庫中的資料欄或資料表關聯的註解。若您不需要其他中繼資料,請讓欄位保持空白。
M 型ongoDBTarget 結構
指定要網路爬取的 Amazon DocumentDB 資料庫或 MongoDB 資料存放區。
欄位
-
ConnectionName
— UTF -8 個字符串。用來連接到 Amazon DocumentDB 或 MongoDB 目標的連線名稱。
-
Path
— UTF -8 個字符串。Amazon DocumentDB 或 MongoDB 目標 (資料庫/集合) 的路徑。
-
ScanAll
– 布林值。指出是否掃描所有記錄,還是從資料表中取樣資料列。當資料表不是高傳輸量資料表時,掃描所有記錄可能需要很長的時間。
一個
true
值代表會掃描所有記錄,而一個false
值代表會取樣記錄。如果未指定任何值,則預設值為true
。
D 型ynamoDBTarget 結構
指定要抓取的 Amazon DynamoDB 資料表。
欄位
-
Path
— UTF -8 個字符串。所要抓取 DynamoDB 資料表的名稱。
-
scanAll
– 布林值。指出是否掃描所有記錄,還是從資料表中取樣資料列。當資料表不是高傳輸量資料表時,掃描所有記錄可能需要很長的時間。
一個
true
值代表會掃描所有記錄,而一個false
值代表會取樣記錄。如果未指定任何值,則預設值為true
。 -
scanRate
– 數字 (雙位數)。AWS Glue 爬行者程式所要使用的已設定讀取容量單位百分比。讀取容量單位是 DynamoDB 定義的術語,此數值可作為每秒可在該資料表上執行的讀取次數速率限制符號。
有效值為 null 值或介於 0.1 到 1.5 之間的值。當使用者未提供值,且預設為已設定讀取容量單位的 0.5 (針對已佈建的資料表),或最大設定讀取容量單位的 0.25 (針對使用隨需模式的資料表) 時,系統會使用 Null 值。
DeltaTarget 結構
指定用於網路爬取一個或多個 Delta 資料表的 Delta 資料存放區。
欄位
-
DeltaTables
-UTF -8 個字符串的數組。Delta 資料表的 Amazon S3 路徑清單。
-
ConnectionName
— UTF -8 個字符串。用來連接到 Delta 資料表目標的連線名稱。
-
WriteManifest
– 布林值。指定是否將資訊清單檔案寫入 Delta 資料表路徑。
-
CreateNativeDeltaTable
– 布林值。指定爬蟲程式是否要建立原生資料表,以便與支援直接查詢 Delta 交易記錄日誌的查詢引擎整合。
IcebergTarget 結構
指定 Apache Iceberg 資料來源,其中 Iceberg 資料表存放在 Amazon S3中。
欄位
-
Paths
-UTF -8 個字符串的數組。包含 Iceberg 中繼資料資料夾的一個或多個 Amazon S3 路徑。
s3://bucket/prefix
-
ConnectionName
— UTF -8 個字符串。用來連線到 Iceberg 目標的連線名稱。
-
Exclusions
-UTF -8 個字符串的數組。用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄。
-
MaximumTraversalDepth
– 數字 (整數)。爬蟲可以遍歷以發現 Amazon S3 路徑中的 Iceberg 元數據文件夾的最大路徑深度。 Amazon S3 用來限制爬蟲程式執行時間。
HudiTarget 結構
指定 Apache Hudi 資料來源。
欄位
-
Paths
-UTF -8 個字符串的數組。Hudi 的 Amazon S3 位置字串陣列,每個位置字串都指出 Hudi 資料表中繼資料檔案所在的根資料夾。Hudi 資料夾可能位於根資料夾的子資料夾中。
爬蟲程式將掃描路徑下所有資料夾中的 Hudi 資料夾。
-
ConnectionName
— UTF -8 個字符串。用來連線到 Hudi 目標的連線名稱。如果您的 Hudi 文件存儲在需要VPC授權的存儲桶中,則可以在此處設置其連接屬性。
-
Exclusions
-UTF -8 個字符串的數組。用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄。
-
MaximumTraversalDepth
– 數字 (整數)。爬蟲可以遍歷以探索 Amazon S3 路徑中 Hudi 元數據文件夾的最大路徑深度。 Amazon S3 用來限制爬蟲程式執行時間。
CatalogTarget 結構
指定一個 AWS Glue Data Catalog 目標。
欄位
-
DatabaseName
— 必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.要同步的資料庫名稱。
-
Tables
— 必要:UTF-8 個字串的陣列,至少 1 個字串。要同步的資料表清單。
-
ConnectionName
— UTF -8 個字符串。配對使用
Catalog
連接類型與NETWORK
連接類型時,Amazon S3 支援的資料目錄資料表的連接名稱將作為編目的目標。 -
EventQueueArn
— UTF -8 個字符串。一個有效的 Amazon SQS ARN。例如:
arn:aws:sqs:region:account:sqs
。 -
DlqEventQueueArn
— UTF -8 個字符串。一個有效的 Amazon 死信SQSARN。例如:
arn:aws:sqs:region:account:deadLetterQueue
。
CrawlerMetrics 結構
指定爬蟲程式的指標。
欄位
-
CrawlerName
— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.爬蟲程式的名稱。
-
TimeLeftSeconds
– 數字 (雙精度浮點數),不可大於 None (無)。完成執行中爬蟲程式的預估剩餘時間。
-
StillEstimating
– 布林值。假如爬蟲程式仍在預估完成執行所需要的時間,將顯示 True。
-
LastRuntimeSeconds
– 數字 (雙精度浮點數),不可大於 None (無)。爬蟲程式最近一次執行的持續時間 (以秒為單位)。
-
MedianRuntimeSeconds
– 數字 (雙精度浮點數),不可大於 None (無)。此爬蟲程式執行的中位數持續時間 (以秒為單位)。
-
TablesCreated
– 數字 (整數),不可大於 None (無)。此爬蟲程式建立的資料表數量。
-
TablesUpdated
– 數字 (整數),不可大於 None (無)。此爬蟲程式更新的資料表數量。
-
TablesDeleted
– 數字 (整數),不可大於 None (無)。此爬蟲程式刪除的資料表數量。
CrawlerHistory 結構
包含爬蟲程式的執行資訊。
欄位
-
CrawlId
— UTF -8 個字符串。每個編目的UUID識別碼。
-
State
-UTF -8 字符串(有效值:RUNNING
COMPLETED
|FAILED
| |STOPPED
)。網路爬取的狀態。
-
StartTime
– 時間戳記。開始編目的日期和時間。
-
EndTime
– 時間戳記。網路爬取結束的日期和時間。
-
Summary
— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.中特定編目的執行摘要JSON。包含已新增、更新或刪除的目錄資料表和分割區。
-
ErrorMessage
– 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern。如果發生錯誤,則為與此網路爬取相關聯的錯誤訊息。
-
LogGroup
— UTF -8 個字串,長度不小於 1 或超過 512 個位元組,符合Log group string pattern.與編目相關聯的日誌群組。
-
LogStream
— UTF -8 個字串,長度不小於 1 或超過 512 個位元組,符合Log-stream string pattern.與編目相關聯的日誌串流。
-
MessagePrefix
— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.有關此編目之 CloudWatch 訊息的前置詞。
-
DPUHour
– 數字 (雙精度浮點數),不可大於 None (無)。編目所使用的資料處理單位 (DPU) 數目 (以小時為單位)。
CrawlsFilter 結構
欄位、比較運算子和值的清單,您可以用來篩選指定爬蟲程式的爬蟲程式執行。
欄位
-
FieldName
-UTF -8 字符串(有效值:CRAWL_ID
STATE
|START_TIME
|END_TIME
|DPU_HOUR
)。用來篩選特定爬蟲程式的爬蟲程式執行的索引鍵。每個欄位名稱的有效值為:
-
CRAWL_ID
: 代表編目之UUID識別碼的字串。 -
STATE
:代表網路爬取狀態的字串。 -
START_TIME
和END_TIME
:時間戳記,以毫秒為單位。 -
DPU_HOUR
:用於編目的資料處理單元 (DPU) 小時數。
-
-
FilterOperator
-UTF -8 字符串(有效值:GT
GE
LT
| |LE
|EQ
|NE
)。對值進行操作的已定義比較程式。可用的運算子包括:
-
GT
:大於。 -
GE
:大於或等於。 -
LT
:小於。 -
LE
:小於或等於。 -
EQ
:等於。 -
NE
:不等於。
-
-
FieldValue
— UTF -8 個字符串。在網路爬取欄位上提供用於比較的值。
SchemaChangePolicy 結構
可以針對爬蟲程式指定更新和刪除行為的政策。
欄位
-
UpdateBehavior
-UTF -8 字符串(有效值:LOG
|UPDATE_IN_DATABASE
)。爬蟲程式找到變更結構描述時的更新行為。
-
DeleteBehavior
-UTF -8 字符串(有效值:LOG
DELETE_FROM_DATABASE
| |DEPRECATE_IN_DATABASE
)。爬蟲程式找到刪除物件時的刪除行為。
LastCrawlInfo 結構
關於最近一次編目的狀態和錯誤探索。
欄位
-
Status
-UTF -8 字符串(有效值:SUCCEEDED
CANCELLED
| |FAILED
)。最近一次編目的狀態。
-
ErrorMessage
– 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern。如果發生錯誤,則為最後一次編目的錯誤資訊。
-
LogGroup
— UTF -8 個字串,長度不小於 1 或超過 512 個位元組,符合Log group string pattern.最後一次編目的日誌群組。
-
LogStream
— UTF -8 個字串,長度不小於 1 或超過 512 個位元組,符合Log-stream string pattern.最後一次編目的日誌串流。
-
MessagePrefix
— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.此爬蟲程式相關訊息的字首。
-
StartTime
– 時間戳記。爬蟲程式開始的時間。
RecrawlPolicy 結構
在第一次網路爬取完成後網路爬取 Amazon S3 資料來源時,指定是要再次網路爬取整個資料集,還是只網路爬取自上次爬蟲程式執行以來新增的資料夾。如需詳細資訊,請參閱開發人員指南中的 AWS Glue中的增量網路爬取。
欄位
-
RecrawlBehavior
-UTF -8 字符串(有效值:CRAWL_EVERYTHING
CRAWL_NEW_FOLDERS_ONLY
| |CRAWL_EVENT_MODE
)。指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。
值為
CRAWL_EVERYTHING
指定再次網路爬取整個資料集。值為
CRAWL_NEW_FOLDERS_ONLY
指定只網路爬取自上次執行爬蟲程式之後,已新增的資料夾。CRAWL_EVENT_MODE
值會指定只網路爬取 Amazon S3 事件所識別的變更。
LineageConfiguration 結構
指定爬蟲程式的資料歷程組態設定。
欄位
-
CrawlerLineageSettings
-UTF -8 字符串(有效值:ENABLE
|DISABLE
)。指定是否啟用爬蟲程式的資料歷程。有效的 值如下:
-
ENABLE:啟用爬行者程式的資料歷程
-
DISABLE:停用爬行者程式的資料歷程
-
LakeFormationConfiguration 結構
指 AWS Lake Formation 定爬行者程式的組態設定值。
欄位
-
UseLakeFormationCredentials
– 布林值。指定是否要使用爬行者程式的 AWS Lake Formation 證明資料,而非IAM角色證明資料。
-
AccountId
— UTF -8 個字符串,長度不超過 12 個字節。跨帳戶網路爬取的必要項目。對於與目標資料相同的帳戶網路爬取,則可以將其保留為 null。
作業
CreateCrawler 動作(Python:創建履帶)
建立新的爬蟲程式,為其指定目標、角色、組態和選用的排程。至少必須在 s3Targets
欄位、jdbcTargets
欄位或 DynamoDBTargets
欄位中指定一個抓取目標。
請求
-
Name
— 必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.新爬蟲程式的名稱。
-
Role
— 必要:UTF-8 個字串。新爬行者程式用來存取客戶資源之IAM角色的角色或 Amazon 資源名稱 (ARN)。IAM
-
DatabaseName
— UTF -8 個字符串。寫入結果的 AWS Glue 資料庫,例如:
arn:aws:daylight:us-east-1::database/sometable/*
。 -
Description
– 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern。新爬蟲程式的描述。
-
Targets
– 必要:CrawlerTargets 物件。待編目的目標集合清單。
-
Schedule
— UTF -8 個字符串。用來指定排程的
cron
表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,若要每天在 12:15 執行某項作業UTC,您可以指定:cron(15 12 * * ? *)
。 -
Classifiers
-UTF -8 個字符串的數組。使用者已註冊的自訂分類器清單。依預設,所有內建分類器均包含在編目內,但這些自訂分類器一律覆寫特定分類的預設分類器。
-
TablePrefix
-UTF -8 個字符串,長度不超過 128 個字節。用於為所建立之資料表建立目錄的資料表字首。
-
SchemaChangePolicy
– SchemaChangePolicy 物件。爬蟲程式的更新和刪除行為政策。
-
RecrawlPolicy
– RecrawlPolicy 物件。一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。
-
LineageConfiguration
– LineageConfiguration 物件。指定爬蟲程式的資料歷程組態設定。
-
LakeFormationConfiguration
– LakeFormationConfiguration 物件。指 AWS Lake Formation 定爬行者程式的組態設定值。
-
Configuration
— UTF -8 個字符串。爬蟲程式組態資訊。此版本化JSON字串可讓使用者指定搜尋器行為的各個層面。如需詳細資訊,請參閱設定爬蟲程式組態選項。
-
CrawlerSecurityConfiguration
-UTF -8 個字符串,長度不超過 128 個字節。此爬蟲程式要使用的
SecurityConfiguration
結構。 -
Tags
– 金鑰值對的對應陣列,不超過 50 對。每個鍵是 UTF -8 個字符串,長度不小於 1 或超過 128 個字節。
每個值都是 UTF -8 個字串,長度不超過 256 個位元組。
要搭配此爬蟲程式要求使用的標籤。您可以使用標籤來限制對於爬蟲程式的存取情況。如需中標籤的詳細資訊 AWS Glue,請參閱開發人員指南AWS Glue中的「AWS 標籤」。
回應
無回應參數。
錯誤
InvalidInputException
AlreadyExistsException
OperationTimeoutException
ResourceNumberLimitExceededException
DeleteCrawler 行動(Python:刪除履帶)
從中移除指定的 AWS Glue Data Catalog爬行者程式 (除非爬行者程式狀態為)。RUNNING
請求
-
Name
— 必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.要移除之爬蟲程式的名稱。
回應
無回應參數。
錯誤
EntityNotFoundException
CrawlerRunningException
SchedulerTransitioningException
OperationTimeoutException
GetCrawler 行動(Python:獲取履帶)
擷取特定爬蟲程式的中繼資料。
請求
-
Name
— 必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.要擷取中繼資料之爬蟲程式的名稱。
回應
-
Crawler
– 爬蟲程式 物件。特定爬蟲程式的中繼資料。
錯誤
EntityNotFoundException
OperationTimeoutException
GetCrawlers 行動(Python:獲取爬蟲)
從客戶帳戶中定義之所有爬蟲程式擷取中繼資料。
請求
-
MaxResults
– 數字 (整數),不可小於 1,也不可以大於 1000。每次呼叫要傳回的爬蟲程式數量。
-
NextToken
— UTF -8 個字符串。接續符記,如果這是接續要求。
回應
-
Crawlers
– 一個 爬蟲程式 物件陣列。爬蟲程式中繼資料清單。
-
NextToken
— UTF -8 個字符串。持續字元,如果傳回的清單沒有達到此客戶帳戶中定義的結尾。
錯誤
OperationTimeoutException
GetCrawlerMetrics 動作(Python:獲取履帶程序度量)
擷取指定爬蟲程式的指標。
請求
-
CrawlerNameList
-UTF -8 個字符串的數組,不超過 100 個字符串。要擷取指標之爬蟲程式的名稱清單。
-
MaxResults
– 數字 (整數),不可小於 1,也不可以大於 1000。所要回傳清單的大小上限。
-
NextToken
— UTF -8 個字符串。接續符記,如果這是接續呼叫。
回應
-
CrawlerMetricsList
– 一個 CrawlerMetrics 物件陣列。指定爬蟲程式的指標清單。
-
NextToken
— UTF -8 個字符串。接續字元,如果傳回的清單未包含最後一個可用指標。
錯誤
OperationTimeoutException
UpdateCrawler 行動(Python:更新 _ 爬蟲)
更新爬蟲程式。如果爬蟲程式執行中,您必須先使用 StopCrawler
停止爬蟲程式,然後再更新。
請求
-
Name
— 必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.新爬蟲程式的名稱。
-
Role
— UTF -8 個字符串。新爬行者程式用來存取客戶資源之IAM角色的角色或 Amazon 資源名稱 (ARN)。IAM
-
DatabaseName
— UTF -8 個字符串。儲存結果的 AWS Glue 資料庫,例如:
arn:aws:daylight:us-east-1::database/sometable/*
。 -
Description
— UTF -8 個字串,長度不超過 2048 個位元組,符合URI address multi-line string pattern.新爬蟲程式的描述。
-
Targets
– CrawlerTargets 物件。待編目的目標清單。
-
Schedule
— UTF -8 個字符串。用來指定排程的
cron
表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,若要每天在 12:15 執行某項作業UTC,您可以指定:cron(15 12 * * ? *)
。 -
Classifiers
-UTF -8 個字符串的數組。使用者已註冊的自訂分類器清單。依預設,所有內建分類器均包含在編目內,但這些自訂分類器一律覆寫特定分類的預設分類器。
-
TablePrefix
-UTF -8 個字符串,長度不超過 128 個字節。用於為所建立之資料表建立目錄的資料表字首。
-
SchemaChangePolicy
– SchemaChangePolicy 物件。爬蟲程式的更新和刪除行為政策。
-
RecrawlPolicy
– RecrawlPolicy 物件。一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。
-
LineageConfiguration
– LineageConfiguration 物件。指定爬蟲程式的資料歷程組態設定。
-
LakeFormationConfiguration
– LakeFormationConfiguration 物件。指 AWS Lake Formation 定爬行者程式的組態設定值。
-
Configuration
— UTF -8 個字符串。爬蟲程式組態資訊。此版本化JSON字串可讓使用者指定搜尋器行為的各個層面。如需詳細資訊,請參閱設定爬蟲程式組態選項。
-
CrawlerSecurityConfiguration
-UTF -8 個字符串,長度不超過 128 個字節。此爬蟲程式要使用的
SecurityConfiguration
結構。
回應
無回應參數。
錯誤
InvalidInputException
VersionMismatchException
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException
StartCrawler 行動(Python:開始履帶)
使用指定的爬蟲程式開始編目,無論排程。如果爬行者程式已經在執行中,會傳回. CrawlerRunningException
請求
-
Name
— 必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.要啟動的爬蟲程式名稱。
回應
無回應參數。
錯誤
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException
StopCrawler 行動(Python:停止履帶)
如果指定的爬蟲程式正在執行中,停止編目。
請求
-
Name
— 必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.要停止的爬蟲程式名稱。
回應
無回應參數。
錯誤
EntityNotFoundException
CrawlerNotRunningException
CrawlerStoppingException
OperationTimeoutException
BatchGetCrawlers 動作(Python:批處理抓取器)
為指定的爬蟲程式名稱清單,傳回資源中繼資料的清單。呼叫 ListCrawlers
操作之後,您便可以呼叫此操作來存取您已授與許可的資料。此作業支援所有IAM權限,包括使用標籤的權限條件。
請求
-
CrawlerNames
— 必要:UTF-8 個字串的陣列,不超過 100 個字串。爬蟲程式名稱清單,可能是從
ListCrawlers
操作傳回的名稱。
回應
-
Crawlers
– 一個 爬蟲程式 物件陣列。爬蟲程式定義的清單。
-
CrawlersNotFound
-UTF -8 個字符串的數組,不超過 100 個字符串。未尋獲爬蟲程式的名稱清單。
錯誤
InvalidInputException
OperationTimeoutException
ListCrawlers 動作(Python:列表爬蟲)
擷取此 AWS 帳戶中所有爬行者程式資源的名稱,或具有指定標籤的資源。您可運用此操作,查看帳戶下有哪些可用資源及其名稱。
此操作會接收您可在回應時做為篩選條件的選用 Tags
欄位,因此已標記的資源可分組進行擷取。如果您選擇使用標籤進行篩選,則此時只會擷取包含該標籤的資源。
請求
-
MaxResults
– 數字 (整數),不可小於 1,也不可以大於 1000。所要回傳清單的大小上限。
-
NextToken
— UTF -8 個字符串。接續符記,如果這是接續要求。
-
Tags
– 金鑰值對的對應陣列,不超過 50 對。每個鍵是 UTF -8 個字符串,長度不小於 1 或超過 128 個字節。
每個值都是 UTF -8 個字串,長度不超過 256 個位元組。
指定只傳回包含這些標籤的資源。
回應
-
CrawlerNames
-UTF -8 個字符串的數組,不超過 100 個字符串。這個帳戶下所有爬蟲程式的名稱,或是使用指定標籤的爬蟲程式。
-
NextToken
— UTF -8 個字符串。接續字元,如果傳回的清單未包含最後一個可用指標。
錯誤
OperationTimeoutException
ListCrawls 動作(Python:列表爬行)
傳回指定爬蟲程式的所有網路爬取。僅傳回自爬蟲程式歷史記錄功能啟動日期以來發生的網路爬取,而且最多只會保留 12 個月的網路爬取。不會傳回較舊的網路爬取。
您可以使用API它來:
-
擷取指定爬蟲程式的所有網路爬取。
-
在有限的計數內擷取指定爬蟲程式的所有網路爬取。
-
擷取特定時間範圍內指定爬蟲程式的所有網路爬取。
-
擷取具有特定狀態、編目 ID 或DPU小時值之指定爬行者程式的所有編目。
請求
-
CrawlerName
— 必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.您希望擷取其執行的爬蟲程式名稱。
-
MaxResults
– 數字 (整數),不可小於 1,也不可以大於 1000。回傳結果的數量上限。預設值為 20,最大值為 100。
-
Filters
– 一個 CrawlsFilter 物件陣列。依照您在下列
CrawlsFilter
物件的清單中指定的條件篩選網路爬取。 -
NextToken
— UTF -8 個字符串。接續符記,如果這是接續呼叫。
回應
-
Crawls
– 一個 CrawlerHistory 物件陣列。CrawlerHistory
物件的清單,代表符合您條件的網路爬取執行。 -
NextToken
— UTF -8 個字符串。為一種接續符記,用於將傳回的符記清單分頁,而如果清單目前的區段不是最後區段就會傳回。
錯誤
EntityNotFoundException
OperationTimeoutException
InvalidInputException