本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建置 AWS 基礎設施
您可以使用許多 AWS 服務 來建置網路爬取基礎設施。本指南的架構區段包含一個提議的解決方案。建議您考慮使用下列項目 AWS 服務 來建置 Web 爬蟲程式的支援基礎設施:
-
使用 Amazon EventBridge 排程器啟動爬取程序。
-
使用 AWS Batch 任務和任務佇列來管理 Web 爬蟲程式任務。
-
使用下列其中一個解決方案來執行 Web 爬蟲程式任務:
-
上的 Amazon Elastic Container Service (Amazon ECS) 容器 AWS Fargate
-
Amazon Elastic Compute Cloud (Amazon EC2) 執行個體
注意
如果您的應用程式可以處理中斷,請考慮透過 Spot Fleet 使用 Amazon EC2 Spot 執行個體。 https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-spot-instances.html https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/work-with-spot-fleets.htmlSpot 執行個體機群可協助您大幅節省運算成本。
-
AWS Lambda 函數
-
-
將擷取的資料和原始檔案存放在 Amazon Simple Storage Service (Amazon S3) 儲存貯體中。