Aufbau der Infrastruktur AWS

Es gibt viele AWS-Services , die Sie zum Aufbau der Web-Crawling-Infrastruktur verwenden können. Der Abschnitt Architektur dieses Handbuchs enthält einen Lösungsvorschlag. Wir empfehlen Ihnen, beim Aufbau der unterstützenden Infrastruktur für Ihren Webcrawler Folgendes in Betracht AWS-Services zu ziehen:

Verwenden Sie Amazon Virtual Private Cloud (Amazon VPC), um die VPC und die Subnetze zu erstellen.
Initiieren Sie den Crawling-Prozess mithilfe von Amazon EventBridge Scheduler.
Verwalten Sie die Web-Crawler-Jobs mithilfe von AWS Batch Jobs und Job-Warteschlangen.
Verwenden Sie eine der folgenden Lösungen, um die Webcrawler-Jobs auszuführen:
- Amazon Elastic Container Service (Amazon ECS) -Container auf AWS Fargate
- Amazon Elastic Compute Cloud (Amazon EC2) -Instanzen
  
  Anmerkung
  Wenn Ihre Anwendung Störungen bewältigen kann, sollten Sie die Nutzung von Amazon EC2 Spot-Instances über Spot Fleet in Betracht ziehen. Flotten von Spot-Instances können Ihnen helfen, erheblich bei den Rechenkosten zu sparen.
- AWS Lambda Funktionen
Speichern Sie die abgerufenen Daten und Rohdateien in einem Amazon Simple Storage Service (Amazon S3) -Bucket.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Den Webcrawler erstellen

Bewährte Methoden

Aufbau der Infrastruktur AWS

Anmerkung