Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Aufbau der Infrastruktur AWS
Es gibt viele AWS-Services , die Sie zum Aufbau der Web-Crawling-Infrastruktur verwenden können. Der Abschnitt Architektur dieses Handbuchs enthält einen Lösungsvorschlag. Wir empfehlen Ihnen, beim Aufbau der unterstützenden Infrastruktur für Ihren Webcrawler Folgendes in Betracht AWS-Services zu ziehen:
-
Verwenden Sie Amazon Virtual Private Cloud (Amazon VPC), um die VPC und die Subnetze zu erstellen.
-
Initiieren Sie den Crawling-Prozess mithilfe von Amazon EventBridge Scheduler.
-
Verwalten Sie die Web-Crawler-Jobs mithilfe von AWS BatchJobs und Job-Warteschlangen.
-
Verwenden Sie eine der folgenden Lösungen, um die Webcrawler-Jobs auszuführen:
-
Amazon Elastic Container Service (Amazon ECS) -Container auf AWS Fargate
-
Amazon Elastic Compute Cloud (Amazon EC2) -Instanzen
Anmerkung
Wenn Ihre Anwendung Störungen bewältigen kann, sollten Sie die Nutzung von Amazon EC2 Spot-Instances über Spot Fleet in Betracht ziehen. Flotten von Spot-Instances können Ihnen helfen, erheblich bei den Rechenkosten zu sparen.
-
AWS Lambda Funktionen
-
-
Speichern Sie die abgerufenen Daten und Rohdateien in einem Amazon Simple Storage Service (Amazon S3) -Bucket.