Automatisieren Sie die Datenaufnahme aus AWS Data Exchange in Amazon S3 - AWS Prescriptive Guidance

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Automatisieren Sie die Datenaufnahme aus AWS Data Exchange in Amazon S3

Erstellt von Adnan Alvee (AWS) und Manikanta Gona () AWS

Technologien: Analytik; DataLakes

Umwelt: Produktion

AWSDienste: Amazon S3; Amazon CloudWatch; AWS Lambda; Amazon SNS

Übersicht

Dieses Muster bietet eine AWS CloudFormation Vorlage, mit der Sie Daten aus Data Exchange automatisch in Ihren AWS Data Lake in Amazon Simple Storage Service (Amazon S3) aufnehmen können. 

AWSData Exchange ist ein Dienst, der es einfach macht, dateibasierte Datensätze in der AWS Cloud sicher auszutauschen. AWSData Exchange Exchange-Datensätze basieren auf Abonnements. Als Abonnent können Sie auch auf Änderungen von Datensätzen zugreifen, wenn Anbieter neue Daten veröffentlichen. 

Die AWS CloudFormation Vorlage erstellt ein Amazon CloudWatch Events-Ereignis und eine AWS Lambda-Funktion. Das Ereignis sucht nach Aktualisierungen des Datensatzes, den Sie abonniert haben. Wenn es ein Update gibt, CloudWatch initiiert eine Lambda-Funktion, die die Daten in den von Ihnen angegebenen S3-Bucket kopiert. Wenn die Daten erfolgreich kopiert wurden, sendet Lambda Ihnen eine Amazon Simple Notification Service (AmazonSNS) -Benachrichtigung.

Voraussetzungen und Einschränkungen

Voraussetzungen

  • Ein aktives Konto AWS

  • Abonnement eines Datensatzes in AWS Data Exchange

Einschränkungen

  • Die AWS CloudFormation Vorlage muss für jeden abonnierten Datensatz in AWS Data Exchange separat bereitgestellt werden.

Architektur

Zieltechnologie-Stack

  • AWSLambda

  • Amazon S3

  • AWS-Datenaustausch

  • Amazon CloudWatch

  • Amazon SNS

Zielarchitektur

CloudWatch initiiert eine Lambda-Funktion, um Daten in den S3-Bucket zu kopieren und eine SNS Amazon-Benachrichtigung zu senden.

Automatisierung und Skalierung

Sie können die AWS CloudFormation Vorlage mehrfach für die Datensätze verwenden, die Sie in den Data Lake aufnehmen möchten.

Tools

  • AWSData Exchange — Ein Service, der es AWS Kunden einfach macht, dateibasierte Datensätze in der AWS Cloud sicher auszutauschen. Als Abonnent können Sie Hunderte von Produkten von qualifizierten Datenanbietern finden und abonnieren. Anschließend können Sie den Datensatz schnell herunterladen oder auf Amazon S3 kopieren, um ihn für eine Vielzahl von AWS Analyse- und Machine-Learning-Diensten zu verwenden. Jeder mit einem AWS Konto kann ein AWS Data Exchange Exchange-Abonnent sein.

  • AWSLambda — Ein Rechendienst, mit dem Sie Code ausführen können, ohne Server bereitstellen oder verwalten zu müssen. AWSLambda führt Ihren Code nur bei Bedarf aus und skaliert automatisch, von wenigen Anfragen pro Tag bis hin zu Tausenden pro Sekunde. Sie zahlen nur für die Rechenzeit, die Sie verbrauchen. Es fallen keine Gebühren an, wenn Ihr Code nicht ausgeführt wird. Mit AWS Lambda können Sie Code für praktisch jede Art von Anwendung oder Backend-Service ohne Verwaltungsaufwand ausführen. AWSLambda führt Ihren Code auf einer hochverfügbaren Recheninfrastruktur aus und verwaltet alle Rechenressourcen, einschließlich Server- und Betriebssystemwartung, Kapazitätsbereitstellung und automatische Skalierung, Codeüberwachung und Protokollierung.

  • Amazon S3 — Speicher für das Internet. Mit Amazon S3 können Sie jederzeit beliebige Mengen von Daten von überall aus im Internet speichern und aufrufen.

  • Amazon CloudWatch Events — Liefert einen Stream von Systemereignissen, die Änderungen an AWS Ressourcen beschreiben, nahezu in Echtzeit. Mithilfe einfacher Regeln, die Sie schnell einrichten können, können Sie Ereignisse zuordnen und sie an eine oder mehrere Zielfunktionen oder Streams weiterleiten. CloudWatch Events erkennt betriebliche Änderungen, sobald sie eintreten. Es reagiert auf diese betrieblichen Änderungen und ergreift bei Bedarf Korrekturmaßnahmen, indem es Nachrichten sendet, um auf die Umgebung zu reagieren, Funktionen aktiviert, Änderungen vornimmt und Statusinformationen erfasst. Sie können CloudWatch Ereignisse auch verwenden, um mithilfe von Cron - oder Rate-Ausdrücken automatisierte Aktionen zu planen, die zu bestimmten Zeiten von selbst initiiert werden.

  • Amazon SNS — Ein Webservice, der es Anwendungen, Endbenutzern und Geräten ermöglicht, sofort Benachrichtigungen aus der Cloud zu senden und zu empfangen. Amazon SNS bietet Themen (Kommunikationskanäle) für Push-basierte Nachrichten mit hohem Durchsatz. many-to-many Mithilfe von SNS Amazon-Themen können Herausgeber Nachrichten zur parallel Verarbeitung an eine große Anzahl von Abonnenten verteilen, einschließlich Amazon Simple Queue Service (AmazonSQS) -Warteschlangen, AWS Lambda-Funktionen und HTTP /S-Webhooks. Sie können Amazon auch verwendenSNS, um Benachrichtigungen an Endbenutzer per Push und E-Mail zu senden. SMS

Epen

AufgabeBeschreibungErforderliche Fähigkeiten

Abonnieren Sie einen Datensatz.

Abonnieren Sie in der AWS Data Exchange Exchange-Konsole einen Datensatz. Anweisungen finden Sie unter dem Link im Abschnitt „Verwandte Ressourcen“.

Allgemeines AWS

Notieren Sie sich die Attribute des Datensatzes.

Notieren Sie sich die AWS Region, ID und Revisions-ID für den Datensatz. Sie benötigen dies für die AWS CloudFormation Vorlage im nächsten Schritt.

Allgemein AWS
AufgabeBeschreibungErforderliche Fähigkeiten

Erstellen Sie einen S3-Bucket und einen Ordner.

Wenn Sie bereits über einen Data Lake in Amazon S3 verfügen, erstellen Sie einen Ordner zum Speichern der Daten, die aus AWS Data Exchange aufgenommen werden sollen. Wenn Sie die Vorlage zu Testzwecken bereitstellen, erstellen Sie einen neuen S3-Bucket und notieren Sie sich den Bucket-Namen und das Ordnerpräfix für den nächsten Schritt.

Allgemein AWS

Stellen Sie die AWS CloudFormation Vorlage bereit.

Stellen Sie die AWS CloudFormation Vorlage bereit, die als Anlage zu diesem Muster bereitgestellt wird. Konfigurieren Sie die folgenden Parameter so, dass sie Ihren AWS Konto-, Datensatz- und S3-Bucket-Einstellungen entsprechen: AWS Datensatz-Region, Datensatz-ID, Revision-ID, S3-Bucket-Name (z. B. DOC EXAMPLE - -BUCKET), Ordnerpräfix (z. B. myfolder/) und E-Mail für Benachrichtigungen. SNS Sie können den Parameter Dataset Name auf einen beliebigen Namen festlegen. Wenn Sie die Vorlage bereitstellen, führt sie eine Lambda-Funktion aus, um automatisch den ersten im Datensatz verfügbaren Datensatz aufzunehmen. Die nachfolgende Aufnahme erfolgt dann automatisch, sobald neue Daten in den Datensatz aufgenommen werden.

Allgemeines AWS

Zugehörige Ressourcen

Anlagen

Um auf zusätzliche Inhalte zuzugreifen, die mit diesem Dokument verknüpft sind, entpacken Sie die folgende Datei: attachment.zip