Managed Service für Apache Flink: So funktioniert's - Managed Service für Apache Flink

Amazon Managed Service für Apache Flink war zuvor als Amazon Kinesis Data Analytics für Apache Flink bekannt.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Managed Service für Apache Flink: So funktioniert's

Managed Service für Apache Flink ist ein vollständig verwalteter Amazon-Service, mit dem Sie Apache-Flink-Anwendungen zur Verarbeitung von Streaming-Daten entwickeln und verwalten können.

Programmieren Sie Ihre Apache Flink-Anwendung

Eine Apache-Flink-Anwendung ist eine Java- oder Scala-Anwendung, die mit dem Apache-Flink-Framework erstellt wurde. Sie entwickeln und erstellen Ihre Apache-Flink-Anwendung lokal.

Anwendungen verwenden hauptsächlich entweder die DataStream API oder die Tabellen-API. Die anderen Apache-Flink-APIs stehen Ihnen ebenfalls zur Verfügung, werden jedoch weniger häufig beim Erstellen von Streaming-Anwendungen verwendet.

Die beiden APIs bieten die folgenden Features:

DataStream API

Das Apache Flink DataStream API-Programmiermodell basiert auf zwei Komponenten:

  • Datenstrom: Die strukturierte Darstellung eines kontinuierlichen Flusses von Datensätzen.

  • Transformationsoperator: Nimmt einen oder mehrere Datenströme als Eingabe und erzeugt einen oder mehrere Datenströme als Ausgabe.

Mit der DataStream API erstellte Anwendungen haben folgende Funktionen:

  • Daten aus einer Datenquelle (z. B. einem Kinesis-Strom oder einem Amazon-MSK-Thema).

  • Transformationen auf die Daten anwenden, z. B. Filterung, Aggregation oder Anreicherung.

  • Transformierte Daten in eine Datensenke schreiben.

Anwendungen, die die DataStream API verwenden, können in Java oder Scala geschrieben werden und können aus einem Kinesis-Datenstream, einem Amazon MSK-Thema oder einer benutzerdefinierten Quelle lesen.

Ihre Anwendung verarbeitet Daten mithilfe eines Konnektors. Apache Flink verwendet die folgenden Arten von Konnektoren:

  • Quelle: Ein Konnektor, der zum Lesen externer Daten verwendet wird.

  • Senke: Ein Konnektor, der zum Schreiben an externe Standorte verwendet wird.

  • Operator: Ein Konnektor, der zur Verarbeitung von Daten innerhalb der Anwendung verwendet wird.

Eine typische Anwendung besteht aus mindestens einem Datenstrom mit einer Quelle, einem Datenstrom mit einem oder mehreren Operatoren und mindestens einer Datensenke.

Weitere Informationen zur Verwendung der DataStream API finden Sie unter. DataStream API

Tabellen-API

Das Programmiermodell der Tabellen-API von Apache Flink basiert auf den folgenden Komponenten:

  • Tabellenumgebung: Eine Schnittstelle zu zugrunde liegenden Daten, die Sie verwenden, um eine oder mehrere Tabellen zu erstellen und zu hosten.

  • Tabelle: Ein Objekt, das den Zugriff auf eine SQL-Tabelle oder -Ansicht ermöglicht.

  • Tabellenquelle: Wird verwendet, um Daten aus einer externen Quelle zu lesen, z. B. aus einem Amazon-MSK-Thema.

  • Tabellenfunktion: Eine SQL-Abfrage oder ein API-Aufruf, der zur Transformation von Daten verwendet wird.

  • Tabellensenke: Wird verwendet, um Daten an einen externen Speicherort zu schreiben, z. B. in einen Amazon-S3-Bucket.

Anwendungen, die mit der Tabellen-API erstellt werden, haben folgende Funktionen:

  • Erstellen einer TableEnvironment durch Herstellen einer Verbindung zu einer Table Source.

  • Erstellen einer Tabelle in der TableEnvironment durch entweder SQL-Abfragen oder Tabellen-API-Funktionen.

  • Ausführen einer Tabellenabfrage über die Tabellen-API oder SQL

  • Anwenden von Transformationen auf die Abfrageergebnisse über Tabellenfunktionen oder SQL-Abfragen.

  • Schreiben der Abfrage- oder Funktionsergebnisse in eine Table Sink.

Anwendungen, die die Tabellen-API verwenden, können in Java oder Scala geschrieben werden und Daten entweder mittels API-Aufrufen oder SQL-Abfragen abfragen.

Weitere Informationen zur Verwendung der Tabellen-API finden Sie unter Tabellen-API.

Erstellen Sie Ihre Managed Service für Apache Flink-Anwendung

Managed Service für Apache Flink ist ein AWS Dienst, der eine Umgebung für das Hosten Ihrer Apache Flink-Anwendung erstellt und ihr die folgenden Einstellungen zur Verfügung stellt:

  • Runtime-Eigenschaften: Parameter, die Sie Ihrer Anwendung zur Verfügung stellen können. Sie können diese Parameter ändern, ohne Ihren Anwendungscode neu kompilieren zu müssen.

  • Fehlertoleranz: Wie sich Ihre Anwendung nach Unterbrechungen und Neustarts wiederherstellt.

  • Protokollierung und Überwachung: Wie Ihre Anwendung Ereignisse in Logs protokolliert. CloudWatch

  • Skalierung: Wie Ihre Anwendung Datenverarbeitungsressourcen bereitstellt.

Sie können die Anwendung mit Managed Service für Apache Flink entweder über die Konsole oder die AWS CLI erstellen und ausführen. Erste Schritte zum Erstellen einer Anwendung mit Managed Service für Apache Flink finden Sie unter Erste Schritte (DataStream API).