Service géré pour Apache Flink : comment ça marche - Service géré pour Apache Flink

Le service géré Amazon pour Apache Flink était auparavant connu sous le nom d’Amazon Kinesis Data Analytics pour Apache Flink.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Service géré pour Apache Flink : comment ça marche

Le service géré pour Apache Flink est un service Amazon entièrement géré qui vous permet de créer une application Apache Flink pour traiter les données en streaming.

Programmation de votre application Apache Flink

Une application Apache Flink est une application Java ou Scala créée avec l’environnement Apache Flink. Vous créez votre application Apache Flink localement.

Les applications utilisent principalement l'DataStream API ou l'API Table. Les autres API Apache Flink sont également à votre disposition, mais elles sont moins couramment utilisées pour créer des applications de streaming.

Les fonctionnalités des deux API sont les suivantes :

DataStream API

Le modèle de programmation de DataStream l'API Apache Flink repose sur deux composants :

  • Flux de données : représentation structurée d’un flux continu d’enregistrements de données.

  • Opérateur de transformation : prend un ou plusieurs flux de données en entrée et produit un ou plusieurs flux de données en sortie.

Les applications créées à l'aide de DataStream l'API effectuent les opérations suivantes :

  • Lire les données d’une source de données (telle qu’un flux Kinesis ou une rubrique Amazon MSK).

  • Appliquer des transformations aux données, telles que le filtrage, l’agrégation ou l’enrichissement.

  • Écrire les données transformées dans un récepteur de données.

Les applications qui utilisent l' DataStream API peuvent être écrites en Java ou en Scala, et peuvent être lues à partir d'un flux de données Kinesis, d'une rubrique Amazon MSK ou d'une source personnalisée.

Votre application traite les données à l’aide d’un connecteur. Apache Flink utilise les types de connecteurs suivants :

  • Source : connecteur utilisé pour lire des données externes.

  • Récepteur : connecteur utilisé pour écrire sur des emplacements externes.

  • Opérateur : connecteur utilisé pour traiter les données au sein de l’application.

Une application classique comprend au moins un flux de données avec une source, un flux de données avec un ou plusieurs opérateurs et au moins un récepteur de données.

Pour plus d'informations sur l'utilisation de l' DataStream API, consultezDataStream API.

API de table

Le modèle de programmation de l’API de table Apache Flink repose sur deux composants :

  • Environnement de table : interface permettant d’accéder aux données sous-jacentes que vous utilisez pour créer et héberger une ou plusieurs tables.

  • Table : objet donnant accès à une table ou à une vue SQL.

  • Source de table : utilisée pour lire des données provenant d’une source externe, telle qu’une rubrique Amazon MSK.

  • Fonction de table : requête SQL ou appel d’API utilisé pour transformer des données.

  • Récepteur de table : utilisé pour écrire des données dans un emplacement externe, tel qu’un compartiment Amazon S3.

Les applications créées avec l’API de table effectuent les opérations suivantes :

  • Créer un TableEnvironment en vous connectant à une Table Source.

  • Créer une table dans l’TableEnvironment à l’aide de requêtes SQL ou de fonctions de l’API de table.

  • Exécuter une requête sur la table à l’aide de l’API de table ou de SQL.

  • Appliquer des transformations aux résultats de la requête à l’aide de fonctions de table ou de requêtes SQL.

  • Écrire les résultats de la requête ou de la fonction dans un Table Sink.

Les applications qui utilisent l’API de table peuvent être écrites en Java ou en Scala et peuvent interroger des données à l’aide d’appels d’API ou de requêtes SQL.

Pour plus d’informations sur l’utilisation de l’API de table, consultez API de table.

Création de votre service géré pour l'application Apache Flink

Le service géré pour Apache Flink est un AWS service qui crée un environnement pour héberger votre application Apache Flink et lui fournit les paramètres suivants :

  • Propriétés d'exécution : paramètres que vous pouvez fournir à votre application. Vous pouvez modifier ces paramètres sans recompiler le code de votre application.

  • Tolérance aux pannes : comment votre application se rétablit après une interruption ou un redémarrage.

  • Journalisation et surveillance: la façon dont votre application enregistre les événements dans CloudWatch Logs.

  • Mise à l'échelle : comment votre application provisionne les ressources informatiques.

Vous pouvez créer votre application de service géré pour Apache Flink à l’aide de la console ou de l’interface AWS CLI. Pour commencer à créer une application de service géré pour Apache Flink, consultez Tutoriel : Commencer à utiliser le DataStream API.