AWS Glue Streaming - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue Streaming

AWS Glue Le streaming, un composant de AWS Glue, vous permet de gérer efficacement les données en streaming en temps quasi réel, ce qui vous permet d'effectuer des tâches cruciales telles que l'ingestion, le traitement et l'apprentissage automatique des données. Grâce au framework Apache Spark Streaming, AWS Glue Streaming fournit un service sans serveur capable de gérer les données de streaming à grande échelle. AWS Glue fournit diverses optimisations en plus d'Apache Spark, telles que l'infrastructure sans serveur, l'auto-scaling, le développement visuel des tâches, les blocs-notes instantanés pour les tâches de streaming et d'autres améliorations de performances.

Cas d’utilisation pour le streaming

Voici quelques cas d'utilisation courants du AWS Glue streaming :

Traitement ear-real-time des données N : le AWS Glue streaming permet aux entreprises de traiter les données en streaming en temps quasi réel, ce qui leur permet d'en tirer des informations et de prendre des décisions en temps opportun sur la base des informations les plus récentes.

Détection des fraudes : vous pouvez utiliser le AWS Glue streaming pour analyser en temps réel les données de streaming, ce qui le rend utile pour détecter les activités frauduleuses, telles que les fraudes par carte de crédit, les intrusions sur le réseau ou les escroqueries en ligne. En traitant et en analysant en permanence les données entrantes, vous pouvez rapidement identifier les schémas suspects ou les anomalies.

Analyse des réseaux sociaux : le AWS Glue streaming peut traiter les données des réseaux sociaux en temps réel, telles que les tweets, les publications ou les commentaires, permettant aux entreprises de suivre les tendances, d'analyser les sentiments et de gérer la réputation de la marque en temps réel.

Analyse de l'Internet des objets (IoT) : le AWS Glue streaming convient à la gestion et à l'analyse de flux de données à haute vitesse générés par des appareils IoT, des capteurs et des machines connectées. Il permet le suivi en temps réel, la détection des anomalies, la maintenance prédictive et d’autres cas d’utilisation de l’analytique IoT.

Analyse du flux de clics : le AWS Glue streaming peut traiter et analyser les données du flux de clics en temps réel provenant de sites Web ou d'applications mobiles. Cela permet aux entreprises de mieux comprendre le comportement des utilisateurs, de personnaliser les expériences utilisateur et d’optimiser les campagnes marketing en fonction des données du flux de clics en temps réel.

Surveillance et analyse des journaux : le AWS Glue streaming peut traiter et analyser en continu les données des journaux provenant de serveurs, d'applications ou de périphériques réseau en temps réel. Cela permet de détecter les anomalies, de résoudre les problèmes et de surveiller l’état et les performances du système.

Systèmes de recommandation : le AWS Glue streaming peut traiter les données d'activité des utilisateurs en temps réel et mettre à jour les modèles de recommandation de manière dynamique. Cela permet des recommandations personnalisées et en temps réel basées sur le comportement et les préférences des utilisateurs.

Voici quelques exemples de la diversité des cas d'utilisation dans lesquels le AWS Glue streaming peut être appliqué. Son intégration à l' AWS écosystème et aux services gérés en fait un choix pratique pour le traitement et l'analyse des flux en temps réel dans le cloud.

Quels sont les avantages du AWS Glue streaming ?

Les avantages de l'utilisation du AWS Glue streaming sont les suivants :

  • Sans serveur : le AWS Glue streaming se fait sans serveur, ce qui élimine le besoin de gérer l'infrastructure. Cela réduit les frais opérationnels et permet aux utilisateurs de se concentrer sur les tâches de traitement et d’analytique des données plutôt que sur la gestion de l’infrastructure.

  • Mise à l'échelle automatique : le AWS Glue streaming fournit des fonctionnalités de mise à l'échelle automatique, ajustant dynamiquement la capacité de traitement en fonction de la charge de travail. Il monte en puissance ou se met à l’échelle horizontale automatiquement pour gérer les fluctuations du volume de données, garantissant ainsi des performances et une utilisation des ressources optimales.

  • Développement visuel : le développement des emplois en streaming peut être complexe. AWS Glue Le streaming répond à ce défi en proposant AWS Glue Studio, un outil de création visuelle. AWS Glue Studio simplifie le processus de création de flux de travail de streaming et permet aux développeurs de concevoir et de gérer visuellement des applications de streaming, réduisant ainsi la courbe d'apprentissage et augmentant la productivité.

  • Rentable : en tant que service sans serveur, le AWS Glue streaming permet de réduire les coûts en éliminant le besoin de provisionnement et de maintenance de l'infrastructure. Les utilisateurs sont facturés en fonction des ressources consommées lors de l’exécution des tâches de streaming, ce qui permet une optimisation des coûts et une mise à l’échelle en fonction de l’utilisation réelle.

  • Gère des charges de travail complexes : le AWS Glue streaming est conçu pour gérer des charges de travail de streaming complexes. Il peut traiter et analyser de grands volumes de données en temps réel, prendre en charge des transformations avancées et s'intégrer à d'autres AWS services, permettant ainsi des pipelines de données en streaming et des flux de travail d'analyse sophistiqués.

  • Aucune dépendance : le AWS Glue streaming apporte de la flexibilité et évite la dépendance vis-à-vis d'un fournisseur. Les utilisateurs peuvent tirer parti du AWS Glue streaming dans le cadre d'un AWS écosystème plus large, en l'intégrant parfaitement à d'autres AWS services. Cela permet une intégration facile avec les sources de données, les applications et les services existants sans être lié à une technologie ou à une plateforme spécifique.

Quand utiliser le AWS Glue streaming ?

Il existe de nombreuses options en ce qui concerne les cas d’utilisation du streaming. Nous recommandons le AWS Glue streaming dans les scénarios suivants.

  1. Si vous utilisez AWS Glue déjà Spark pour le traitement par lots, AWS Glue Streaming est le choix idéal pour vous. Il permet une transition fluide vers la création de tâches de streaming sans qu’il soit nécessaire d’apprendre un nouveau langage ou un nouveau cadre. En tirant parti de vos connaissances et de votre infrastructure existantes, AWS Glue Streaming simplifie le processus de développement des tâches et vous permet d'étendre facilement vos capacités de traitement des données à des scénarios de streaming en temps réel.

  2. Si vous avez besoin d'un service ou d'un produit unifié pour gérer les charges de travail par lots, de streaming et d'événements, AWS Glue Streaming est la solution qu'il vous faut. Grâce au AWS Glue streaming, vous pouvez regrouper vos besoins en matière de traitement des données dans un cadre unique, éliminant ainsi la complexité liée à la gestion de plusieurs systèmes. Cela permet le développement et la maintenance efficaces de divers flux de données tout en garantissant la cohérence et la compatibilité entre les différents types de charge de travail.

  3. AWS Glue Le streaming convient parfaitement aux scénarios impliquant des volumes de données en streaming extrêmement importants et des transformations complexes, telles que des jointures entre des flux ou des bases de données relationnelles. Il peut traiter et analyser efficacement des flux de données massifs, ce qui vous permet de gérer facilement des charges de travail exigeantes. Qu'il s'agisse d'une ingestion de données à grande vitesse ou de manipulations de données complexes, l'évolutivité et les capacités de traitement avancées du AWS Glue streaming garantissent des performances optimales et des résultats précis.

  4. Si vous préférez une approche visuelle pour créer des jobs de streaming, Studio vous AWS Glue propose AWS Glue Studio, avec lequel vous pouvez concevoir et gérer visuellement vos applications de streaming, simplifiant ainsi le processus de développement. Cette interface intuitive permet aux développeurs de créer, configurer et surveiller les flux de travail de streaming à l’aide d’une interface visuelle, réduisant ainsi la courbe d’apprentissage et augmentant la productivité.

  5. AWS Glue Le streaming est un excellent choix pour les cas near-real-time d'utilisation où des accords de niveau de service stricts SLAs (accords de niveau de service) sont supérieurs à 10 secondes.

  6. Si vous créez un lac de données transactionnel à l'aide d'Apache Iceberg, Apache Hudi ou Delta Lake, AWS Glue Streaming fournit un support natif pour ces formats de table ouverts. Cette intégration fluide vous permet de traiter les données de streaming directement à partir de ces lacs de données transactionnels, garantissant ainsi la cohérence, l’intégrité et la compatibilité des données.

  7. Lorsque vous devez ingérer des données de streaming pour diverses cibles de données : le AWS Glue streaming fournit des cibles natives à diverses cibles de données telles qu'Amazon Redshift, Amazon, RDS Amazon Aurora, OracleSQL, Server et d'autres cibles.

Sources de données prises en charge

AWS Glue Le streaming prend en charge les sources de données suivantes :

  • Amazon Kinesis

  • Amazon MSK (Streaming géré pour Apache Kafka for Apache)

  • Self-managed Apache Kafka

Cibles de données prises en charge

AWS Glue Le streaming prend en charge diverses cibles de données, telles que :

  • Cibles de données prises en charge par AWS Glue Data Catalog

  • Amazon S3

  • Amazon Redshift

  • Mon SQL

  • Poster SQL

  • Oracle

  • Microsoft SQL Server

  • Snowflake

  • Toute base de données pouvant être connectée à l'aide de JDBC

  • Apache Iceberg, Delta et Apache Hudi

  • AWS Glue Connecteurs Marketplace