AWS Glue ストリーミング - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue ストリーミング

AWS Glue のコンポーネントであるストリーミング AWS Glueを使用すると、ストリーミングデータをほぼリアルタイムで効率的に処理できるため、データの取り込み、処理、機械学習などの重要なタスクを実行できます。Apache Spark Streaming フレームワークを使用して、 AWS Glue ストリーミングデータを大規模に処理できるサーバーレスサービスを提供します。 は、サーバーレスインフラストラクチャ、自動スケーリング、ビジュアルジョブ開発、ストリーミングジョブ用のインスタントオンノートブック、その他のパフォーマンス向上など、Apache Spark 上にさまざまな最適化 AWS Glue を提供します。

ストリーミングのユースケース

AWS Glue ストリーミングの一般的なユースケースには、次のようなものがあります。

N ear-real-time データ処理: AWS Glue ストリーミングを使用すると、組織はストリーミングデータをほぼリアルタイムで処理できるため、インサイトを導き出し、最新情報に基づいてタイムリーな意思決定を行うことができます。

不正検出 : AWS Glue ストリーミングデータをリアルタイムで分析できるため、クレジットカード詐欺、ネットワーク侵入、オンライン詐欺などの不正行為を検出するために役立ちます。受信データを継続的に処理して分析することで、疑わしいパターンや異常を迅速に特定できます。

ソーシャルメディア分析: AWS Glue ストリーミングは、ツイート、投稿、コメントなどのリアルタイムのソーシャルメディアデータを処理できるため、組織は傾向のモニタリング、感情分析、ブランドの評価のリアルタイム管理を行うことができます。

モノのインターネット (IoT ) 分析: AWS Glue ストリーミングは、IoT デバイス、センサー、コネクテッドマシンによって生成されたデータの高速ストリームの処理と分析に適しています。これにより、リアルタイムの監視、異常検知、予知保全、およびその他の IoT 分析のユースケースが可能になります。

クリックストリーム分析: AWS Glue ストリーミングは、ウェブサイトまたはモバイルアプリケーションからのリアルタイムのクリックストリームデータを処理および分析できます。これにより、企業はユーザーの行動に関する洞察を得たり、ユーザー体験をパーソナライズしたり、リアルタイムのクリックストリームデータに基づいてマーケティングキャンペーンを最適化したりすることができます。

ログのモニタリングと分析: AWS Glue ストリーミングは、サーバー、アプリケーション、またはネットワークデバイスからのログデータをリアルタイムで継続的に処理および分析できます。これは、異常の検出、問題のトラブルシューティング、システムの状態とパフォーマンスの監視に役立ちます。

レコメンデーションシステム: AWS Glue ストリーミングは、ユーザーアクティビティデータをリアルタイムで処理し、レコメンデーションモデルを動的に更新できます。これにより、ユーザーの行動や好みに基づいた、パーソナライズされたリアルタイムのレコメンデーションが可能になります。

これらは、 AWS Glue ストリーミングを適用できるさまざまなユースケースの例です。 AWS エコシステムやマネージドサービスとの統合により、クラウドでのリアルタイムのストリーム処理と分析に便利な選択肢となります。

AWS Glue ストリーミングを使用する利点は何ですか?

AWS Glue ストリーミングを使用する利点は次のとおりです。

  • サーバーレス : AWS Glue ストリーミングはサーバーレスであるため、インフラストラクチャを管理する必要はありません。これにより、運用上のオーバーヘッドが軽減され、ユーザーは、インフラストラクチャ管理ではなくデータ処理および分析タスクに集中できます。

  • 自動スケーリング : AWS Glue ストリーミングは、ワークロードに基づいて処理容量を動的に調整する自動スケーリング機能を提供します。データ量の変動に合わせて自動的にスケールアウトまたはスケールインを行い、最適なパフォーマンスとリソース使用率を確保します。

  • ビジュアル開発: ストリーミングジョブの開発は複雑になる可能性があります。 AWS Glue ストリーミングは、ビジュアルオーサリングツールである AWS Glue Studio を提供することで、この課題に対処します。 AWS Glue Studio は、ストリーミングワークフローの作成プロセスを簡素化し、デベロッパーがストリーミングアプリケーションを視覚的に設計および管理できるようにし、学習曲線を短縮し、生産性を向上させます。

  • コスト効率の高い : サーバーレスサービスである AWS Glue ストリーミングは、インフラストラクチャのプロビジョニングと保守を不要にすることでコスト効率を実現します。ユーザーへの請求は、ストリーミングジョブの実行中に消費されたリソースに基づいて行われるため、実際の使用量に基づくコストの最適化とスケーリングが可能になります。

  • 複雑なワークロードを処理します: AWS Glue ストリーミングは、複雑なストリーミングワークロードを処理するように設計されています。大量のリアルタイムデータを処理および分析し、高度な変換をサポートし、他の AWS サービスと統合して、高度なストリーミングデータパイプラインと分析ワークフローを実現できます。

  • ロックインなし: AWS Glue ストリーミングは柔軟性を提供し、ベンダーのロックインを回避します。ユーザーは、より広範な AWS エコシステムの一部として AWS Glue ストリーミングを活用し、他の AWS サービスとシームレスに統合できます。これにより、特定のテクノロジーやプラットフォームに縛られることなく、既存のデータソース、アプリケーション、サービスと簡単に統合できます。

AWS Glue ストリーミングを使用するタイミング

ストリーミングのユースケースに関して言えば、多くの選択肢があります。以下のシナリオでは AWS Glue ストリーミングをお勧めします。

  1. バッチ処理に AWS Glue または Spark を既に使用している場合は、 AWS Glue ストリーミングが最適な選択肢です。新しい言語やフレームワークを学習しなくても、ストリーミングジョブの構築にシームレスに移行できます。既存の知識とインフラストラクチャを活用して、 AWS Glue Streaming はジョブ開発プロセスを簡素化し、データ処理機能をリアルタイムストリーミングシナリオに簡単に拡張できます。

  2. バッチ、ストリーミング、イベント駆動型のワークロードを処理するために統合サービスまたは製品が必要な場合は、 AWS Glue ストリーミングがソリューションとなります。 AWS Glue Streaming を使用すると、データ処理のニーズを 1 つのフレームワークに統合できるため、複数のシステムを管理する複雑さがなくなります。これにより、さまざまなワークロードタイプ間での一貫性と互換性を確保しながら、多様なデータワークフローを効率的に開発および保守できます。

  3. AWS Glue ストリーミングは、ストリーム間やリレーショナルデータベース間の結合など、非常に大きなストリーミングデータボリュームや複雑な変換を伴うシナリオに適しています。大量のデータストリームを効率的に処理して分析できるため、要求の厳しいワークロードにも簡単に取り組むことができます。高速データ取り込みでも複雑なデータ操作でも、 AWS Glue ストリーミングのスケーラビリティと高度な処理機能により、最適なパフォーマンスと正確な結果が得られます。

  4. ストリーミングジョブの構築に視覚的なアプローチを希望する場合は、ストリーミングアプリケーションを視覚的に設計および管理できる AWS Glue Studio AWS Glue を提供し、開発プロセスを簡素化します。この直感的なインターフェイスにより、開発者はビジュアルインターフェイスを使用してストリーミングワークフローを作成、設定、監視できるため、習得時間が短縮され、生産性が向上します。

  5. AWS Glue ストリーミングは、厳しい SLAs (サービスレベルアグリーメント) が 10 秒を超える near-real-time ユースケースに最適です

  6. Apache Iceberg、Apache Hudi、または Delta Lake を使用してトランザクションデータレイクを構築する場合、 AWS Glue Streaming はこれらのオープンテーブル形式をネイティブにサポートします。このシームレスな統合により、これらのトランザクションデータレイクからストリーミングデータを直接処理できるようになり、データ整合性、完全性、互換性が確保されます。

  7. さまざまなデータターゲットのストリーミングデータを取り込む必要がある場合: AWS Glue Streaming は、Amazon Redshift、Amazon 、Amazon Aurora、OracleRDS、SQLServer などのさまざまなデータターゲットにネイティブターゲットを提供します。

サポートされているデータソース

AWS Glue ストリーミングでは、次のデータソースがサポートされています。

  • Amazon Kinesis

  • Amazon MSK (Managed Streaming for Apache Kafka)

  • セルフマネージド Apache Kafka

サポートされるデータターゲット

AWS Glue ストリーミングは、次のようなさまざまなデータターゲットをサポートします。

  • Data Catalog でサポートされる AWS Glue データターゲット

  • Amazon S3

  • Amazon Redshift

  • マイSQL

  • PostgreSQL

  • Oracle

  • Microsoft SQL サーバー

  • Snowflake

  • を使用して接続できるデータベース JDBC

  • Apache Iceberg、Delta、および Apache Hudi

  • AWS Glue Marketplace コネクタ