Hudi - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Hudi

Apache Hudiは、増分データの処理とデータパイプラインの開発をシンプルにするオープンソースのデータ管理フレームワークであり、そのために、レコードレベルの挿入、更新、アップサート、および削除機能を備えています。アップサートとは、既存のデータセットにレコードがまだ存在しない場合は挿入し、存在する場合は更新する機能を指します。Amazon S3 でのデータのレイアウト方法を効率的に管理することで、Hudi はデータをほぼリアルタイムで取り込んで更新できます。Hudi は、データセットに対して実行されたアクションのメタデータをきめ細かく管理して、アクションをアトミックで整合性のある状態にするのに役立ちます。

Hudi はと統合されています。Apache SparkApache Hive, およびPresto。Amazon EMR リリースバージョン 6.1.0 以降では、Hudi もトリノ (PrestoSQL)

Amazon EMR リリースバージョン 5.28.0 以降では、は Spark、Hive、または Presto のインストール時に、デフォルトで Hudi コンポーネントをインストールします。Spark または Hudi DeltaStreamer ユーティリティを使用して、Hudi データセットを作成したり更新したりできます。Hive、Spark、または Presto を使用して、Hudi データセットをインタラクティブにクエリしたり、増分プルを使用してデータ処理パイプラインを構築したりできます。増分プルとは、2 つのアクション間で変更されたデータのみをプルする機能を指します。

これらの機能により、Hudi は、以下のユースケースに適しています。

  • 特定のデータの挿入および更新イベントを必要とするセンサーやその他のモノのインターネット (IoT) デバイスからのストリーミングデータを操作する。

  • ユーザーがデータの使用方法について忘れたり、同意を変更したりする可能性のあるアプリケーションのデータプライバシー規制を遵守する。

  • 経時的に変更をデータセットに適用できる変更データキャプチャ (CDC) システムを実装する。

Amazon EMR 5.33.0 と共にインストールされた Hudi のバージョンは 0.7.0-amzn-1 である。