Hudi
Apache Hudi
Hudi は、Apache Spark
Amazon EMR リリースバージョン 5.28.0 以降では、EMR は Spark、Hive、Presto、または Flink のインストール時に、デフォルトで Hudi コンポーネントをインストールします。Spark または Hudi DeltaStreamer ユーティリティを使用して、Hudi データセットを作成したり更新したりできます。Hive、Spark、Presto、または Flink を使用して、Hudi データセットをインタラクティブにクエリしたり、増分プルを使用してデータ処理パイプラインを構築したりできます。増分プルとは、2 つのアクション間で変更されたデータのみをプルする機能を指します。
これらの機能により、Hudi は以下のユースケースに適しています。
-
特定のデータの挿入および更新イベントを必要とするセンサーやその他のモノのインターネット (IoT) デバイスからのストリーミングデータを操作する。
-
ユーザーがデータの使用方法について忘れたり、同意を変更したりする可能性のあるアプリケーションのデータプライバシー規制を遵守する。
-
経時的に変更をデータセットに適用できる変更データキャプチャ (CDC) システム
を実装する。
次の表は、Amazon EMR 7.x シリーズの最新リリースに含まれている Hudi のバージョンと、Amazon EMR で Hudi と共にインストールされるコンポーネントを示しています。
このリリースで Hudi と共にインストールされるコンポーネントのバージョンについては、「Release 7.3.0 Component Versions」を参照してください。
Amazon EMR リリースラベル | Hudi バージョン | Hudi でインストールされるコンポーネント |
---|---|---|
emr-7.3.0 |
Hudi 0.15.0-amzn-0 |
Not available. |
次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている Hudi のバージョンと、Amazon EMR で Hudi と共にインストールされるコンポーネントを示しています。
このリリースで Hudi と共にインストールされるコンポーネントのバージョンについては、「リリース 6.15.0 コンポーネントバージョン」を参照してください。
Amazon EMR リリースラベル | Hudi バージョン | Hudi でインストールされるコンポーネント |
---|---|---|
emr-6.15.0 |
Hudi 0.14.0-amzn-0 |
Not available. |
注記
Amazon EMR リリース 6.8.0 には Apache Hudihudi-spark3.3-bundle_2.12
とも互換性があります。
次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている Hudi のバージョンと、Amazon EMR で Hudi と共にインストールされるコンポーネントを示しています。
このリリースで Hudi と共にインストールされるコンポーネントのバージョンについては、「Release 5.36.2 Component Versions」を参照してください。
Amazon EMR リリースラベル | Hudi バージョン | Hudi でインストールされるコンポーネント |
---|---|---|
emr-5.36.2 |
Hudi 0.10.1-amzn-1 |
Not available. |