Amazon EMR 6.8.0 - Hive リリースノート - Amazon EMR

Amazon EMR 6.8.0 - Hive リリースノート

Amazon EMR 6.8.0 - Hive の変更点

説明
改良点 msck コマンドのファイルシステム呼び出しを減らします。パフォーマンスの向上 (10,000 以上のパーティションで最大 15~20 倍)
バックポート HIVE-20678: HiveHBaseTableOutputFormat は互換性を確保するために HiveOutputFormat を実装する必要がある
バックポート HIVE-21040: msck はディレクトリツリーの最後のレベルで不要なファイルを一覧表示する
バックポート HIVE-21460: データをロードした後に select * クエリを実行すると、誤った結果になる
バックポート HIVE-21660: union all の後で view with explode を使用すると間違った結果になる
バックポート HIVE-22505: 誤ったベクトル化された演算子の選択が原因で発生する ClassCastException
バックポート HIVE-22513: フィルター操作でのキャスト列の定数伝播により、誤った結果が生じる可能性がある
バックポート HIVE-23435: 完全外部結合の結果で行が欠落している
バックポート HIVE-24209: ベクトル化が有効な場合の NOT BETWEEN 操作の検索引数の変換が正しくない
バックポート HIVE-24934: GenericUDFSQCountCheck では VectorizedExpressions のアノテーションは不要
バックポート HIVE-25278: HiveProjectJoinTransposeRule がウィンドウ式で無効な変換を行うことがある
バックポート HIVE-25505: 最初の行が空白の場合、ヘッダーの skip.header.line.count で不正な結果になる
バックポート HIVE-26080: accumulo-core を 1.10.1 にアップグレード
バックポート HIVE-26235: バイナリ列の OR 条件が空の結果を返す
バグ 起動時の stderr の複数の SLF4J バインディング警告ログを修正
バグ パーティションとテーブルが異なるファイルシステムにある場合に、SHOW TABLE EXTENDED クエリが Wrong FS エラーで失敗する問題を修正。

Amazon EMR 6.8.0 - Hive の既知の問題

  • Amazon EMR 6.6.0 から 6.9.x では、動的パーティションと ORDER BY 句または SORT BY 句を使用した INSERT クエリには常に 2 つのリデューサーがあります。この問題は、OSS が変更された HIVE-20703 が原因です。これにより、動的ソートパーティションの最適化がコストベースの決定下に置かれます。ワークロードで動的パーティションのソートが不要な場合は、hive.optimize.sort.dynamic.partition.threshold プロパティを -1 に設定して新機能を無効にし、リデューサーの数を正しく計算することをお勧めします。この問題は、HIVE-22269 の一部として OSS Hive で修正され、Amazon EMR 6.10.0 で修正されています。