Amazon EMR 6.9.0-ハイブリリースノート - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR 6.9.0-ハイブリリースノート

Amazon EMR 6.9.0-ハイブの変更

説明
Upgrade Jetty を 9.4.48.v20220622 にアップグレード
Upgrade Hadoop 3.3 のSupport
特徴 Amazon EMR Hive とLake Formation の統合により、GCSC API を使用したインタラクティブなワークロードを実現。
特徴 Amazon EMR Hive とアイスバーグの統合。
改善 Amazon EMR セキュリティ設定を使用して転送中の暗号化が有効になっている場合は、 HiveServer 2 で SSL を有効にします。
改善 Hive EMRFS Amazon S3 最適化コミッターをデフォルトで有効にします。詳細については、「Hive EMRFS S3 向けに最適化されたコミッターを有効にする」を参照してください。
改善 SPARK-34210HiveHBaseTableInputFormatV2 InputFormat のマップバージョンのみを継承するように追加しました。hive.hbase.inputformat.v2true使用するように設定します。
改善 TeZamを終了してすぐに新規起動するのではなく、hive.cli.tez.session.asyncを使用してバックグラウンドでTeZamが起動するのを待ってくださいhive.emr.cli.tez.session.open.timeoutこのタイムアウトを秒単位で設定します。
改善 既存の制限付き構成リストにコンマで区切られた構成を追加するには、hive.conf.restricted.list.append オプションを追加しますhive.conf.restricted.list
改善 データベースにロケーションが定義されていないために Hive クエリが失敗したときのエラーメッセージがより明確になりました。
バックポート HIVE-24484: Hadoop を 3.3.1 に、Tez を 0.10.2 にアップグレードしてください
バックポート HIVE-22398: を使用して YARN キュー管理を削除します ShimLoader。
バックポート HIVE-23190: LLAP: IndexCache TezSpillRecord ファイルシステムオブジェクトをに渡すように修正しました。
バックポート HIVE-22185: MiniYarn クラスターを使用したテストでは、HADOOP-15832 で問題が発生します。
バックポート HIVE-21670:mockito-allmockito-core 依存関係に置き換える。
バックポート HIVE-24542: アップグレードに備えてグアバを準備してください。
バックポート HIVE-23751: QTest: HADOOP-16582#mkdirs()ProxyFileSystem の後に整列するようにメソッドをオーバーライドしてください。
バックポート HIVE-21603: Java 11 の準備:パワーモックバージョンを更新してください。
バックポート HIVE-24083: Hadoop 3.3.0hcatalog のエラー:認証タイプが必要です。
バックポート HIVE-24282: 明示的に記載されていない限り、表示列は出力列をソートしないでください。
バックポート HIVE-20656:適切なデフォルト:マップ集約メモリ構成が厳しすぎる。
バックポート HIVE-25443: 値が 1024 個を超える場合、Arrow SerDe は複雑なデータ型をシリアル化/逆シリアル化できない
バックポート HIVE-19792: orc を 1.5.2 にアップグレードして、decimal_64 スキーマエボリューションテストを有効にしてください。
バックポート HIVE-20437: 浮動小数点数、倍精度浮動小数点型、小数点型のスキーマ進化を処理します。
バックポート HIVE-21987: ハイブは小数点注釈の付いた寄木細工の int32 を読み取ることができません。
バックポート HIVE-20038:バケット化されていないテーブルやパーティション化されたテーブルのクエリを更新すると NPE がスローされます。

Amazon EMR 6.9.0-既知の問題

  • Amazon EMR 6.6.0 ~ 6.9.0 では、動的パーティションと ORDER BY 句または SORT BY 句を使用した INSERT クエリには必ず 2 つのリデューサーがあります。この問題は、OSS の HIVE-20703 の変更、つまり動的なソートパーティションの最適化がコストベースの判断の対象となることが原因です。ワークロードで動的パーティションのソートが不要な場合は、hive.optimize.sort.dynamic.partition.threshold-1プロパティをに設定して新機能を無効にし、リデューサーの数を正しく計算することをおすすめします。この問題は HIVE-22269 の一部として OSS Hive で修正されており、今後の Amazon EMR リリースで利用できるようになる予定です。詳細については、AWSサポートにお問い合わせください。