Amazon EMR リリース 5.10.0 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR リリース 5.10.0

5.10.0 アプリケーションバージョン

このリリースでは、次のアプリケーションがサポートされています: FlinkGangliaHBaseHCatalogHadoopHiveHueLivyMXNetMahoutOoziePhoenixPigPrestoSparkSqoopTezZeppelinZooKeeper

以下の表は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 3 つの Amazon EMR リリース (該当する場合) で利用可能なアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下のトピックを参照してください。

アプリケーションバージョン情報
emr-5.10.0 emr-5.9.1 emr-5.9.0 emr-5.8.3
AWS SDK for Java 1.11.2211.11.1831.11.1831.11.160
Python 2.7、3.4追跡されていません追跡されていません追跡されていません
Scala 2.11.82.11.82.11.82.11.8
AmazonCloudWatchAgent - - - -
Delta - - - -
Flink1.3.21.3.21.3.21.3.1
Ganglia3.7.23.7.23.7.23.7.2
HBase1.3.11.3.11.3.11.3.1
HCatalog2.3.12.3.02.3.02.3.0
Hadoop2.7.32.7.32.7.32.7.3
Hive2.3.12.3.02.3.02.3.0
Hudi - - - -
Hue4.0.14.0.14.0.13.12.0
Iceberg - - - -
JupyterEnterpriseGateway - - - -
JupyterHub - - - -
Livy0.4.00.4.00.4.0 -
MXNet0.12.0 - - -
Mahout0.13.00.13.00.13.00.13.0
Oozie4.3.04.3.04.3.04.3.0
Phoenix4.11.04.11.04.11.04.11.0
Pig0.17.00.17.00.17.00.16.0
Presto0.1870.1840.1840.170
Spark2.2.02.2.02.2.02.2.0
Sqoop1.4.61.4.61.4.61.4.6
TensorFlow - - - -
Tez0.8.40.8.40.8.40.8.4
Trino (PrestoSQL) - - - -
Zeppelin0.7.30.7.20.7.20.7.2
ZooKeeper3.4.103.4.103.4.103.4.10

5.10.0 リリースノート

次のリリースノートには、Amazon EMR バージョン 5.10.0 リリースに関する情報が含まれています。Amazon EMR 5.9.0 リリースからの変更が含まれています。

アップグレード
  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

新機能
  • Kerberos 認証のサポートが追加されました。詳しくは、「Amazon EMR 管理ガイド」の「Kerberos 認証を使用する」を参照してください。

  • EMRFS の IAM ロールのサポートが追加されました。詳細については、「Amazon EMR 管理ガイド」の「Amazon S3 への EMRFS リクエストの IAM ロールを設定する」を参照してください。

  • GPU ベースの P2 および P3 のインスタンスタイプのサポートが追加されました。詳細については、「Amazon EC2 P2 インスタンス」および「Amazon EC2 P3 インスタンス」を参照してください。これらのインスタンスタイプには、デフォルトで NVIDIA ドライバー 384.81 および CUDA ドライバー 9.0.176 がインストールされています。

  • Apache MXNet のサポートが追加されました。

変更、機能強化、解決した問題
  • Presto

  • Spark

    • SPARK-20640」をバックポートしました。これにより、spark.shuffle.registration.timeout プロパティおよび spark.shuffle.registration.maxAttempts プロパティを使用して、rpc タイムアウトや、シャッフル登録値の再試行回数が設定可能になりました。

    • SPARK-21549 をバックポートしました。これにより、HDFS 以外の場所にカスタム OutputFormat を書き込むときに発生するエラーが修正されます。

  • Hadoop-13270」をバックポートしました。

  • Numpy、Scipy、Matplotlib の各ライブラリは、Amazon EMR の基本 AMI から削除されています。アプリケーションでこれらのライブラリが必要な場合、アプリケーションリポジトリで使用できるため、ブートストラップアクションで yum install を使用してすべてのノードにインストールすることができます。

  • Amazon EMR の基本 AMI にアプリケーションの RPM パッケージが含まれなくなったため、その RPM パッケージはクラスターノードに存在しなくなりました。カスタム AMI と Amazon EMR の基本 AMI で、Amazon S3 の RPM パッケージリポジトリを参照できるようになりました。

  • Amazon EC2 で 1 秒単位の請求が導入されたため、デフォルトの [スケールダウン動作][インスタンス時間で削除する] ではなく [タスク完了で削除する] になっています。詳細については、「クラスターのスケールダウンを設定する」を参照してください。

既知の問題
  • MXNet には OpenCV ライブラリは含まれていません。

  • Hive 2.3.1 では hive.compute.query.using.stats=true がデフォルト設定になっています。これにより、クエリではデータが直接ではなく既存の統計から取得されるため、混乱が生じる場合があります。たとえば、hive.compute.query.using.stats=true が設定されたテーブルの LOCATION に新しいファイルをアップロードした場合、テーブルに対して SELECT COUNT(*) クエリを実行すると、追加された行がカウントされずに、統計からカウントが返されます。

    回避策として、ANALYZE TABLE コマンドを使用して新しい統計を収集するか、hive.compute.query.using.stats=false を設定します。詳細については、Apache Hive ドキュメントの「Statistics in Hive」を参照してください。

5.10.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新の Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。例えば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なる Amazon EMR リリースに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント Version 説明
emr-ddb4.5.0Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies2.4.0Hadoop エコシステムに役立つ追加のライブラリ。
emr-kinesis3.4.0Hadoop エコシステムアプリケーション用の Amazon Kinesis コネクター。
emr-s3-dist-cp2.7.0Amazon S3 に最適化された分散コピーアプリケーション。
emrfs2.20.0Hadoop エコシステムアプリケーション用の Amazon S3 コネクタ。
flink-client1.3.2Apache Flink のコマンドラインクライアント スクリプトとアプリケーション。
ganglia-monitor3.7.2Ganglia モニタリングエージェントとともに埋め込まれた、Hadoop エコシステムアプリケーション用 Ganglia エージェント。
ganglia-metadata-collector3.7.2Ganglia モニタリングエージェントからメトリクスを集計する Ganglia メタデータコレクター。
ganglia-web3.7.1Ganglia メタデータコレクターによって収集されたメトリクスを表示するウェブアプリケーション。
hadoop-client2.7.3-amzn-5'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode2.7.3-amzn-5ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library2.7.3-amzn-5HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode2.7.3-amzn-5ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-httpfs-server2.7.3-amzn-5HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server2.7.3-amzn-5Hadoop の KeyProvider API に基づく暗号化キー管理サーバー。
hadoop-mapred2.7.3-amzn-5MapReduce MapReduce アプリケーションを実行するための 実行エンジンライブラリ。
hadoop-yarn-nodemanager2.7.3-amzn-5個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager2.7.3-amzn-5クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server2.7.3-amzn-5YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hbase-hmaster1.3.1リージョンの調整および管理コマンドの実行を行う HBase クラスター用のサービス。
hbase-region-server1.3.11 つ以上の HBase リージョンに対応するサービス。
hbase-client1.3.1HBase コマンドラインクライアント。
hbase-rest-server1.3.1HBase の RESTful HTTP エンドポイントを提供するサービス。
hbase-thrift-server1.3.1HBase に Thrift エンドポイントを提供するサービス。
hcatalog-client2.3.1-amzn-0hcatalog-server を操作するための 'hcat' コマンドラインクライアント。
hcatalog-server2.3.1-amzn-0分散アプリケーション用のテーブルおよびストレージ管理レイヤーである HCatalog を提供するサービス。
hcatalog-webhcat-server2.3.1-amzn-0HCatalog に REST インターフェイスを提供する HTTP エンドポイント。
hive-client2.3.1-amzn-0Hive コマンドラインクライアント。
hive-hbase2.3.1-amzn-0Hive-hbase クライアント。
hive-metastore-server2.3.1-amzn-0Hadoop オペレーションの SQL 用のメタデータを保存するセマンティックレポジトリである Hive メタストアにアクセスするためのサービス。
hive-server22.3.1-amzn-0Hive クエリをウェブリクエストとして受け入れるサービス。
hue-server4.0.1Hadoop エコシステムアプリケーションを使用してデータを分析するウェブアプリケーション
livy-server0.4.0-incubatingApache Spark を操作するための REST インターフェイス
mahout-client0.13.0機械学習用のライブラリ。
mxnet0.12.0フレキシブルかつスケーラブルで、ディープラーニングにおいて効率的なライブラリです。
mysql-server5.5.54+MySQL データベースサーバー。
nvidia-cuda9.0.176Nvidia ドライバーと Cuda ツールキット
oozie-client4.3.0Oozie コマンドラインクライアント。
oozie-server4.3.0Oozie ワークフローリクエストを受け入れるサービス。
phoenix-library4.11.0-HBase-1.3サーバーとクライアントの Phoenix ライブラリ
phoenix-query-server4.11.0-HBase-1.3JDBC のアクセス、プロトコルのバッファ、および Avatica API への JSON 形式のアクセスを提供するし軽量サーバー
presto-coordinator0.187presto-worker 間でクエリを受け入れ、クエリの実行を管理するサービス。
presto-worker0.187いくつかのクエリを実行するサービス。
pig-client0.17.0Pig コマンドラインクライアント。
spark-client2.2.0Spark コマンドラインクライアント。
spark-history-server2.2.0完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn2.2.0YARN のメモリ内実行エンジン。
spark-yarn-slave2.2.0YARN スレーブで必要な Apache Spark ライブラリ。
sqoop-client1.4.6Apache Sqoop コマンドラインクライアント。
tez-on-yarn0.8.4tez YARN アプリケーションおよびライブラリ。
webserver2.4.25+Apache HTTP サーバー。
zeppelin-server0.7.3インタラクティブなデータ分析を可能にするウェブベースのノートブック。
zookeeper-server3.4.10設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client3.4.10ZooKeeper コマンドラインクライアント。

5.10.0 設定分類

設定分類を使用すると、アプリケーションをカスタマイズできます。これらは多くの場合、hive-site.xml などのアプリケーションの構成 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

emr-5.10.0 の分類
分類 説明

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

core-site

Hadoop の core-site.xml ファイルの値を変更します。

emrfs-site

EMRFS の設定を変更します。

flink-conf

flink-conf.yaml の設定を変更します。

flink-log4j

Flink log4j.properties の設定を変更します。

flink-log4j-yarn-session

Flink log4j-yarn-session.properties 設定を変更します。

flink-log4j-cli

Flink log4j-cli.properties の設定を変更します。

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

hbase

Apache HBase 用の Amazon EMR-curated 設定。

hbase-env

HBase の環境の値を変更します。

hbase-log4j

HBase の hbase-log4j.properties ファイルの値を変更します。

hbase-metrics

HBase の hadoop-metrics2-hbase.properties ファイルの値を変更します。

hbase-policy

HBase の hbase-policy.xml ファイルの値を変更します。

hbase-site

HBase の hbase-site.xml ファイルの値を変更します。

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

hcatalog-env

HCatalog 環境の値を変更します。

hcatalog-server-jndi

HCatalog の jndi.properties の値を変更します。

hcatalog-server-proto-hive-site

HCatalog の proto-hive-site.xml の値を変更します。

hcatalog-webhcat-env

HCatalog WebHCat 環境の値を変更します。

hcatalog-webhcat-log4j2

HCatalog WebHCat の log4j2.properties の値を変更します。

hcatalog-webhcat-site

HCatalog WebHCat の webhcat-site.xml ファイルの値を変更します。

hive-beeline-log4j2

Hive の beeline-log4j2.properties ファイルの値を変更します。

hive-parquet-logging

Hive の parquet-logging.properties ファイルの値を変更します。

hive-env

Hive 環境の値を変更します。

hive-exec-log4j2

Hive の hive-exec-log4j2.properties ファイルの値を変更します。

hive-llap-daemon-log4j2

Hive の llap-daemon-log4j2.properties ファイルの値を変更します。

hive-log4j2

Hive の hive-log4j2.properties ファイルの値を変更します。

hive-site

Hive の hive-site.xml ファイルの値を変更します

hiveserver2-site

Hive Server2 の hiveserver2-site.xml ファイルの値を変更します

hue-ini

Hue の ini ファイルの値を変更します

httpfs-env

HTTPFS 環境の値を変更します。

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

livy-conf

Livy の livy.conf ファイルの値を変更します。

livy-env

Livy 環境の値を変更します。

livy-log4j

Livy の log4j.properties の設定を変更します。

mapred-env

MapReduce アプリケーションの環境の値を変更します。

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

oozie-env

Oozie の環境の値を変更します。

oozie-log4j

Oozie の oozie-log4j.properties ファイルの値を変更します。

oozie-site

Oozie の oozie-site.xml ファイルの値を変更します。

phoenix-hbase-metrics

Phoenix の hadoop-metrics2-hbase.properties ファイルの値を変更します。

phoenix-hbase-site

Phoenix の hbase-site.xml ファイルの値を変更します。

phoenix-log4j

Phoenix の log4j.properties ファイルの値を変更します。

phoenix-metrics

Phoenix の hadoop-metrics2-phoenix.properties ファイルの値を変更します。

pig-properties

Pig の pig.properties ファイルの値を変更します。

pig-log4j

Pig の log4j.properties ファイルの値を変更します。

presto-log

Presto の log.properties ファイルの値を変更します。

presto-config

Presto の config.properties ファイルの値を変更します。

presto-env

Presto の presto-env.sh ファイルの値を変更します。

presto-node

Presto の node.properties ファイルの値を変更します。

presto-connector-blackhole

Presto の blackhole.properties ファイルの値を変更します。

presto-connector-cassandra

Presto の cassandra.properties ファイルの値を変更します。

presto-connector-hive

Presto の hive.properties ファイルの値を変更します。

presto-connector-jmx

Presto の jmx.properties ファイルの値を変更します。

presto-connector-kafka

Presto の kafka.properties ファイルの値を変更します。

presto-connector-localfile

Presto の localfile.properties ファイルの値を変更します。

presto-connector-mongodb

Presto の mongodb.properties ファイルの値を変更します。

presto-connector-mysql

Presto の musql.properties ファイルの値を変更します。

presto-connector-postgresql

Presto の postgresql.properties ファイルの値を変更します。

presto-connector-raptor

Presto の raptor.properties ファイルの値を変更します。

presto-connector-redis

Presto の redis.properties ファイルの値を変更します。

presto-connector-tpch

Presto の tpcj.properties ファイルの値を変更します。

spark

Apache Spark 用の Amazon EMR-curated 設定。

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

spark-env

Spark 環境の値を変更します。

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

spark-log4j

Spark の log4j.properties ファイルの値を変更します。

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

sqoop-env

Sqoop の環境の値を変更します。

sqoop-oraoop-site

Sqoop OraOopの oraoop-site.xml ファイルの値を変更します。

sqoop-site

Sqoop の sqoop-site.xml ファイルの値を変更します。

tez-site

Tez の tez-site.xml ファイルの値を変更します。

yarn-env

YARN 環境の値を変更します。

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

zeppelin-env

Zeppelin 環境の値を変更します。

zookeeper-config

ZooKeeperの zoo.cfg ファイルの値を変更します。

zookeeper-log4j

ZooKeeperの log4j.properties ファイルの値を変更します。