GitHub の「Amazon EMR on EKS Best Practices Guide」へのリンク - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

GitHub の「Amazon EMR on EKS Best Practices Guide」へのリンク

Amazon EMR on EKS Best Practices Guide」は、オープンソースコミュニティとのコラボレーションにより作成されました。これにより、仮想クラスターの作成と実行について迅速に作業を進め、推奨事項を提示できます。これらのセクションについては、「Amazon EMR on EKS best practices guide」を使用することをお勧めします。各セクションのリンクを選択して GitHub サイトに移動します。

セキュリティ

注記

EKS での Amazon EMR のセキュリティの詳細については、「Amazon EMR on EKS でのセキュリティのベストプラクティス」を参照してください。

暗号化のベストプラクティス: 保管中のデータおよび転送中のデータに暗号化を使用する方法。

ネットワークセキュリティの管理では、Amazon RDS や Amazon Redshift のように AWS のサービス にホストされているデータソースに接続する際の EKS での Amazon EMR のポッドのセキュリティグループを設定する方法について説明します。

Secrets Manager を使用して AWS シークレットを保存します

Pyspark ジョブ送信

Pyspark ジョブ送信: zip、egg、wheel、pex などのパッケージ形式を使用して、pySpark アプリケーションのさまざまなタイプのパッケージを指定します。

[Storage (ストレージ)]

EBS ボリュームの使用: EBS ボリュームを必要とするジョブに静的プロビジョニングと動的プロビジョニングを使用する方法。

Amazon FSx for Lustre ボリュームの使用: Amazon FSx for Luster ボリュームを必要とするジョブに静的プロビジョニングと動的プロビジョニングを使用する方法。

インスタンスストアボリュームの使用: ジョブ処理にインスタンスストアボリュームを使用する方法。

メタストア統合

Hive メタストアの使用: Hive メタストアを使用するさまざまな方法を提供します。

Glue AWS の使用: には、Glue AWS カタログを設定するさまざまな方法があります。

デバッグ

Spark デバッグの使用: ログレベルの変更の方法。

ドライバーポッドの Spark UI への接続。

EKS での Amazon EMR でセルフホスト型の Spark 履歴サーバーを使用する方法

EKS での Amazon EMR に関する問題のトラブルシューティング

トラブルシューティング

ノードの配置

single-az およびその他のユースケースでの Kubernetes ノードセレクターの使用

Fargate ノード配置の使用

パフォーマンス

動的リソース割り当て (DRA) の使用

Amazon VPC コンテナネットワークインターフェイスプラグイン (CNI)、Cluster Autoscaler、コア DNS の EKS ベストプラクティス

コスト最適化

スポットインスタンスの使用: Amazon EC2 スポットインスタンスのベストプラクティスと Spark ノードの廃止機能の使用方法。

の使用 AWS Outposts

を使用した Amazon EMR on EKS の実行 AWS Outposts