翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
EMR Notebooks を使用するときの考慮事項
EMR notebooks を使用してクラスターの作成およびソリューションの開発を行う場合は、次の要件を考慮してください。
クラスターの要件
-
Amazon EMR のパブリックアクセスのブロックの有効化 - クラスターへのインバウンドアクセスを有効にすると、クラスターのユーザーがノートブックのカーネルを実行できてしまいます。許可されたユーザーのみがクラスターにアクセスできるようにしてください。パブリックアクセスのブロックを有効にし、インバウンドの SSH トラフィックを信頼できるソースのみに制限することを強くお勧めします。詳細については、Amazon EMR のパブリックアクセスブロックの使用 および セキュリティグループを使用してネットワークトラフィックを制御する を参照してください。
-
互換性のあるクラスターの使用 - ノートブックにアタッチするクラスターは、以下の要件を満たしている必要があります。
-
Amazon EMR を使用して作成されたクラスターのみがサポートされています。Amazon EMR でクラスターを個別に作成して EMR notebooks をアタッチするか、EMR notebooks の作成時に互換性のあるクラスターを作成することができます。
-
Amazon EMR リリースバージョン 5.18.0 以降を使用して作成されたクラスターのみがサポートされています。クラスターのリリースバージョンによる機能の違い を参照してください。
-
AMD EPYC プロセッサ (例えば、m5a.* インスタンスタイプや r5a.* インスタンスタイプ) で Amazon EC2 インスタンスを使用して作成されたクラスターはサポートされていません。
-
EMR Notebooks は、
VisibleToAllUsers
をtrue
に設定して作成されたクラスターでのみ機能します。デフォルトでは、VisibleToAllUsers
はtrue
です。 -
クラスターは EC2-VPC 内で起動する必要があります。パブリックサブネットとプライベートサブネットがサポートされています。EC2-Classic プラットフォームはサポートされません。
-
クラスターは Hadoop、Spark、および Livy がインストールされている状態で起動する必要があります。その他のアプリケーションがインストールされる場合がありますが、EMR Notebooks では現在 Spark クラスターのみをサポートしています。
重要 EMR リリースバージョン 5.32.0 以降、または 6.2.0 以降では、EMR Notebooks を使用するためには、クラスターで Jupyter Enterprise Gateway アプリケーションも実行されている必要があります。
-
Kerberos 認証を使用するクラスターはサポートされていません。
-
AWS Lake Formation と統合されているクラスターでは、ノートブックスコープのライブラリのみのインストールがサポートされています。クラスターへのカーネルとライブラリのインストールはサポートされていません。
-
複数のマスターノードを持つクラスターはサポートされていません。
-
AWS Graviton2 に基づいた Amazon EC2 インスタンスを使用するクラスターはサポートされていません。
-
クラスターのリリースバージョンによる機能の違い
EMR Notebooks は、Amazon EMR リリースバージョン 5.30.0、5.32.0 以降、または 6.2.0 以降を使用して作成されたクラスターで使用することを強くお勧めします。これらのバージョンでは、EMR Notebooks はアタッチされた Amazon EMR クラスターでカーネルを実行します。カーネルとライブラリは、クラスターのマスターノードに直接インストールすることができます。EMR Notebooks をこれらのクラスターバージョンで使用すると、以下の利点があります。
-
パフォーマンスの向上 - ノートブックのカーネルは、選択した EC2 インスタンスタイプのクラスターで実行されます。以前のバージョンでは、サイズ変更、アクセス、カスタマイズできない特殊なインスタンスでカーネルが実行されていました。
-
カーネルを追加およびカスタマイズする機能 - クラスターに接続して、
conda
およびpip
を使用してカーネルのパッケージをインストールすることができます。また、ノートブックのセルでのターミナルコマンドを使用したpip
インストールもサポートされています。以前のバージョンでは、プレインストールされたカーネル (Python、、Spark PySpark、および SparkR) のみが使用できました。詳細については、「クラスターのマスターノードへのカーネルと Python ライブラリのインストール」を参照してください。 -
Python ライブラリをインストールする機能 -
conda
およびpip
を使用して、クラスターのマスターノードに Python ライブラリをインストールすることができます。conda
を使用することをお勧めします。以前のバージョンでは、 PySpark ノートブックスコープのライブラリのみがサポートされています。
同時にアタッチする EMR Notebooks の制限
ノートブックをサポートしているクラスターを作成するときは、クラスターマスターノードの EC2 インスタンスタイプを考慮してください。この EC2 インスタンスのメモリの制約によって、クラスターでコードとクエリを実行するために同時に準備できるノートブックの数が決まります。
マスターノード EC2 インスタンスタイプ | EMR Notebooks の数 |
---|---|
*.medium |
2 |
*.large |
4 |
*.xlarge |
8 |
*.2xlarge |
16 |
*.4xlarge |
24 |
*.8xlarge |
24 |
*.16xlarge |
24 |
Jupyter Notebook と Python のバージョン
EMR Notebooks では、アタッチされたクラスターの Amazon EMR リリースバージョンに関係なく、Jupyter Notebook バージョン 6.0.2
ノートブックファイルを保存するために Amazon S3 で暗号化された場所を指定する場合は、EMR Notebooks のサービスロール をキーユーザーとして設定する必要があります。デフォルトのサービスロールは EMR_Notebooks_DefaultRole
です。暗号化に AWS KMS キーを使用している場合は、「AWS Key Management Service 開発者ガイド」の「AWS KMS でのキーポリシーの使用」およびキーユーザーの追加に関するサポート記事