翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
前提条件と考慮事項
注記
EMR ノートブックは、 コンソールで EMR Studio Workspace として使用できます。コンソールの「ワークスペースの作成」ボタンを使用すると、新しいノートブックを作成できます。Workspace にアクセスまたは作成するには、EMRノートブックユーザーに追加のIAMロールアクセス許可が必要です。詳細については、「Amazon EMR Notebooks are Amazon EMR Studio Workspaces in the console and Amazon console」を参照してください。 EMR
Git ベースのリポジトリを EMR Notebooks と統合する場合は、次の点を考慮してください。
AWS CodeCommit
CodeCommit リポジトリを使用する場合は、 HTTPSで Git 認証情報と を使用する必要があります CodeCommit。SSH AWS CLI 認証情報ヘルパーHTTPSを使用したキー および はサポートされていません。 CodeCommit は、個人用アクセストークン () をサポートしていませんPATs。詳細については、「 IAMユーザーガイド」の「 IAMでの の使用 CodeCommit: Git 認証情報、SSHキー、および AWS アクセスキー」および「 ユーザーガイド」の「Git 認証情報を使用するHTTPSユーザーのセットアップAWS CodeCommit 」を参照してください。
アクセスとアクセス許可に関する考慮事項
リポジトリをノートブックに関連付ける前に、クラスター、EMRノートブックのIAMロール、およびセキュリティグループに正しい設定とアクセス許可があることを確認してください。「Notebooks 用にプライベートにホストされた Git EMR リポジトリを設定する」の手順に従って、プライベートネットワークでホストしている Git ベースのリポジトリを設定することもできます。
-
クラスターのインターネットアクセス - 起動されるネットワークインターフェイスにはプライベート IP アドレスしかありません。つまり、ノートブックが接続するクラスターは、ネットワークアドレス変換 (NAT) ゲートウェイを持つプライベートサブネット内にあるか、仮想プライベートゲートウェイを介してインターネットにアクセスできる必要があります。詳細については、「Amazon VPCオプション」を参照してください。
ノートブックのセキュリティグループには、クラスターからインターネットにトラフィックをルーティングすることをノートブックに許可するアウトバウンドルールが含まれている必要があります。独自のセキュリティグループを作成することをお勧めします。詳細については、EMR「ノートブックEC2のセキュリティグループの指定」を参照してください。
重要
ネットワークインターフェイスがパブリックサブネットで起動されると、インターネットゲートウェイ () を介してインターネットと通信できなくなりますIGW。
-
のアクセス許可 AWS Secrets Manager – Secrets Manager を使用してリポジトリへのアクセスに使用するシークレットを保存する場合、 には
secretsmanager:GetSecretValue
アクションを許可するアクセス許可ポリシーがアタッチされているEMR ノートブックのサービスロール必要があります。
Notebooks 用にプライベートにホストされた Git EMR リポジトリを設定する
EMR ノートブックのプライベートにホストされたリポジトリを設定するには、次の手順に従います。DNS および Git サーバーに関する情報を含む設定ファイルを提供する必要があります。Amazon EMRはこの情報を使用して、プライベートにホストされたリポジトリにトラフィックをルーティングできるEMRノートブックを設定します。
前提条件
Notebooks 用にプライベートにホストされた Git EMR リポジトリを設定する前に、以下が必要です。
-
EMR ノートブックのファイルが保存される Amazon S3 Control 場所。
ノートブック用にプライベートにホストされている 1 つ以上の Git EMR リポジトリを設定するには
-
提供されたテンプレートを使用して、設定ファイルを作成します。設定で指定する Git サーバーごとに次の値を含めます。
-
DnsServerIpV4
- DNSサーバーのIPv4アドレス。DnsServerIpV4
とGitServerIpV4List
の両方に値を指定した場合、DnsServerIpV4
の値が優先され、GitServerDnsName
を解決するために使用されます。注記
プライベートにホストされた Git リポジトリを使用するには、DNSサーバーがEMRノートブックからのインバウンドアクセスを許可する必要があります。DNS サーバーを他の不正アクセスから保護することを強くお勧めします。
-
GitServerDnsName
- Git サーバーDNSの名前。例えば、 です"git.example.com"
。 -
GitServerIpV4List
- Git サーバーに属するIPv4アドレスのリスト (複数可)。
[ { "Type": "PrivatelyHostedGitConfig", "Value": [ { "DnsServerIpV4": "
<10.24.34.xxx>
", "GitServerDnsName": "<enterprise.git.com>
", "GitServerIpV4List": [ "<xxx.xxx.xxx.xxx>
", "<xxx.xxx.xxx.xxx>
" ] }, { "DnsServerIpV4": "<10.24.34.xxx>
", "GitServerDnsName": "<git.example.com>
", "GitServerIpV4List": [ "<xxx.xxx.xxx.xxx>
", "<xxx.xxx.xxx.xxx>
" ] } ] } ] -
-
configuration.json
という名前で設定ファイルを保存します。 -
設定ファイルを指定された Amazon S3 ストレージの場所にある
life-cycle-configuration
というフォルダーにアップロードします。例えば、デフォルトの S3 の場所がs3://DOC-EXAMPLE-BUCKET/notebooks
の場合、設定ファイルはs3://DOC-EXAMPLE-BUCKET/notebooks/life-cycle-configuration/configuration.json
に配置する必要があります。重要
life-cycle-configuration
フォルダへのアクセスは、EMRノートブック管理者のみ、およびノートブックのサービスロールに制限することを強くお勧めEMRします。また、configuration.json
を不正アクセスから保護する必要があります。手順については、「ユーザーポリシーを使用したバケットへのアクセスの制御」または「Amazon S3 のセキュリティベストプラクティス」を参照してください。アップロードの手順については、「Amazon Simple Storage Service ユーザーガイド」の「フォルダの作成」と「オブジェクトのアップロード」を参照してください。