前提条件と考慮事項 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

前提条件と考慮事項

注記

EMR ノートブックは、 コンソールで EMR Studio Workspace として使用できます。コンソールの「ワークスペースの作成」ボタンを使用すると、新しいノートブックを作成できます。Workspace にアクセスまたは作成するには、EMRノートブックユーザーに追加のIAMロールアクセス許可が必要です。詳細については、「Amazon EMR Notebooks are Amazon EMR Studio Workspaces in the console and Amazon console」を参照してください。 EMR

Git ベースのリポジトリを EMR Notebooks と統合する場合は、次の点を考慮してください。

AWS CodeCommit

CodeCommit リポジトリを使用する場合は、 HTTPSで Git 認証情報と を使用する必要があります CodeCommit。SSH AWS CLI 認証情報ヘルパーHTTPSを使用したキー および はサポートされていません。 CodeCommit は、個人用アクセストークン () をサポートしていませんPATs。詳細については、「 IAMユーザーガイド」の「 IAMでの の使用 CodeCommit: Git 認証情報、SSHキー、および AWS アクセスキー」および「 ユーザーガイド」の「Git 認証情報を使用するHTTPSユーザーのセットアップAWS CodeCommit 」を参照してください。

アクセスとアクセス許可に関する考慮事項

リポジトリをノートブックに関連付ける前に、クラスター、EMRノートブックのIAMロール、およびセキュリティグループに正しい設定とアクセス許可があることを確認してください。「Notebooks 用にプライベートにホストされた Git EMR リポジトリを設定する」の手順に従って、プライベートネットワークでホストしている Git ベースのリポジトリを設定することもできます。

  • クラスターのインターネットアクセス - 起動されるネットワークインターフェイスにはプライベート IP アドレスしかありません。つまり、ノートブックが接続するクラスターは、ネットワークアドレス変換 (NAT) ゲートウェイを持つプライベートサブネット内にあるか、仮想プライベートゲートウェイを介してインターネットにアクセスできる必要があります。詳細については、「Amazon VPCオプション」を参照してください。

    ノートブックのセキュリティグループには、クラスターからインターネットにトラフィックをルーティングすることをノートブックに許可するアウトバウンドルールが含まれている必要があります。独自のセキュリティグループを作成することをお勧めします。詳細については、EMR「ノートブックEC2のセキュリティグループの指定」を参照してください。

    重要

    ネットワークインターフェイスがパブリックサブネットで起動されると、インターネットゲートウェイ () を介してインターネットと通信できなくなりますIGW。

  • のアクセス許可 AWS Secrets Manager – Secrets Manager を使用してリポジトリへのアクセスに使用するシークレットを保存する場合、 には secretsmanager:GetSecretValueアクションを許可するアクセス許可ポリシーがアタッチされているEMR ノートブックのサービスロール必要があります。

Notebooks 用にプライベートにホストされた Git EMR リポジトリを設定する

EMR ノートブックのプライベートにホストされたリポジトリを設定するには、次の手順に従います。DNS および Git サーバーに関する情報を含む設定ファイルを提供する必要があります。Amazon EMRはこの情報を使用して、プライベートにホストされたリポジトリにトラフィックをルーティングできるEMRノートブックを設定します。

前提条件

Notebooks 用にプライベートにホストされた Git EMR リポジトリを設定する前に、以下が必要です。

  • EMR ノートブックのファイルが保存される Amazon S3 Control 場所。

ノートブック用にプライベートにホストされている 1 つ以上の Git EMR リポジトリを設定するには
  1. 提供されたテンプレートを使用して、設定ファイルを作成します。設定で指定する Git サーバーごとに次の値を含めます。

    • DnsServerIpV4- DNSサーバーのIPv4アドレス。DnsServerIpV4GitServerIpV4List の両方に値を指定した場合、DnsServerIpV4 の値が優先され、GitServerDnsName を解決するために使用されます。

      注記

      プライベートにホストされた Git リポジトリを使用するには、DNSサーバーがEMRノートブックからのインバウンドアクセスを許可する必要があります。DNS サーバーを他の不正アクセスから保護することを強くお勧めします。

    • GitServerDnsName - Git サーバーDNSの名前。例えば、 です"git.example.com"

    • GitServerIpV4List - Git サーバーに属するIPv4アドレスのリスト (複数可)。

    [ { "Type": "PrivatelyHostedGitConfig", "Value": [ { "DnsServerIpV4": "<10.24.34.xxx>", "GitServerDnsName": "<enterprise.git.com>", "GitServerIpV4List": [ "<xxx.xxx.xxx.xxx>", "<xxx.xxx.xxx.xxx>" ] }, { "DnsServerIpV4": "<10.24.34.xxx>", "GitServerDnsName": "<git.example.com>", "GitServerIpV4List": [ "<xxx.xxx.xxx.xxx>", "<xxx.xxx.xxx.xxx>" ] } ] } ]
  2. configuration.json という名前で設定ファイルを保存します。

  3. 設定ファイルを指定された Amazon S3 ストレージの場所にある life-cycle-configuration というフォルダーにアップロードします。例えば、デフォルトの S3 の場所が s3://DOC-EXAMPLE-BUCKET/notebooks の場合、設定ファイルは s3://DOC-EXAMPLE-BUCKET/notebooks/life-cycle-configuration/configuration.json に配置する必要があります。

    重要

    life-cycle-configuration フォルダへのアクセスは、EMRノートブック管理者のみ、およびノートブックのサービスロールに制限することを強くお勧めEMRします。また、configuration.json を不正アクセスから保護する必要があります。手順については、「ユーザーポリシーを使用したバケットへのアクセスの制御」または「Amazon S3 のセキュリティベストプラクティス」を参照してください。

    アップロードの手順については、「Amazon Simple Storage Service ユーザーガイド」の「フォルダの作成」と「オブジェクトのアップロード」を参照してください。