將運算附接至 EMR Studio 工作區 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將運算附接至 EMR Studio 工作區

Amazon EMR Studio 使用 EMR 叢集上的核心來執行筆記本命令。在選取核心之前,應該將工作區附接至使用 Amazon EC2 執行個體的叢集、Amazon EMR on EKS 叢集或 EMR Serverless 應用程式。EMR Studio 可讓您將工作區附接至新的或現有的叢集,並提供在不關閉工作區的情況下變更叢集的靈活性。

本章節涵蓋的下列主題可協助您使用適用於 EMR Studio 的叢集並進行佈建:

將 Amazon EC2 叢集附接至 EMR Studio 工作區

可以在建立工作區時將 Amazon EC2 上執行的 EMR 叢集附接至工作區,或將叢集附接到現有工作區。若希望建立並附接叢集,請參閱 建立新 EMR 叢集並附接至 EMR Studio 工作區

注意

Studio 中啟用 IAM Identity Center Trusted Identity Propagation 之工作區只能連接至安全組態已啟用 Identity Center 的 EMR 叢集。

On create
在建立工作區時附接至 Amazon EMR 運算叢集
  1. 建立工作區對話方塊中,確定已為新工作區選取子網路。展開進階設定區段。

  2. 選擇將工作區附接至 EMR 叢集

  3. EMR 叢集下拉式清單中,選取要附接至工作區的現有 EMR 叢集。

附接叢集之後,請完成工作區的建立。當您第一次開啟新工作區並選擇 EMR 叢集面板時,應該會看到所選叢集已附接。

On launch
在啟動工作區時附接至 Amazon EMR 運算叢集
  1. 導覽至工作區清單,然後為要啟動的工作區選取列。然後,選取啟動工作區 > 使用選項啟動

  2. 選擇要附接至工作區 EMR 叢集。

附接叢集之後,請完成工作區的建立。當您第一次開啟新工作區並選擇 EMR 叢集面板時,應該會看到所選叢集已附接。

In JupyterLab
將工作區連接到 Amazon EMR 運算叢集 JupyterLab
  1. 選取工作區,然後選取啟動工作區 > 快速啟動

  2. 在裡面 JupyterLab,打開群集左側邊欄中的選項卡。

  3. 選取 EMR on EC2 叢集下拉式清單,或選取 Amazon EMR on EKS 叢集。

  4. 選擇附接,將叢集附接至工作區。

附接叢集之後,請完成工作區的建立。當您第一次開啟新工作區並選擇 EMR 叢集面板時,應該會看到所選叢集已附接。

In the Workspace UI
從工作區使用者介面中將工作區附接至 Amazon EMR 運算叢集
  1. 在要附接至叢集的工作區中,從左側邊欄中選擇 EMR 叢集圖示以開啟叢集面板。

  2. 叢集類型下,展開下拉式清單並選取 EC2 上的 EMR 叢集

  3. 從下拉式清單中選擇叢集。可能需要先分離現有叢集,才能啟用叢集選取下拉式清單。

  4. 選擇 Attach (連接)。附接叢集後,應該會看到成功訊息出現。

將 Amazon EMR on EKS 叢集附接至 EMR Studio 工作區

除了使用 Amazon EC2 上執行的 Amazon EMR 叢集之外,還可以將工作區附接至 Amazon EMR on EKS 叢集,以執行筆記本程式碼。如需有關 Amazon EMR on EKS 的詳細資訊,請參閱 Amazon EMR on EKS 是什麼

Studio 管理員必須先授予您存取許可,才能將工作區連接到 Amazon EMR on EKS 叢集。

注意

您無法在使用 IAM Identity Center Trusted Identity Propagation 的 EMR Studio 中啟動 Amazon EMR on EKS 叢集。

On create
在建立工作區時附接至 Amazon EMR on EKS 叢集
  1. 建立工作區對話方塊中,展開進階組態區段。

  2. 選擇將工作區附接至 Amazon EMR on EKS 叢集

  3. Amazon EMR on EKS 叢集下,從下拉式清單中選擇叢集。

  4. 選取端點下,選擇要附接至工作區的受管端點。受管端點是一種閘道,它可讓 EMR Studio 與您選擇的叢集進行通訊。

  5. 選擇建立工作區以完成工作區建立程序並附接所選叢集。

附接叢集之後,請完成工作區建立程序。當您第一次開啟新工作區並選擇 EMR 叢集面板時,應該會看到所選叢集已附接。

In the Workspace UI
從工作區使用者介面中附接 Amazon EMR on EKS 叢集
  1. 在要附接至叢集的工作區中,從左側邊欄中選擇 EMR 叢集圖示以開啟叢集面板。

  2. 展開叢集類型下拉式清單,然後選擇 EKS 上的 EMR 叢集

  3. EKS 上的 EMR 叢集下,從下拉式清單中選擇叢集。

  4. 端點下,選擇要附接至工作區的受管端點。受管端點是一種閘道,它可讓 EMR Studio 與您選擇的叢集進行通訊。

  5. 選擇 Attach (連接)。附接叢集後,應該會看到成功訊息出現。

將 Amazon EMR Serverless 應用程式附接至 EMR Studio 工作區

可以將工作區附接至 EMR Serverless 應用程式,以執行互動式工作負載。如需詳細資訊,請參閱透過 EMR Studio 搭配使用筆記本與 EMR Serverless 來執行互動式工作負載

注意

您無法將 EMR Serverless 應用程式連接至使用 IAM Identity Center Trusted Identity Propagation 的 EMR Studio。

範例 將工作區附加至 EMR 無伺服器應用程式 JupyterLab

在將工作區連接至 EMR Serverless 應用程式之前,帳戶管理員必須先授予您存取許可,如互動式工作負載的必要許可中所述。

  1. 導覽至 EMR Studio,選取工作區,然後選取啟動工作區 > 快速啟動

  2. 在裡面 JupyterLab,打開群集左側邊欄中的選項卡。

  3. 選取 EMR Serverless 作為運算選項,然後選取 EMR Serverless 應用程式和執行期角色。

  4. 若要將叢集附接至工作區,請選擇附接

現在,當您開啟此工作區時,應該會看到所選應用程式已附接。

建立新 EMR 叢集並附接至 EMR Studio 工作區

進階 EMR Studio 使用者可以佈建在 Amazon EC2 上執行的新 EMR 叢集,以便與工作區搭配使用。新叢集已預設安裝 EMR Studio 所需的所有大數據應用程式。

若要建立叢集,Studio 管理員必須先使用工作階段政策授予您許可。如需詳細資訊,請參閱 建立 EMR Studio 使用者的許可政策

可以在建立工作區對話方塊中或從工作區使用者介面的叢集面板中建立新叢集。無論採用哪種方式,都有兩個叢集建立選項:

  1. 建立 EMR 叢集 - 透過選擇 Amazon EC2 執行個體類型和計數來建立 EMR 叢集。

  2. 使用叢集範本 - 透過選取預先定義的叢集範本來佈建叢集。如果您擁有使用叢集範本的許可,就會顯示此選項。

    注意

    如果您透過 IAM Identity Center 為您的 Studio 啟用了 Trusted Identity Propagation,則必須使用範本來建立叢集。

透過提供叢集組態來建立 EMR 叢集
  1. 選擇起點。

    若要... 執行此作業...
    使用建立工作區對話方塊建立工作區時會建立叢集。 展開建立工作區對話方塊中的進階組態區段,然後選取建立 EMR 叢集
    建立工作區後,從工作區使用者介面中的 EMR 叢集面板建立叢集。 在開啟的工作區左側邊欄中選擇 EMR 叢集索引標籤,展開進階組態區段,然後選擇建立叢集
  2. 輸入叢集名稱。命名叢集有助於稍後在 EMR Studio 叢集清單中進行尋找。

  3. 針對 Amazon EMR 版本,請為叢集選擇 Amazon EMR 發行版本。

  4. 針對執行個體,請為叢集選取 Amazon EC2 執行個體的類型和數量。如需有關選取執行個體類型的詳細資訊,請參閱 配置 Amazon EC2 實例。一個執行個體將用作主節點。

  5. 選取 EMR Studio 可以啟動新叢集的子網路。Studio 管理員會預先核准每個子網路選項,工作區應該能夠連接到任何已列出的子網路中的叢集。

  6. 選擇用於日誌儲存的 S3 URI

  7. 選擇建立 EMR 叢集以佈建叢集。如果使用建立工作區對話方塊,請選擇建立工作區以建立工作區並佈建叢集。EMR Studio 佈建新叢集之後,它會將叢集附接至工作區。

使用叢集範本來建立叢集
  1. 選擇起點。

    若要... 執行此作業...
    使用建立工作區對話方塊建立工作區時會建立叢集。 展開建立工作區對話方塊中的進階組態區段,然後選取使用叢集範本
    從工作區使用者介面中的 EMR 叢集面板建立叢集。 在開啟的工作區左側邊欄中選擇 EMR 叢集索引標籤,展開進階組態區段,然後選擇叢集範本
  2. 從下拉式清單中選取叢集範本。每個可用叢集範本都包含簡短說明,以協助您進行選取。

  3. 您選擇的叢集範本可能擁有其他參數,例如 Amazon EMR 發行版本或叢集名稱。可以選擇或插入值,或使用管理員選取的預設值。

  4. 選取 EMR Studio 可以啟動新叢集的子網路。Studio 管理員會預先核准每個子網路選項,工作區應該能夠連接到任何子網路中的叢集。

  5. 選擇使用叢集範本來佈建叢集並將其附接至工作區。EMR Studio 建立叢集需要幾分鐘時間。如果使用建立工作區對話方塊,請選擇建立工作區以建立工作區並佈建叢集。EMR Studio 佈建新叢集之後,它會將叢集附接至工作區。

從 EMR Studio 工作區中分離運算

若要交換附接至工作區的叢集,可以從工作區使用者介面中分離叢集。

從工作區中分離叢集
  1. 在要分離叢集的工作區中,從左側邊欄中選擇 EMR 叢集圖示以開啟叢集面板。

  2. 選取叢集下,選擇分離,然後等待 EMR Studio 分離叢集。分離叢集後,將看到成功訊息。

將 EMR Serverless 應用程式從 EMR Studio 工作區中分離

若要交換附接至工作區的運算,可以從工作區使用者介面中分離應用程式。

  1. 在要分離叢集的工作區中,從左側邊欄中選擇 Amazon EMR 運算圖示以開啟運算面板。

  2. 選取運算下,選擇分離,然後等待 EMR Studio 分離應用程式。分離應用程式後,將看到成功訊息。