使用 EMR Serverless 準備資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 EMR Serverless 準備資料

SageMaker 分佈映像版本 開始1.10,Amazon SageMaker Studio 會與 EMR Serverless 整合。在 SageMaker Studio 中的 JupyterLab 筆記本中,資料科學家和資料工程師可以探索和連線至無EMR伺服器應用程式,然後以互動方式探索、視覺化和準備大規模 Apache Spark 或 Apache Hive 工作負載。此整合允許大規模執行互動式資料處理,以準備 ML 模型訓練和部署。

具體而言,SageMaker發佈映像版本sagemaker-studio-analytics-extension中的更新版本會1.10利用 Apache Livy 與 EMR Serverless 之間的整合,允許透過 JupyterLab 筆記本連線至 Apache Livy 端點。本節會取得對 EMR Serverless 互動式應用程式 的先前知識。

重要

使用 Studio 時,您只能探索並連線至從私有空間啟動的應用程式的無EMR伺服器 JupyterLab 應用程式。確保無EMR伺服器應用程式位於與 Studio 環境相同的 AWS 區域。

必要條件

開始使用 JupyterLab 筆記本中的無EMR伺服器執行互動式工作負載之前,請確定您符合下列先決條件:

  1. 您的 JupyterLab 空間必須使用 SageMaker 分佈映像版本 1.10 或更高版本。

  2. 使用 Amazon EMR6.14.0或更新版本建立無EMR伺服器互動式應用程式。您可以依照中的步驟,從 Studio 使用者介面建立 EMR Serverless 應用程式從 Studio 建立無EMR伺服器應用程式

    注意

    為了進行最簡單的設定,您可以在 Studio UI 中建立無EMR伺服器應用程式,而不需要變更虛擬私有雲端 (VPC) 選項的任何預設設定。這允許在您的網域內建立應用程式,VPC而不需要任何聯網組態。在此情況下,您可以略過下列聯網設定步驟。

  3. 檢閱 中的聯網和安全需求設定 Amazon EMR叢集的網路存取權。具體而言,請確定您:

    • 在 Studio 帳戶與 EMR Serverless 帳戶之間建立VPC對等連線。

    • 將路由新增至兩個帳戶中的私有子網路路由表。

    • 設定連接到 Studio 網域的安全群組以允許傳出流量,並設定您計劃執行無EMR伺服器應用程式之 VPC 的安全群組,以允許來自 Studio 執行個體安全群組的傳入TCP流量。

  4. 若要在無EMR伺服器上存取互動式應用程式,並在 SageMaker Studio 中執行從 JupyterLab 筆記本提交的工作負載,您必須指派特定許可和角色。如需必要角色和許可的詳細資訊,請參閱 設定許可,以啟用從 SageMaker Studio 列出和啟動 Amazon EMR 應用程式一節。