使用 AWS Glue 互動式工作階段準備 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 AWS Glue 互動式工作階段準備

AWS Glue 互動式工作階段是隨選、無伺服器的 Apache Spark 執行階段環境,資料科學家和資料工程師可用來快速建置、測試和執行資料準備和分析應用程式。

您可以啟動工作室或工作室傳統版中的 JupyterLab 筆記本,以啟 AWS Glue 動互動式工作階段。啟動筆記型電腦時,請選擇內建Glue PySpark and RayGlue Spark核心。這會自動啟動無伺服器互動式 Spark 工作階段。您不需要佈建或管理任何運算叢集或基礎架構。初始化之後,您可以使用 Studio 或 Studio Classic 筆記本中的 Spark 來探索、執行複雜的查詢,以及以互動方式分析和準備資料。 AWS Glue Data Catalog然後,您可以使用準備好的資料,使用內建的機器學習工具來建置、訓練、調整和部署模型。 SageMaker

在 Studio 或工作室傳統版中開始 AWS Glue 互動式工作階段之前,您需要設定適當的角色和原則。此外,您可能需要提供其他資源的存取權,例如 Amazon S3 儲存貯體。如需所需 IAM 政策的詳細資訊,請參閱工作室或工作室傳統版中的 AWS Glue 互動式工作階段

Studio 和 Studio 經典版為您的 AWS Glue 互動式工作階段提供預設設定,但是,您可以使用 AWS Glue Jupyter 魔術指令的完整目錄來進一步自訂您的環境。如需您可以在 AWS Glue 互動式工作階段中使用的預設和其他 Jupyter 魔法的相關資訊,請參閱。在工作室或工作室經典版中設定您的 AWS Glue 互動式

  • 對於啟 AWS Glue 動互動式工作階段的 Studio Classic 使用者,他們可以從下列影像和核心中進行選取:

    • 圖片:SparkAnalytics 1.0SparkAnalytics 2.0

    • 內核:Glue Python [PySpark and Ray]Glue Spark

  • 對於 Studio 用戶,請使用默認的SageMaker 分發映像並選擇一個Glue Python [PySpark and Ray]Glue Spark內核。