教學課程:搭配您的開發端點使用 SageMaker AI 筆記本 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

教學課程:搭配您的開發端點使用 SageMaker AI 筆記本

在 中AWS Glue,您可以建立開發端點,然後建立 SageMaker AI 筆記本,以協助開發 ETL 和機器學習指令碼。SageMaker AI 筆記本是執行 Jupyter Notebook 應用程式的完整受管機器學習運算執行個體。

  1. 在 AWS Glue 主控台,選擇 Dev endpoints (開發端點) 以導覽至開發端點清單。

  2. 在您要使用的開發端點名稱旁選取核取方塊,然後在 Action (動作) 選單中,選擇 Create SageMaker notebook (建立 SageMaker 筆記本)

  3. 填寫 Create and configure a notebook (建立並設定筆記本) 頁面,如下所示:

    1. 輸入記事本名稱。

    2. Attach to development endpoint (連接至開發端點),驗證開發端點。

    3. 建立或選擇 AWS Identity and Access Management (IAM) 角色。

      建議您建立角色。如果您使用現有角色,請確定它具有必要的權限。如需詳細資訊,請參閱步驟 6:為 SageMaker AI 筆記本建立 IAM 政策

    4. (選用) 選擇 VPC、子網路以及一或多個安全群組。

    5. (選用) 選擇 AWS Key Management Service 加密金鑰。

    6. (選用) 為筆記本執行個體新增標籤。

  4. 選擇建立筆記本。在 Notebooks (筆記本) 頁面中,選擇右上角的重新整理圖示,然後繼續操作,直到 Status (狀態) 顯示 Ready 為止。

  5. 選取新筆記本名稱旁的核取方塊,然後選擇 Open notebook (開啟筆記本)

  6. 建立新的筆記本:在 jupyter 頁面中,選擇 New (新增),然後選擇 Sparkmagic (PySpark)

    您的螢幕畫面現在看起來應該與下列類似:

    jupyter 頁面有一個功能表列、工具列和一個寬文字欄位,您可以在其中輸入語句。
  7. (選用) 在頁面頂端,選擇 Untitled (為命名),然後為筆記本命名。

  8. 若要啟動 Spark 應用程式,請在記事本中輸入下列指令,然後在工具列中選擇 Run (執行)

    spark

    短暫的等待之後,您應可看到以下回應:

    系統回應顯示 Spark 應用程式狀態,並會輸出下列訊息:SparkSession 會以「spark」提供。
  9. 建立動態框架並針對其執行查詢:複製、貼上並執行下列程式碼,輸出 persons_json 資料表的計數和結構描述。

    import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()