Amazon 工 SageMaker 作室經典版 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 工 SageMaker 作室經典版

重要

截至 2023 年 11 月 30 日,以前的 Amazon SageMaker 工作室體驗現在被命名為 Amazon SageMaker 工作室經典。下面的部分是特定於使用 Studio 傳統版應用程序。如需使用更新後的 Studio 體驗的相關資訊,請參閱Amazon SageMaker 一室

重要

允許 Amazon SageMaker Studio 或 Amazon 工作室經典版建立 Amazon SageMaker SageMaker 資源的自訂IAM政策還必須授予許可,才能將標籤新增到這些資源。需要向資源添加標籤的權限,因為 Studio 和 Studio 經典版會自動標記它們創建的任何資源。如果IAM原則允許 Studio 和 Studio 典型版建立資源,但不允許標記,則在嘗試建立資源時可能會發生 AccessDenied "" 錯誤。如需詳細資訊,請參閱提供標記資 SageMaker源的權限

AWS Amazon 的受管政策 SageMaker授予建立 SageMaker 資源的權限,已包含在建立這些資源時新增標籤的權限。

本主題說明如何在設定和使用期間疑難排解常見的 Amazon SageMaker Studio 傳統版問題。以下是使用 Amazon SageMaker 工作室經典版時可能發生的常見錯誤。每個錯誤後面都附有解決方案。

工作室典型應用程式

啟動和使用 Studio 典型應用程式時,會發生下列問題。

  • 螢幕沒有載入:清除工作區和等待都沒有用

    啟動 Studio 典型應用程式時,彈出式視窗會顯示以下訊息。無論選擇哪個選項,工作室經典版都不會加載。

    Loading... The loading screen is taking a long time. Would you like to clear the workspace or keep waiting?

    如果在 Studio 典型工作區中開啟多個索引標籤,或在 Amazon 上有多個檔案,則 Studio 典型應用程式可能會有啟動延遲EFS。Studio 經典工作區準備就緒後,此彈出窗口應該在幾秒鐘內消失。

    如果您在選取其中一個選項後繼續看到含有旋轉器的載入畫面,則 Studio Classic 使用的 Amazon Virtual Private Cloud 可能發生連線問題。 

    若要解決工作室經典版所使用之 Amazon 虛擬私有雲端 (AmazonVPC) 的連線問題,請驗證下列聯網組態:

    • 如果您的網域是以VpcOnly模式設定:請確認有適用的 Amazon VPC 端點 AWS STS,或輸出流量的NAT閘道,包括透過網際網路的流量。如要執行此操作,請依照將 Studio 筆記本 Connect VPC 到外部資源中的步驟進行。

    • 如果您的 Amazon VPC 是使用自定義設置DNS而不是由 Amazon DNS 提供的:請驗證是否使用動態主機配置協議(DHCP)為添加到 Studio Classic 使用的 Amazon VPC 端點使VPC用的每個 Amazon 端點配置路由。如需有關設定預設和自訂DHCP選項集的詳細資訊,請參閱 Amazon 中的DHCP選項集VPC

  • 啟動工作室經典時的內部故障

    啟動工作室經典版時,您無法查看工作室經典用戶界面。您也會看到類似下列內容的錯誤,錯誤詳細資訊為內部故障

    Amazon SageMaker Studio The JupyterServer app default encountered a problem and was stopped.

    此錯誤可能是由多種原因引起的。如果完成這些步驟無法解決您的問題,請使用建立問題 https://aws.amazon.com/premiumsupport/。 

    • 缺少 Amazon EFS 安裝目標:工作室經典使用 Amazon EFS 進行存儲。Amazon EFS 磁碟區需要在其中建立 Amazon 網 SageMaker域的每個子網路都有一個掛載目標。如果意外刪除此 Amazon EFS 掛載目標,則 Studio 典型應用程式無法載入,因為它無法掛載使用者的檔案目錄。如要解決此問題,請嘗試下列步驟:

      驗證或建立掛載目標。
      1. 使用DescribeDomainAPI呼叫尋找與網域相關聯的 Amazon EFS 磁碟區。 

      2. 登入 AWS Management Console 並在打開 Amazon EFS 控制台 https://console.aws.amazon.com/efs/

      3. 從 Amazon EFS 磁碟區清單中,選取與網域關聯的 Amazon EFS 磁碟區。

      4. 在 Amazon EFS 詳細資訊頁面上,選取網路索引標籤。確認設定網域的所有子網路都有掛載目標。

      5. 如果裝載目標遺失,請新增遺失的 Amazon EFS 掛載目標。如需指示,請參閱建立和管理掛載目標和安全群組

      6. 建立遺失的掛載目標之後,請啟動 Studio 典型應用程式。

    • 使用.local資料夾中的檔案衝突:如果您在 Studio C lassic 上使用 JupyterLab版本 1,.local資料夾中衝突的程式庫可能會在啟動 Studio 傳統版應用程式時造成問題。若要解決此問題,請將使用者設定檔的預設 JupyterLab 版本更新為 JupyterLab 3.0。如需檢視與更新 JupyterLab 版本的詳細資訊,請參閱JupyterLab 版本化

  • ConfigurationError:啟 LifecycleConfig動工作室經典版時

    啟動工作室經典版時,您無法查看工作室經典 UI。這是因為連接至網域的預設生命週期組態指令碼發生問題。

    解決生命週期組態問題
    1. 檢視生命週期組態的 Amazon CloudWatch 日誌,以追蹤導致失敗的命令。若要檢視記錄,請遵循 從 CloudWatch 記錄確認生命週期組態程序 中的步驟。

    2. 從使用者設定檔或網域中分離預設指令碼。如需詳細資訊,請參閱更新和分離生命週期組態

    3. 啟動工作室傳統版應用程式。

    4. 偵錯生命週期組態指令碼。您可以從系統終端執行生命週期組態指令碼以進行故障診斷。當指令碼從終端成功執行時,您可以將指令碼連接到使用者設定檔或網域。

  • SageMaker 工作室經典核心功能不可用。

    如果您在打開工作室經典版時收到此錯誤消息,則可能是由於 Python 包版本衝突造成的。如果您在筆記本或終端機中使用下列命令來安裝與 SageMaker 套件相依性發生版本衝突的 Python 套件,就會發生這種情況。

    !pip install
    pip install --user

    請嘗試下列步驟來解決此問題:

    1. 解除安裝最近安裝的 Python 套件。如果您不確定要解除安裝哪個套件,請使用建立問題 https://aws.amazon.com/premiumsupport/。 

    2. 重啟工作室經典:

      1. 檔案功能表關閉工作室經典版。

      2. 等待一分鐘。

      3. 通過刷新頁面或從打開它重新打開工作室經典 AWS Management Console.

    如果您解除安裝導致衝突的套件,則應該解決此問題。若要在不再次造成此問題的情況下安裝套件,使用 %pip install 但沒有 --user 旗標。

    如果問題仍然存在,請建立新的使用者設定檔,並使用該使用者設定檔設定您的環境。

    如果這些解決方案無法解決問題,請使用建立問題 https://aws.amazon.com/premiumsupport/。 

  • 無法從開啟工作室經典版 AWS Management Console.

    如果您無法開啟 Studio 經典版,且無法使用所有預設設定建立新的執行中執行個體,請使用建立問題 https://aws.amazon.com/premiumsupport/。 

KernelGateway 應用問題

下列問題特定於 Studio 傳統版中啟動的 KernelGateway 應用程式。

  • 無法存取核心工作階段

    當使用者啟動新筆記本時,他們無法連線至筆記本工作階段。如果 KernelGateway 應用程式的狀態為In Service,您可以驗證下列項目以解決問題。

    • 檢查安全群組組態

      如果網域是以VPCOnly模式設定,則與網域關聯的安全性群組必須允許範圍內8192-65535連接埠之間的流量,以便 JupyterServer 和 KernelGateway 應用程式之間的連線。

      驗證安全群組規則
      1. 使用呼叫取得與網域相關DescribeDomainAPI聯的安全群組。

      2. 登入 AWS Management Console 並在打開 Amazon VPC 控制台https://console.aws.amazon.com/vpc/

      3. 在導覽窗格中,在安全下,選擇安全群組

      4. 依與網域相關聯IDs的安全群組進行篩選。

      5. 針對每個安全群組:

        1. 選取安全群組。

        2. 在安全群組詳細資訊頁面中,檢視傳入規則。確認 8192-65535 範圍內的連接埠之間允許流量。

      如需安全群組規則的更多相關資訊,請參閱使用安全群組控制到資源的流量。如需在VPCOnly模式中使用 Studio 傳統版需求的詳細資訊,請參閱將 Studio 筆記本 Connect VPC 到外部資源

    • 驗證防火牆和 WebSocket連線

      如果 KernelGateway 應用程式處於InService狀態且使用者無法連線至 Studio Classic 筆記本工作階段,請驗證防火牆和WebSocket 設定。

      1. 啟動工作室傳統版應用程式。如需詳細資訊,請參閱推出 Amazon SageMaker 工作室經

      2. 開啟網路瀏覽器的開發人員工具列。

      3. 選擇網路標籤。

      4. 搜尋符合下列格式的項目。

        wss://<domain-id>.studio.<region>.sagemaker.aws/jupyter/default/api/kernels/<unique-code>/channels?session_id=<unique-code>

        如果項目的狀態或回應碼不是101,則您的網路設定會阻止 Studio Classic 應 KernelGateway 用程式與應用程式之間的連線。

        若要解決這個問題,請連絡管理您網路設定的小組,以允許列出 Studio 經典版URL並啟用 WebSocket 連線。 

  • 因超出資源配額而無法啟動應用程式

    當使用者嘗試啟動新筆記本時,建立筆記本會失敗,並出現下列其中一個錯誤。這是因為超出資源配額所致。

    • Unable to start more Apps of AppType [KernelGateway] and ResourceSpec(instanceType=[]) for UserProfile []. Please delete an App with a matching AppType and ResourceSpec, then try again

      Studio 經典版在同一個執行個體上最多支援四個執行中的 KernelGateway 應用程式 若要解決此問題,您可以執行下列項目之一:

      • 刪除執行個體上執行的現有 KernelGateway 應用程式,然後重新啟動新的筆記本。

      • 在不同的執行個體類型上啟動新筆記本

      如需詳細資訊,請參閱變更執行個體類型

    • An error occurred (ResourceLimitExceeded) when calling the CreateApp operation

      在這種情況下,帳戶沒有足夠的限制,無法在指定的執行個體類型上建立 Studio 典型應用程式。若要解決此問題,請瀏覽至 Service Quotas 控制台位於https://console.aws.amazon.com/servicequotas/。在該控制台中,請求增加 Studio KernelGateway Apps running on instance-type instance 限制。如需詳細資訊,請參閱 AWS 服務配額