了解工作區基礎知識 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

了解工作區基礎知識

當您使用 EMR Studio 時,您可以建立和設定不同的工作區來組織和執行筆記本。本章節涵蓋如何建立和使用工作區。如需概念性概觀,請參閱 Amazon EMR Studio 運作方式 頁面中的 Workspaces

建立工作EMR室工作區

您可以使用 EMR Studio 介面建立 Studio 工作區來執行筆記本程EMR式碼。

在 EMR Studio 中建立工作區的步驟
  1. 登入您的EMR工作室。

  2. 選擇建立工作區

  3. 輸入工作區名稱描述。命名工作區可協助您在工作區頁面中識別它。

  4. 如果您想要與此工作區中的其他 Studio 使用者即時合作,請啟用工作區協同合作功能。可以在啟動工作區之後設定協同合作者。

  5. 如果要將叢集附接至工作區,請展開進階組態區段。如果願意,可以稍後附接叢集。如需詳細資訊,請參閱將運算連接到工作EMR室工作區

    注意

    若要佈建新叢集,需要管理員的存取許可。

    針對工作區選擇其中一個叢集選項,然後附接叢集。如需有關在建立工作區時佈建叢集的詳細資訊,請參閱 建立新EMR叢集並將其連接至 EMR Studio 工作區

  6. 選擇頁面右下角的建立工作區

建立工作區之後,EMRStudio 會開啟「工作區」頁面。您將在頁面頂部看到一個綠色的成功橫幅,並且可以在清單中尋找新建立的工作區。

預設情況下,可共用工作區,所有 Studio 使用者都可以看到它。但是,一次只能有一個使用者在工作區中開啟和工作。若要與其他使用者同時使用,您可以 設定工作區協同合作

啟動工作區

若要開始使用筆記本檔案,請啟動工作區以存取筆記本編輯器。Studio 中的工作區頁面會列出您有權存取的所有工作區,其中包括名稱狀態建立時間上次修改時間等詳細資訊。

注意

如果您在舊的 Amazon EMR 控制台中有EMR筆記本電腦,則可以在控制台中找到它們作為 EMR Studio 工作區。EMR筆記本使用者需要其他IAM角色權限才能存取或建立工作區。如果您最近在舊主控台中建立了筆記本,您可能需要重新整理 Workspace 清單才能在主控台中看到它。如需有關轉換的詳細資訊,請參閱 Amazon EMR 筆記本可作為控制台中的 Amazon 工作EMR室工作區Amazon EMR 控制台

啟動用於編輯和執行筆記本的工作區
  1. 在 Studio 的工作區頁面中,尋找工作區。可以依據關鍵字或資料欄值來篩選清單。

  2. 選擇工作區名稱,以在新的瀏覽器標籤中啟動工作區。如果工作區處於閒置狀態,可能需要幾分鐘時間才能開啟。或者,選取工作區的列,然後選取啟動工作區。可以從下列啟動選項中進行選擇:

    • 快速啟動 - 使用預設選項快速啟動工作區。如果您要將叢集附加至中的工作區,請選擇快速啟動 JupyterLab。

    • 使用選項啟動 - 使用自訂選項來啟動工作區。您可以選擇在 Jupyter 中啟動 JupyterLab,或將您的工作區附加到EMR叢集,然後選取您的安全性群組。

    注意

    一次只能有一個使用者在工作區中開啟和工作。如果您選取的工作區已在使用中,EMRStudio 會在您嘗試開啟它時顯示通知。工作區頁面中的使用者資料欄顯示正在工作區中工作的使用者。

了解工作區使用者介面

EMRStudio 工作區使用者介面是以左側邊欄的圖示表示索引標籤的JupyterLab介面為基礎。當滑鼠暫停在圖示上時,您會看到顯示該索引標簽名稱的工具提示。從左側邊欄中選擇索引標籤以存取下列面板。

  • 檔案瀏覽器 - 顯示工作區中的檔案和目錄,以及連結的 Git 儲存庫的檔案和目錄。

  • 執行核心和終端 - 列出在工作區中執行的所有核心和終端。有關更多信息,請參閱官方 JupyterLab 文檔中的管理內核和終端

  • Git - 提供圖形化使用者介面,用於在附接至工作區的 Git 儲存庫中執行命令。這個面板是一個 JupyterLab 名為 Jupyterlab-git 的擴展。如需詳細資訊,請參閱 jupyterlab-git

  • EMR叢集 — 可讓您將叢集附加至 Workspace 或從工作區中卸離叢集,以執行筆記本程式碼。EMR叢集配置面板也提供進階配置選項,可協助您建立叢集並將其附加至 Workspace。如需詳細資訊,請參閱建立新EMR叢集並將其連接至 EMR Studio 工作區

  • Amazon EMR Git 儲存庫 — 協助您將工作區與最多三個 Git 儲存庫連結。如需詳細資訊和說明,請參閱 將基於 Git 的存儲庫鏈接到工作室工作EMR區

  • 筆記本範例 - 提供可以儲存至工作區的筆記本範例清單。也可以在工作區的啟動程式頁面中選擇筆記本範例來存取範例。

  • 命令 — 提供鍵盤驅動的方式來搜尋和執行指令。 JupyterLab 如需詳細資訊,請參閱 JupyterLab 文件中的指令調色盤頁面。

  • 筆記本工具 - 可讓您選取並設定選項,例如儲存格投影片類型和中繼資料。開啟筆記本檔案後,筆記本工具選項會出現在左側邊欄中。

  • 開啟標籤 - 在主要工作區域中列出開啟的文件和活動,以便您可以跳至開啟的標籤。如需詳細資訊,請參閱文件中的「定位字元和單一文件模式」 頁面。 JupyterLab

  • 協同合作 - 可讓您啟用或停用工作區協同合作,以及管理協同合作者。若要查看協同合作面板,必須擁有必要的許可。如需詳細資訊,請參閱設定工作區協同合作的擁有權

探索筆記本範例

每個 EMR Studio 工作區都包含一組筆記本範例,您可以用來探索 EMR Studio 功能。若要編輯或執行筆記本範例,可以將其儲存至工作區。

將筆記本範例儲存至工作區
  1. 從左側邊欄中選擇筆記本範例索引標籤,開啟筆記本範例面板。也可以在工作區的啟動程式頁面中選擇筆記本範例來存取範例。

  2. 選擇筆記本範例,以便在主工作區中進行預覽。範例為唯讀。

  3. 若要將筆記本範例儲存至工作區,請選擇儲存至工作區。EMR工作室保存在您的主目錄中的例子。將筆記本範例儲存至工作區之後,可以重新命名、編輯及執行它。

如需有關筆記本範例的詳細資訊,請參閱 EMRStudio 筆記本範例 GitHub 存放庫

儲存工作區內容

當您在工作區的筆記本編輯器中工作時,EMRStudio 會將筆記本儲存在與 Studio 相關聯的 Amazon S3 位置為您儲存筆記本電腦儲存格的內容和輸出。此備份程序會保留工作階段之間的工作。

您也可以在開啟的筆記本索引標籤中按下 CTRL+S,或使用 [檔案] 下的其中一個儲存選項來儲存筆記本。

在工作區中備份筆記本檔案的另一種方法是將工作區與 Git 型儲存庫建立關聯,並將您的變更與遠端儲存庫同步。這樣做也可以儲存筆記本,並與使用不同工作區或 Studio 的團隊成員共用筆記本。如需說明,請參閱 將基於 Git 的存儲庫鏈接到工作室工作EMR區

刪除工作區和筆記本檔案

當您從 EMR Studio 工作區刪除筆記本檔案時,會從檔案瀏覽器中刪除該檔案,而 EMR Studio 會在 Amazon S3 中移除其備份副本。當您從工作區刪除檔案時,不需要採取任何進一步措施來避免儲存費用。

刪除整個工作區時,其筆記本檔案和資料夾將保留在 Amazon S3 儲存位置。檔案會繼續累積儲存費用。為避免儲存費用,請從 Amazon S3 中移除與已刪除的工作區相關聯的所有備份檔案和資料夾。

若要從 EMR Studio 工作區刪除筆記本檔案
  1. 從工作區的左側邊欄中選取檔案瀏覽器面板。

  2. 選取要刪除的檔案或資料夾。在選取項目上按一下滑鼠右鍵,然後選擇刪除。檔案會從清單中消失。EMR工作室為您從 Amazon S3 中刪除文件或文件夾。

From the Workspace UI
從 EMR Studio 中刪除工作區及其關聯的備份文件
  1. 使用您的 EMR Studio 存取權限登入您的 Studio,URL然後從左側導覽列中選擇「工作區」。

  2. 在清單中尋找您的工作區,然後選取其名稱旁的核取方塊。可以選取要同時刪除的多個工作區。

  3. 選擇工作區清單右上角的刪除,並確認您要刪除選取的工作區。選擇 Delete (刪除),確認刪除。

  4. 如果要從 Amazon S3 中移除與已刪除工作區相關聯的筆記本檔案,請遵循《Amazon Simple Storage Service 主控台使用者指南》中的刪除物件說明。如果未建立 Studio,請諮詢您的 Studio 管理員,以確定用於已刪除工作區的 Amazon S3 備份位置。

From the Workspaces list
從工作區清單中刪除工作區及其相關聯的備份檔案
  1. 導覽至主控台中的工作區清單。

  2. 從清單中選取要刪除的工作區,然後選擇動作

  3. 選擇 刪除

  4. 如果要從 Amazon S3 中移除與已刪除工作區相關聯的筆記本檔案,請遵循《Amazon Simple Storage Service 主控台使用者指南》中的刪除物件說明。如果未建立 Studio,請諮詢您的 Studio 管理員,以確定用於已刪除工作區的 Amazon S3 備份位置。

了解工作區狀態

建立 EMR Studio 工作區之後,它會顯示為 Studio 中「工區」清單中的一列,其中包含其名稱、狀態、建立時間和上次修改時間戳記。下表描述工作區狀態。

狀態 描述
啟動 工作區正在準備中,但尚未準備好使用。當工作區狀態為「正在啟動」時,您無法開啟它。
備妥 您可以開啟工作區以使用筆記本編輯器,但必須先將工作區附加至EMR叢集,才能執行筆記本程式碼。
正在附接 工作區正在附接至叢集。
Attached 工作區已附加至EMR叢集,可供您撰寫及執行筆記本程式碼。如果工作區的狀態不是已附接,則必須將其附接至叢集,才能執行筆記本程式碼。
閒置 工作區已停止。若要重新啟動閒置的工作區,請從工作區清單中選取它。選取工作區時,狀態會從閒置變更為正在啟動就緒
Stopping (正在停止) 工作區正在關閉,並將設定為閒置。當您停止工作區時,它會終止任何對應的筆記本核心。EMRStudio 會停止長時間處於非活動狀態的筆記本電腦。
正在刪除 當您刪除工作區時,EMRStudio 會將其標記為要刪除並開始刪除程序。刪除程序完成後,工作區會從清單中消失。刪除工作區時,其筆記本檔案將保留在 Amazon S3 儲存位置。

解決工作區連線問題

若要解決工作區連線問題,可以停止並重新啟動工作區。當您重新啟動工作區時,EMRStudio 會在不同的可用區域或與 Studio 相關聯的不同子網路中啟動工作區。

若要停止並重新啟動 EMR Studio 工作區
  1. 關閉瀏覽器中的工作區。

  2. 導覽至主控台中的工作區清單。

  3. 從清單中選取工作區,然後選擇動作

  4. 選擇停止,然後等待工作區狀態從正在停止變更為閒置

  5. 再次選擇動作,然後選擇啟動以重新啟動工作區。

  6. 等待工作區狀態從正在啟動變更為就緒,然後選擇工作區名稱,以便在新的瀏覽器索引標籤中重新開啟。