本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon EMR 或使用工作室經典版大規模準備資料 AWS Glue
Amazon SageMaker Studio Classic 為資料科學家、機器學習 (ML) 工程師和一般從業人員提供大規模執行資料分析和資料準備的工具。分析、轉換和準備大量資料是任何資料科學和機器學習工作流程的基礎步驟。 SageMaker Studio 經典隨附 Amazon EMR 和 AWS Glue 互動式工作階段的內建整合,可在您的 Studio Classic 筆記本中處理大規模互動式資料準備和機器學習工作流程。
Amazon EMR 是一項受管的大數據平台,提供資源,並協助您使用 AWS 上的開放原始碼分析架構 (例如 Apache Spark
AWS Glue 互動式工作階段是一項無伺服器服務,您可以註冊以收集、轉換、清理和準備資料,以便儲存在資料湖和資料管線中。 AWS Glue 互動式工作階段提供隨選的無伺服器 Apache Spark 執行階段環境,您可以在專屬的資料處理單元 (DPU) 上在幾秒鐘內初始化,而不必擔心佈建和管理複雜的計算叢集基礎結構。初始化之後,您可以直接在 Studio Classic 筆記本中使用 Spark 快速瀏覽資 AWS Glue 料目錄 AWS Lake Formation、執行大型查詢、存取受管理的資料,以及以互動方式分析和準備資料。然後,您可以使用 SageMaker Studio Classic 中的專用機器學習工具,使用準備好的資料來訓練、調整和部署模型。如果您想要能適度控制可設定性和彈性的無伺服器 Spark 服務,您應該考慮為資料準備工作負載進行 AWS Glue 互動式工作階段。