使用 Amazon EMR 或使用工作室經典版大規模準備資料 AWS Glue - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon EMR 或使用工作室經典版大規模準備資料 AWS Glue

Amazon SageMaker Studio Classic 為資料科學家、機器學習 (ML) 工程師和一般從業人員提供大規模執行資料分析和資料準備的工具。分析、轉換和準備大量資料是任何資料科學和機器學習工作流程的基礎步驟。 SageMaker Studio 經典隨附 Amazon EMR 和 AWS Glue 互動式工作階段的內建整合,可在您的 Studio Classic 筆記本中處理大規模互動式資料準備和機器學習工作流程。

Amazon EMR 是一項受管的大數據平台,提供資源,並協助您使用 AWS 上的開放原始碼分析架構 (例如 Apache SparkApache HivePresto、HBase、Flink 和 Hudi 等) 執行 PB 級分散式資料處理任務。資料工程師和資料科學家將 Amazon EMR 用於多種使用案例,包含大數據分析、模擬分析、即時分析和機器學習的資料準備。透過工作室經典版與 Amazon EMR 整合,您可以建立、瀏覽、探索和連接到 Amazon EMR 叢集,而無需離開您的工作室經典筆記型電腦。您還可以透過在筆記本中一鍵式存取 Spark 使用者介面,來監控和偵錯 Spark 工作負載。如果您想取得對硬體和軟體版本、容器和大數據處理應用程式的最大控制權,您可考慮將 Amazon EMR 用於資料準備工作負載。

AWS Glue 互動式工作階段是一項無伺服器服務,您可以註冊以收集、轉換、清理和準備資料,以便儲存在資料湖和資料管線中。 AWS Glue 互動式工作階段提供隨選的無伺服器 Apache Spark 執行階段環境,您可以在專屬的資料處理單元 (DPU) 上在幾秒鐘內初始化,而不必擔心佈建和管理複雜的計算叢集基礎結構。初始化之後,您可以直接在 Studio Classic 筆記本中使用 Spark 快速瀏覽資 AWS Glue 料目錄 AWS Lake Formation、執行大型查詢、存取受管理的資料,以及以互動方式分析和準備資料。然後,您可以使用 SageMaker Studio Classic 中的專用機器學習工具,使用準備好的資料來訓練、調整和部署模型。如果您想要能適度控制可設定性和彈性的無伺服器 Spark 服務,您應該考慮為資料準備工作負載進行 AWS Glue 互動式工作階段。