在 Amazon Redshift 中使用機器學習 - Amazon Redshift

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon Redshift 中使用機器學習

Amazon Redshift 機器學習 (Amazon Redshift ML) 是一種穩固的雲端型服務,能夠讓各技能等級的分析師和資料科學家都能輕鬆運用機器學習技術。您可以提供要訓練模型的數據,以及與 Amazon Redshift 的數據輸入相關聯的元數據。然後,Amazon Redshift ML 會創建用於捕獲輸入數據中模式的模型的模型。然後,您可以使用這些模型為新輸入數據生成預測,而不會產生額外成本。

Amazon Redshift ML 如何與 Amazon SageMaker 合作

Amazon Redshift 與 Amazon SageMaker 自動駕駛儀合作,以自動獲得最佳模型,並在 Amazon Redshift 中提供預測功能。

下圖展示 Amazon Redshift ML 的運作方式。

常規工作流程如下:

  1. Amazon Redshift 將訓練資料導出至 Amazon S3。

  2. Amazon SageMaker 自動駕駛儀預處理訓練數據。預處理執行重要的函數,例如估算缺失值。它認識到某些列是分類的(如郵政編碼),正確格式化它們以供培訓,並執行許多其他任務。選擇適用於訓練數據集的最佳預處理器本身就是一個問題,而 Amazon SageMaker 自動導航儀可以自動執行其解決方案。

  3. Amazon SageMaker 自動駕駛儀找到算法和算法超參數,提供最準確的預測模型。

  4. 亞馬遜 Redshift 將預測函數註冊為您的 Amazon Redshift 集羣中的 SQL 函數。

  5. 當您運行創建模型語句時,Amazon Redshift 會使用 Amazon SageMaker 進行培訓。因此,培訓模型需要相關的成本。這是 Amazon SageMaker 的一個單獨的行項目,請AWS賬單。您還需要為 Amazon S3 中用於存儲培訓數據的存儲費用。使用可以在 Redshift 集羣上編譯和運行的 CREATE MODEL 創建的模型的推理不會收費。使用 Amazon Redshift ML 不會產生額外的 Amazon Redshift 費用。