我們不再更新 Amazon Machine Learning 服務或接受新的使用者。本文件可供現有使用者使用,但我們不再更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning。
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Machine Learning 重要概念
本節概述下列重要概念,並詳細説明在 Amazon ML 中的使用方式:
資料來源
資料來源是一種物件,包含有關輸入資料的中繼資料。Amazon ML 會讀取您的輸入資料、運算屬性上的描述統計資料,並一併儲存統計資料與結構描述和其他資訊,做為資料來源物件的一部分。接下來,Amazon ML 會使用資料來源,以訓練和評估 ML 模型,並產生批次預測。
重要
資料來源不會存放輸入資料的副本。相反地,它會存放對於輸入資料所在的 Amazon S3 位置的參考。如果您移動或變更了 Amazon S3 檔案,Amazon ML 就無法存取或使用它們來建立 ML 模型、產生評估或產生預測。
下表定義與資料來源相關的術語。
期間 | 定義 |
---|---|
屬性 |
觀察內唯一具名的屬性。在表格格式資料中,例如試算表或逗號分隔值 (CSV) 檔案,欄標題代表屬性,而列則包含各個屬性的值。 同義詞:變數、變數名稱、欄位、欄 |
資料來源名稱 | (選用) 可讓您為資料來源定義人類可讀取的名稱。這些名稱可讓您在 Amazon ML 主控台中尋找和管理您的資料來源。 |
輸入資料 | 資料來源參考的所有觀察的集體名稱。 |
位置 | 輸入資料的位置。目前,Amazon ML 可以使用存放在 Amazon S3 儲存貯體、Amazon RedShift 資料庫或 Amazon Relational Database Service (RDS) 中 MySQL 資料庫的資料。 |
觀察 |
單一輸入資料單位。例如,如果您建立 ML 模型來偵測詐騙交易,您的輸入資料會包含許多觀察,每個觀察各代表一個個別交易。 同義詞:記錄、範例、執行個體、資料列 |
列 ID |
(選用) 旗標,若指定則可在輸入資料中識別要包含在預測輸出中的屬性。此屬性可讓您更輕鬆地將哪個預測與哪個觀察建立關聯。 同義詞:資料列識別符 |
結構描述 | 解譯輸入資料所需的資訊,包括屬性名稱及其指派資料類型,還有特殊屬性的名稱。 |
統計資料 |
輸入資料中每個屬性的摘要統計資料。這些統計資料有兩個用途: Amazon ML 主控台會以圖形顯示它們,協助您快速了解您的資料並識別不規則或錯誤之處。 Amazon ML 在訓練程序中會用來提升所產生 ML 模型的品質。 |
狀態 | 代表資料來源的目前狀態,例如,進行中、已完成或失敗。 |
目標屬性 |
在訓練 ML 模型的環境中,目標屬性會識別輸入資料中屬性的名稱,其中包含目標屬性的「正確」答案。Amazon ML 會使用此項目來探索輸入資料中的模式,並產生 ML 模型。在評估並產生預測的環境中,目標屬性是由受過訓練的 ML 模型預測其值的屬性。 同義詞:目標 |
ML 模型
ML 模型是透過找出資料中的模式以產生預測的數學模型。Amazon ML 支援三種類型的 ML 模型:二元分類、多類別分類及回歸。
下表定義與 ML 模型相關的術語。
期間 | 定義 |
---|---|
迴歸 | 訓練回歸 ML 模型的目標是預測數值。 |
多類別 | 訓練多類別 ML 模型的目標是預測屬於一組有限、預先定義之允許值的值。 |
二進位 | 訓練二元 ML 模型的目標是預測只能兩種狀態其中之一 (例如 true 或 false) 的值。 |
模型大小 | ML 模型會擷取和存放模式。ML 模型存放的模式越多,該模型就會越大。ML 模型大小是以 MB 為單位。 |
通過次數 | 當您訓練 ML 模型,您使用來自資料來源的資料。有時候在學習過程中多次使用每個資料記錄會有好處。您讓 Amazon ML 使用相同資料記錄的次數稱為「通過次數」。 |
正規化 | 正規化是一種機器學習技術,您可用來取得更高品質的模型。Amazon ML 提供預設設定,適用於大部分的案例。 |
評估
評估會測量您 ML 模型的品質,並判斷其是否執行效果良好。
下表定義與評估相關的術語。
期間 | 定義 |
---|---|
模型深入分析 | Amazon ML 會提供您一個指標和許多洞見分析,您可用來評估模型的預測效能。 |
AUC | ROC 曲線下面積 (AUC) 會測量模型對陽性範例相較於陰性範例預測出較高分數的二元 ML 能力。 |
巨集平均 F1 分數 | 巨集平均 F1 分數是用來評估多類別 ML 模型的預測效能。 |
RMSE | 均方根誤差 (RMSE) 是一種指標,用來評估回歸 ML 模型的預測效能。 |
截止值 | ML 模型的運作方法是產生數值預測分數。透過套用截止值,系統可將這些分數轉換為 0 和 1 標籤。 |
正確性 | 準確性測量正確預測的百分比。 |
精確度 | 精確度顯示實際陽性執行個體 (而不是偽陽性) 在已擷取的這些執行個體 (已預測為陽性) 之間所佔的百分比。換言之,選取的項目是多少是陽性? |
取回 | 取回會顯示真實正確占相關執行個體總數的百分比 (真實正確)。換言之,已選取多少陽性項目? |
批次預測
批次預測適用於可以同時一起執行的觀察組。這很適合沒有即時需求的預測分析。
下表定義與批次預測相關的術語。
期間 | 定義 |
---|---|
輸出位置 | 存放在 S3 儲存貯體輸出位置的批次預測結果。 |
資訊清單檔案 | 此檔案將每個輸入資料檔案,與其相關聯的批次預測結果建立關係。其存放在 S3 儲存貯體輸出位置。 |
即時預測
即時預測適用於具有低延遲要求的應用程式,例如互動式 Web、行動或桌面應用程式。使用低延遲即時預測 API 可以查詢任何 ML 模型的預測。
下表定義與即時預測相關的術語。
期間 | 定義 |
---|---|
即時預測 API | 即時預測 API 接受要求承載中的單一輸入觀察,並在回應中傳回預測。 |
即時預測端點 | 若要使用 ML 模型搭配即時預測 API,您需要建立即時預測端點。建立後,端點包含 URL,您可以用來請求即時預測。 |