改善您的 Amazon Lookout for Vision 模型 - Amazon Lookout for Vision

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

改善您的 Amazon Lookout for Vision 模型

訓練期間 Lookout to Vision 會使用測試資料集測試您的模型,並使用結果建立效能指標。您可以使用效能指標來評估模型的效能。如有必要,您可以採取步驟來改善資料集,然後重新訓練模型。

如果對模型的效能滿意,則可以開始使用模型 如需詳細資訊,請參閱運行訓練有素的亞馬遜 Lookout for Vision 模型

步驟 1:評估模型的效能

您可以從主控台和DescribeModel作業存取效能指標。Amazon Lookout for Vision 版提供測試資料集的摘要效能指標,以及所有個別映像的預測結果。如果您的模型是區段模型,主控台也會顯示每個異常標籤的摘要指標。

若要在主控台中檢視效能指標和測試影像預測,請參閱檢視效能指標 (主控台)。如需使用DescribeModel作業存取效能指標和測試影像預測的相關資訊,請參閱檢視效能指標

影像分類指標

Amazon Lookout for Vision 模型在測試期間進行的分類提供下列摘要指標:

影像分割模型指標

如果模型是影像分段模型,Amazon Lookout for Vision 每個異常標籤提供摘要影像分類指標和摘要效能指標:

精確度

精確度量回答了這個問題 — 當模型預測圖像包含異常時,該預測多久是正確的?

對於誤報的成本很高的情況,精確度是一個有用的指標。例如,從組裝的機器中移除沒有瑕疵的機器零件的成本。

Amazon Lookout for Vision 察提供整個測試資料集的摘要精確度指標值。

精確度是在所有預測的異常(真正和誤報)上正確預測異常(真正正值)的分數。精確度的公式如下。

精度值 = 真正值/(真正 + 誤報)

精確度的可能值範圍為 0 到 1。亞馬遜 Lookout for Vision 控制台以百分比值 (0—100) 的形式顯示精確度。

較高的精確度值表示更多的預測異常是正確的。例如,假設您的模型預測 100 個圖像是異常的。如果 85 個預測是正確的 (真正值) 且 15 不正確 (誤報),則精確度的計算方式如下:

85 個真正值/(85 個真正值 + 15 個誤報) = 0.85 精確度值

但是,如果模型僅在 100 個異常預測中正確預測 40 張影像,則產生的精確度值會低於 0.40 (也就是 40/(40 + 60) = 0.40)。在這種情況下,您的模型所做的預測比正確的預測更多不正確的預測。若要修正此問題,請考慮改善您的模型。如需詳細資訊,請參閱步驟 2:改善您的模型

如需詳細資訊,請參閱精確度和召回

取回

召回量度回答了這個問題-在測試資料集中的異常影像總數中,有多少正確地預測為異常?

調用量度對於假負成本很高的情況非常有用。例如,不移除瑕疵零件的成本很高時。Amazon Lookout for Vision 察提供整個測試資料集的摘要召回指標值。

回想一下是正確檢測到的異常測試圖像的一小部分。它是一種衡量模型可以正確預測異常圖像的頻率,當它實際存在於測試數據集的圖像中時。召回的公式計算方式如下所示:

召回值 = 真陽性/(真陽性 + 假陰性)

召回的範圍是 0 到 1。亞馬遜 Lookout for Vision 察控制台以百分比值(0—100)顯示召回。

較高的召回值表示可正確識別更多異常影像。例如,假設測試資料集包含 100 個異常影像。如果模型正確檢測到 100 個異常圖像中的 90 個,則召回如下:

90 個真正正值/(90 個真正正值 + 10 個假陰性) = 0.90 回收值

回復值 0.90 表示您的模型正確預測測試資料集中的大部分異常影像。如果模型只能正確預測 20 個異常影像,則回收率會低於 0.20 (即 20/(20 + 80) = 0.20)。

在此情況下,您應該考慮對您的模型進行改進。如需詳細資訊,請參閱步驟 2:改善您的模型

如需詳細資訊,請參閱精確度和召回

F1 比分

亞馬遜 Lookout for Vision 提供測試資料集的平均模型效能分數。具體而言,異常分類的模型效能是由 F1 評分量度來測量,這是精確度和召回分數的諧波平均值。

F1 分數是考慮到精度和召回的彙總度量。模型效能分數是介於 0 到 1 之間的值。值越高,模型在調用和精確度方面的效果就越好。例如,對於精確度為 0.9 且召回 1.0 的模型,F1 的分數為 0.947。

例如,如果模型表現不佳,精確度為 0.30,高回收率為 1.0,則 F1 分數為 0.46。同樣,如果精度很高(0.95)並且召回率低(0.20),則 F1 得分為 0.33。在這兩種情況下,F1 分數都很低,表示模型出現問題。

如需詳細資訊,請參閱 F1 分數

聯集上的平均交點 (IoU)

測試影像中的異常遮罩與模型為測試影像預測的異常遮罩之間的平均百分比重疊。Amazon Lookout for Vision 會傳回每個異常標籤的平均 IOU,且僅由影像分割模型傳回。

較低的百分比值表示模型未準確地將標籤的預測遮罩與測試影像中的遮色片相符。

以下圖像具有較低的 IOU。橙色遮罩是來自模型的預測,不會緊緊覆蓋測試圖像中代表蒙版的藍色蒙版。

Close-up of a car's front bumper with blue and pink paint marks, indicating damage.

以下圖像具有較高的 IoU。藍色遮罩(測試圖像)被橙色遮罩(預測的遮罩)緊密覆蓋。

Close-up of a car's front section with purple paint scratches on the white body panel.

測試結果

在測試期間,模型預測測試數據集中的每個測試圖像的分類。每個預測的結果將與相應測試圖像的標籤(正常或異常)進行比較,如下所示:

  • 正確地預測圖像是異常的被認為是真正的積極的。

  • 錯誤地預測圖像是異常的被認為是誤報

  • 正確預測圖像是正常的被認為是真正的負面

  • 錯誤地預測圖像是正常的被認為是假陰性

如果模型是分段模型,則模型也會預測測試影像上異常位置的遮罩和異常標籤。

亞馬遜 Lookout for Vision 使用比較結果來產生效能指標。

步驟 2:改善您的模型

效能指標可能會顯示您可以改善模型。例如,如果模型未偵測到測試資料集中的所有異常,則您的模型具有較低的召回率 (也就是說,召回量度的值較低)。如果需要改進您的模型,請考慮下列事項:

  • 檢查訓練和測試資料集映像檔是否已正確標記。

  • 降低影像擷取條件 (例如光線和物件姿勢) 的變異性,並在相同類型的物件上訓練模型。

  • 確保您的圖像只顯示所需的內容。例如,如果您的專案偵測到機器零件中的異常,請確定影像中沒有其他物件。

  • 在訓練和測試資料集中新增更多標籤影像。如果您的測試數據集具有出色的召回和精確度,但模型在部署時效能不佳,則您的測試數據集可能不夠具有代表性,因此您需要擴展它。

  • 如果您的測試資料集導致召回和精確度不佳,請考慮訓練和測試資料集中的異常情況和影像擷取條件的相符程度。如果您的訓練影像不代表預期的異常和條件,但測試影像中的影像是,請將影像新增至具有預期異常和條件的訓練訓練資料集。如果測試資料集映像檔不在預期的條件下,但訓練影像是,請更新測試資料集。

    如需詳細資訊,請參閱添加更多圖像。另一種將標記影像新增至訓練資料集的方法是執行試驗偵測工作並驗證結果。然後,您可以將已驗證的映像新增至訓練資料集。如需詳細資訊,請參閱使用試驗偵測任務來驗證您的模型

  • 確保您的訓練和測試資料集中具有足夠多樣化的正常和異常影像。這些影像必須代表模型將遇到的一般和異常影像類型。例如,在分析電路板時,正常的影像應代表元件 (例如電阻器和電晶體) 的位置和焊接方面的變化。異常影像應代表系統可能遇到的不同異常類型,例如放錯位置或遺失元件。

  • 如果您的模型偵測到的異常類型具有較低的平均 IOU,請檢查分割模型中的遮罩輸出。對於某些使用案例 (例如刮痕),模型可能會輸出刮痕,這些刮痕在測試影像中非常接近地面真實刮痕,但像素重疊較低。例如,兩條相距 1 個像素距離的 parallel 線。在這些情況下,平均 IOU 是衡量預測成功的不可靠指標。

  • 如果影像尺寸較小或影像解析度較低,請考慮以較高的解析度拍攝影像。影像尺寸的範圍可以從 64 x 64 像素到 4096 像素 X 4096 像素之間。

  • 如果異常大小很小,請考慮將影像分割成不同的拼貼,並使用拼貼影像進行訓練和測試。這可讓模型在影像中看到較大尺寸的瑕疵。

改善訓練和測試資料集之後,請重新訓練並重新評估模型。如需詳細資訊,請參閱培訓您的模型

如果指標顯示您的模型具有可接受的效能,您可以將試用偵測工作的結果新增至測試資料集,以驗證其效能。重新訓練後,績效指標應確認先前訓練的績效指標。如需詳細資訊,請參閱使用試驗偵測任務來驗證您的模型