在學AWS DeepRacer 生中訓練強化學習模型 - AWS DeepRacer 學生

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在學AWS DeepRacer 生中訓練強化學習模型

本逐步解說將示範如何在 AWS DeepRacer Student 中訓練您的第一個模型。它還為您提供了一些有用的提示,以幫助您充分利用您的經驗並快速跟踪您的學習。

步驟 1:使用學生訓練強化學習模AWS DeepRacer 型

透過AWS DeepRacer 學習在何處找到「建立模型」按鈕,開始訓練您的第一個模型,開始您在 Student 的旅程。請記住,建立和訓練模型是一個反覆的過程。嘗試不同的算法和獎勵功能,以獲得最佳結果。

訓練強化學習模型
  1. 在「AWS DeepRacer 學生頁」中,選擇「建立模型」。或者,導航到左側導航窗格中的「您的模型」。在「模」頁面的「您的模型」中,選擇「建立模型」。

  2. 在「概觀」頁面中,閱讀有關如何訓練鋼筋模型的資訊。此頁面上會說明程序中的每個步驟。閱讀完畢後,請選擇「下一步」。

步驟 2:為您的模型命名

為您的模型命名。最好是為模型指定唯一名稱,以便在您想要改進和複製個別模型時快速找到模型。例如,您可能想要使用命名慣例來命名模型,例如:yourinitials-date-version

為您的模型命名
  1. 在「為您的模型命名」頁面的「型號名稱」欄位中輸入名稱

    注意

    當您開始訓練模型時,模型的名稱會變為固定且不再可變更。

  2. 選擇下一步

步驟 3:選擇您的曲目

選擇您的模擬軌道。該軌道充當環境,並為您的汽車提供數據。如果您選擇非常複雜的賽道,您的車輛需要更長的總訓練時間,並且您使用的獎勵功能會更加複雜。

選擇您的軌道(環境)
  1. 「選擇賽道」頁面上,選擇一條軌道作為您愛車的訓練環境。

  2. 選擇下一步

步驟 4:選擇一種算法

AWS DeepRacer 學生有兩種訓練算法可供選擇。不同的算法以不同的方式最大化獎勵。為了充分利用您的AWS DeepRacer 學生體驗,請嘗試使用這兩種算法。如需演算法的詳細資訊,請參閱AWS DeepRacer 訓練演算法

若要選擇訓練演算法
  1. 在 [選擇演算法類型] 頁面上,選取演算法類型。有兩種演算法類型可供使用:

    • 近端政策最佳化 (PPO)。這種穩定但數據飢餓的算法在訓練迭代之間執行一致。

    • 軟演員評論家(SAC)。這種不穩定但數據效率高的算法可能在訓練迭代之間執行不一致。

  2. 選擇下一步

步驟 5:自訂您的獎勵功能

獎勵功能是強化學習的核心。使用它來激勵您的汽車(代理)在探索軌道(環境)時採取特定行動。正如你會鼓勵和阻止某些行為在寵物, 你可以使用這個工具來鼓勵你的車盡可能快地完成一圈,並阻止它從開車的軌道和鋸齒形 zagging.

訓練您的第一個模型時,您可能需要使用預設的範例獎勵功能。當您準備好試驗和優化模型時,您可以通過編輯代碼編輯器中的代碼來自定義獎勵功能。如需自訂獎勵功能的詳細資訊,請參閱自訂獎勵功能

自訂您的獎勵功能
  1. 在「自訂獎勵功能」頁面中,選擇範例獎勵功能。您可以自訂 3 個範例獎勵功能:

    • 跟隨中心線。獎勵你的車,當它自動駕駛盡可能靠近軌道的中心線。

    • 留在邊界內。獎勵你的汽車,當它自動駕駛,所有四個車輪停留在軌道邊界內。

    • 防止鋸齒形。獎勵您的汽車停留在中心線附近。懲罰你的車,如果它使用高轉向角度或離開軌道。

    注意

    如果您不想自訂獎勵功能,請選擇「下一步」。

  2. (可選)修改獎勵功能代碼。

    • 選取範例獎勵功能,然後選擇引導我完成此代碼

    • 對於代碼的每個部分,您可以通過選擇 + 來顯示帶有說明文本的彈出文本框來查看更多信息。在每個快顯視窗中選擇 [下一步],即可逐步解說程式碼 若要退出快顯文字方塊,請選擇角落的 X。若要結束穿越,請選擇「完成」。

      注意

      您可以通過選擇使用默認代碼進行選擇不編輯示例獎勵功能代碼

    • 您也可以選擇選取範例獎勵功能並選擇 [編輯範例程式碼],以編輯範例獎勵功能程式碼。編輯程式碼,然後選取 [驗證] 以檢查您的程式碼。如果您的程式碼無法驗證,或您想要將程式碼重設為原始狀態,請選擇 [重設]。

  3. 選擇下一步

步驟 6:選擇持續時間並將您的模型提交到排行榜

模型訓練的持續時間會影響其效能。在訓練的早期階段進行實驗時,您應該從這個參數的小值開始,然後逐步訓練更長的時間。

在訓練模型的這個步驟中,訓練過的模型會提交至排行榜。您可以透過取消選取核取方塊來選擇退出。

選擇持續時間並將模型提交至排行榜
  1. 在 [選擇持續時間] 頁面上,選取 [選擇模型訓練持續時間] 中的時間。

  2. 在「模型描述」欄位中,為模型輸入有用的描述,以協助您記住您所做的選取。

    提示

    最好是新增關於模型的資訊,例如獎勵函數和演算法的目前選擇和修改,以及您對模型執行方式的假設。

  3. 勾選核取方塊,以便在訓練完成後自動將模型提交至AWS DeepRacer 學生排行榜。或者,您可以透過取消選取核取方塊來選擇不輸入模型。

    提示

    我們建議您將模型提交到排行榜。提交模型可協助您查看模型與其他模型的比較,並為您提供意見反應,以便改善模型。

  4. 選擇訓練您的模型

  5. 在 [初始化模型訓練] 快顯視窗中,選擇 [定]。

  6. 在 [訓練組態] 頁面上,您可以檢閱模型的訓練狀態和組態。當「訓練態」為「進行中」時,您也可以在選取的軌道上檢視模型訓練的視訊。觀看影片可協助您開發有價值的見解,並用來改善模型。

步驟 7:在排行榜上查看模型的表現

訓練完模型並將其提交至排行榜後,您可以檢視其成效。

若要檢視模型的效能
  1. 在左側導覽窗格中,導覽至並展開 [競爭]。選擇一個季節。在排行榜頁面上,您的模型和排名會顯示在區段中。該頁面還包括一個排行榜部分,其中包含提交的模型列表,比賽詳細信息和比賽詳細信息部分。

  2. 在顯示排行榜的頁面中,在您的個人檔案區段中,選取「觀看影片」以檢視模型成效的影片。

步驟 8:使用複製來改善您的模型

訓練完模型並選擇性地將模型提交到排行榜後,您可以將其克隆以改進模型。複製模型可透過使用先前訓練過的模型作為新模型的起點,節省您的步驟並提高訓練效率。

若要複製並提供模型
  1. 在 AWS DeepRacer Student 的左側導覽窗格中,導覽至您的模型

  2. 在「您的模型」頁面上,選取模型並選擇「複製」。

  3. 在「為模型命名」欄位中,為複製的模型提供新名稱,然後選擇「下一步」。

  4. 在「自訂獎勵功能」頁面中,自訂獎勵功能並選擇「下一步」。如需自訂獎勵功能的詳細資訊,請參閱步驟 5:自訂您的獎勵功能

  5. 在「選擇持續時間」頁面的「選擇模型訓練持續時間」欄位中輸入時間,在「模型描述」欄位中輸入說明,然後選取核取方塊,將複製的模型提交至排行榜。

  6. 選擇訓練您的模型。您的訓練已初始化。訓練組態頁面隨即出現,其中包含複製模型的相關資訊。當「訓練態」為「進行中」時,您也可以在選取的軌道上檢視模型訓練的視訊。

  7. 繼續克隆和修改預先訓練的模型,以在排行榜上實現最佳性能。

步驟 9:(可選)下載模型

在訓練模型並選擇性地將其提交到排行榜後,您可能需要下載該模型以備 future 在AWS DeepRacer 物理設備上使用。您的模型會儲存為.tar.gz檔案。

下載模型
  1. 在 AWS DeepRacer Student 的左側導覽窗格中,導覽至您的模型

  2. 在「您的型號」頁面上,選取型號並選擇「下載」。

  3. 在瀏覽器中追蹤模型下載的進度。下載型號後,您可以將其保存到本地硬盤驅動器或其他首選的存儲設備中。

    若要進一步瞭解如何使用AWS DeepRacer 裝置,請參閱AWS DeepRacer 指南的操作您的AWS DeepRacer 車輛