步驟 1：使用學生訓練強化學習模AWS DeepRacer 型步驟 2：為您的模型命名步驟 3：選擇您的曲目步驟 4：選擇一種算法步驟 5：自訂您的獎勵功能步驟 6：選擇持續時間並將您的模型提交到排行榜步驟 7：在排行榜上查看模型的表現步驟 8：使用複製來改善您的模型步驟 9：（可選）下載模型

在學AWS DeepRacer 生中訓練強化學習模型

本逐步解說將示範如何在 AWS DeepRacer Student 中訓練您的第一個模型。它還為您提供了一些有用的提示，以幫助您充分利用您的經驗並快速跟踪您的學習。

步驟 1：使用學生訓練強化學習模AWS DeepRacer 型

透過AWS DeepRacer 學習在何處找到「建立模型」按鈕，開始訓練您的第一個模型，開始您在 Student 的旅程。請記住，建立和訓練模型是一個反覆的過程。嘗試不同的算法和獎勵功能，以獲得最佳結果。

訓練強化學習模型

在「AWS DeepRacer 學生首頁」中，選擇「建立模型」。或者，導航到左側導航窗格中的「您的模型」。在「模型」頁面的「您的模型」中，選擇「建立模型」。
在「概觀」頁面中，閱讀有關如何訓練鋼筋模型的資訊。此頁面上會說明程序中的每個步驟。閱讀完畢後，請選擇「下一步」。

步驟 2：為您的模型命名

為您的模型命名。最好是為模型指定唯一名稱，以便在您想要改進和複製個別模型時快速找到模型。例如，您可能想要使用命名慣例來命名模型，例如：yourinitials-date-version。

為您的模型命名

在「為您的模型命名」頁面的「型號名稱」欄位中輸入名稱。

注意
當您開始訓練模型時，模型的名稱會變為固定且不再可變更。
選擇下一步。

步驟 3：選擇您的曲目

選擇您的模擬軌道。該軌道充當環境，並為您的汽車提供數據。如果您選擇非常複雜的賽道，您的車輛需要更長的總訓練時間，並且您使用的獎勵功能會更加複雜。

選擇您的軌道（環境）

在 「選擇賽道」頁面上，選擇一條軌道作為您愛車的訓練環境。
選擇下一步。

步驟 4：選擇一種算法

AWS DeepRacer 學生有兩種訓練算法可供選擇。不同的算法以不同的方式最大化獎勵。為了充分利用您的AWS DeepRacer 學生體驗，請嘗試使用這兩種算法。如需演算法的詳細資訊，請參閱AWS DeepRacer 訓練演算法。

若要選擇訓練演算法

在 [選擇演算法類型] 頁面上，選取演算法類型。有兩種演算法類型可供使用：
- 近端政策最佳化 (PPO)。這種穩定但數據飢餓的算法在訓練迭代之間執行一致。
- 軟演員評論家（SAC）。這種不穩定但數據效率高的算法可能在訓練迭代之間執行不一致。
選擇下一步。

步驟 5：自訂您的獎勵功能

獎勵功能是強化學習的核心。使用它來激勵您的汽車（代理）在探索軌道（環境）時採取特定行動。正如你會鼓勵和阻止某些行為在寵物, 你可以使用這個工具來鼓勵你的車盡可能快地完成一圈，並阻止它從開車的軌道和鋸齒形 zagging.

訓練您的第一個模型時，您可能需要使用預設的範例獎勵功能。當您準備好試驗和優化模型時，您可以通過編輯代碼編輯器中的代碼來自定義獎勵功能。如需自訂獎勵功能的詳細資訊，請參閱自訂獎勵功能。

自訂您的獎勵功能

在「自訂獎勵功能」頁面中，選擇範例獎勵功能。您可以自訂 3 個範例獎勵功能：
- 跟隨中心線。獎勵你的車，當它自動駕駛盡可能靠近軌道的中心線。
- 留在邊界內。獎勵你的汽車，當它自動駕駛，所有四個車輪停留在軌道邊界內。
- 防止鋸齒形。獎勵您的汽車停留在中心線附近。懲罰你的車，如果它使用高轉向角度或離開軌道。
注意
如果您不想自訂獎勵功能，請選擇「下一步」。
（可選）修改獎勵功能代碼。
- 選取範例獎勵功能，然後選擇引導我完成此代碼。
- 對於代碼的每個部分，您可以通過選擇 + 來顯示帶有說明文本的彈出文本框來查看更多信息。在每個快顯視窗中選擇 [下一步]，即可逐步解說程式碼若要退出快顯文字方塊，請選擇角落的 X。若要結束穿越，請選擇「完成」。
  
  注意
  您可以通過選擇使用默認代碼進行選擇不編輯示例獎勵功能代碼。
- 您也可以選擇選取範例獎勵功能並選擇 [編輯範例程式碼]，以編輯範例獎勵功能程式碼。編輯程式碼，然後選取 [驗證] 以檢查您的程式碼。如果您的程式碼無法驗證，或您想要將程式碼重設為原始狀態，請選擇 [重設]。
選擇下一步。

步驟 6：選擇持續時間並將您的模型提交到排行榜

模型訓練的持續時間會影響其效能。在訓練的早期階段進行實驗時，您應該從這個參數的小值開始，然後逐步訓練更長的時間。

在訓練模型的這個步驟中，訓練過的模型會提交至排行榜。您可以透過取消選取核取方塊來選擇退出。

選擇持續時間並將模型提交至排行榜

在 [選擇持續時間] 頁面上，選取 [選擇模型訓練持續時間] 中的時間。
在「模型描述」欄位中，為模型輸入有用的描述，以協助您記住您所做的選取。

提示
最好是新增關於模型的資訊，例如獎勵函數和演算法的目前選擇和修改，以及您對模型執行方式的假設。
勾選核取方塊，以便在訓練完成後自動將模型提交至AWS DeepRacer 學生排行榜。或者，您可以透過取消選取核取方塊來選擇不輸入模型。

提示
我們建議您將模型提交到排行榜。提交模型可協助您查看模型與其他模型的比較，並為您提供意見反應，以便改善模型。
選擇訓練您的模型。
在 [初始化模型訓練] 快顯視窗中，選擇 [確定]。
在 [訓練組態] 頁面上，您可以檢閱模型的訓練狀態和組態。當「訓練狀態」為「進行中」時，您也可以在選取的軌道上檢視模型訓練的視訊。觀看影片可協助您開發有價值的見解，並用來改善模型。

步驟 7：在排行榜上查看模型的表現

訓練完模型並將其提交至排行榜後，您可以檢視其成效。

若要檢視模型的效能

在左側導覽窗格中，導覽至並展開 [競爭]。選擇一個季節。在排行榜頁面上，您的模型和排名會顯示在區段中。該頁面還包括一個排行榜部分，其中包含提交的模型列表，比賽詳細信息和比賽詳細信息部分。
在顯示排行榜的頁面中，在您的個人檔案區段中，選取「觀看影片」以檢視模型成效的影片。

步驟 8：使用複製來改善您的模型

訓練完模型並選擇性地將模型提交到排行榜後，您可以將其克隆以改進模型。複製模型可透過使用先前訓練過的模型作為新模型的起點，節省您的步驟並提高訓練效率。

若要複製並提供模型

在 AWS DeepRacer Student 的左側導覽窗格中，導覽至您的模型。
在「您的模型」頁面上，選取模型並選擇「複製」。
在「為模型命名」欄位中，為複製的模型提供新名稱，然後選擇「下一步」。
在「自訂獎勵功能」頁面中，自訂獎勵功能並選擇「下一步」。如需自訂獎勵功能的詳細資訊，請參閱步驟 5：自訂您的獎勵功能。
在「選擇持續時間」頁面的「選擇模型訓練持續時間」欄位中輸入時間，在「模型描述」欄位中輸入說明，然後選取核取方塊，將複製的模型提交至排行榜。
選擇訓練您的模型。您的訓練已初始化。訓練組態頁面隨即出現，其中包含複製模型的相關資訊。當「訓練狀態」為「進行中」時，您也可以在選取的軌道上檢視模型訓練的視訊。
繼續克隆和修改預先訓練的模型，以在排行榜上實現最佳性能。

步驟 9：（可選）下載模型

在訓練模型並選擇性地將其提交到排行榜後，您可能需要下載該模型以備 future 在AWS DeepRacer 物理設備上使用。您的模型會儲存為.tar.gz檔案。

下載模型

在 AWS DeepRacer Student 的左側導覽窗格中，導覽至您的模型。
在「您的型號」頁面上，選取型號並選擇「下載」。
在瀏覽器中追蹤模型下載的進度。下載型號後，您可以將其保存到本地硬盤驅動器或其他首選的存儲設備中。

若要進一步瞭解如何使用AWS DeepRacer 裝置，請參閱AWS DeepRacer 指南中的操作您的AWS DeepRacer 車輛。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

開始使用

加入比賽