Ruang DeepRacer aksi AWS dan fungsi reward

Ruang aksi

Dalam pembelajaran penguatan, semua set tindakan yang valid, atau pilihan, tersedia untuk agen saat berinteraksi dengan lingkungan disebut ruang tindakan. Di DeepRacer konsol AWS, Anda dapat melatih agen di ruang aksi diskrit atau berkelanjutan.

Ruang aksi diskrit

Ruang tindakan diskrit mewakili semua aksi yang mungkin dilakukan agen untuk setiap status dalam satu set. Untuk AWS DeepRacer, ini berarti bahwa untuk setiap situasi lingkungan yang berbeda secara bertahap, jaringan saraf agen memilih kecepatan dan arah untuk mobil berdasarkan input dari kamera dan sensor LiDAR (opsional). Pilihannya terbatas pada pengelompokan sudut kemudi yang telah ditentukan dan kombinasi nilai throttle.

DeepRacer Mobil AWS dalam ruang aksi diskrit yang mendekati belokan dapat memilih untuk mempercepat atau mengerem dan berbelok ke kiri, kanan, atau lurus. Tindakan ini didefinisikan sebagai kombinasi sudut kemudi dan kecepatan yang menciptakan menu opsi, 0-9, untuk agen. Misalnya, 0 dapat mewakili -30 derajat dan 0,4 m/s, 1 dapat mewakili -30 derajat dan 0,8 m/s, 2 dapat mewakili -15 derajat dan 0,4 m/s, 3 dapat mewakili -15 derajat dan 0,8 m/s dan seterusnya sampai 9. Derajat negatif membelokkan mobil ke kanan, derajat positif membelokkan mobil ke kiri dan 0 membuat roda tetap lurus.

Ruang aksi diskrit DeepRacer default AWS berisi tindakan berikut:

Ruang aksi diskrit DeepRacer default AWS
Jumlah tindakan	Kemudi	Kecepatan
0	-30 derajat	0,4 m/s
1	-30 derajat	0,8 m/s
2	-15 derajat	0,4 m/s
3	-15 derajat	0,8 m/s
4	0 derajat	0,4 m/s
5	0 derajat	0,8 m/s
6	15 derajat	0,4 m/s
7	15 derajat	0,8 m/s
8	30 derajat	0,4 m/s
9	30 derajat	0,8 m/s

Ruang aksi berkelanjutan

Sebuah ruang tindakan berkelanjutan mengizinkan agen untuk memilih tindakan dari berbagai nilai untuk setiap status. Sama seperti ruang tindakan diskrit, ini berarti untuk setiap situasi lingkungan yang berbeda secara bertahap, jaringan neural agen memilih kecepatan dan arah untuk mobil berdasarkan masukan dari kameranya dan sensor LiDAR (opsional). Namun, dalam ruang tindakan berkelanjutan, Anda dapat menentukan rentang opsi yang diambil oleh agen dari tindakannya.

Dalam contoh ini, DeepRacer mobil AWS dalam ruang aksi kontinu mendekati belokan dapat memilih kecepatan dari 0,75 m/s hingga 4 m/s dan belok kiri, kanan, atau lurus dengan memilih sudut kemudi dari -20 hingga 20 derajat.

Diskrit vs. berkelanjutan

Manfaat menggunakan ruang tindakan berkelanjutan adalah Anda dapat menulis fungsi penghargaan yang melatih model untuk mendorong tindakan kecepatan/kemudi pada titik tertentu di lintasan yang mengoptimalkan performa. Memilih dari berbagai tindakan juga membuat potensi perubahan halus dalam kecepatan dan nilai kemudi yang dalam model terlatih, dapat menghasilkan hasil yang lebih baik dalam kondisi kehidupan nyata.

Dalam pengaturan ruang tindakan diskrit, membatasi pilihan agen ke sejumlah tindakan yang telah ditentukan sebelumnya menempatkan tanggung jawab pada Anda untuk memahami dampak dari tindakan ini dan menentukannya berdasarkan lingkungan (lintasan, format balap) dan fungsi penghargaan Anda. Namun, dalam pengaturan ruang tindakan berkelanjutan, agen belajar untuk memilih kecepatan optimal dan nilai kemudi dari batas min/maks yang Anda berikan melalui pelatihan.

Meskipun memberikan rentang nilai untuk dipilih model tampaknya merupakan pilihan yang lebih baik, agen harus berlatih lebih lama untuk belajar memilih tindakan yang optimal. Sukses juga tergantung pada ketentuan fungsi penghargaan.

Fungsi penghargaan

Saat agen menjelajahi lingkungan, agen mempelajari fungsi nilai. Fungsi nilai membantu agen Anda menilai seberapa baik tindakan yang diambil, setelah mengamati lingkungan. Fungsi value menggunakan fungsi reward yang Anda tulis di DeepRacer konsol AWS untuk menilai tindakan. Misalnya, dalam mengikuti fungsi hadiah sampel garis tengah di DeepRacer konsol AWS, tindakan yang baik akan membuat agen berada di dekat pusat trek dan mendapat skor lebih tinggi daripada tindakan buruk, yang akan memindahkan agen menjauh dari tengah trek.

Seiring waktu, fungsi nilai membantu agen mempelajari kebijakan yang meningkatkan total penghargaan. Kebijakan yang optimal, atau terbaik, akan menyeimbangkan jumlah waktu yang dihabiskan agen untuk menjelajahi lingkungan dengan jumlah waktu yang dihabiskan untuk mengeksploitasi, atau memanfaatkan sebaik-baiknya, apa yang telah dipelajari oleh kebijakan melalui pengalaman.

Dalam mengikuti contoh fungsi hadiah DeepRacer sampel AWS garis tengah, agen pertama-tama mengambil tindakan acak untuk menjelajahi lingkungan, yang berarti ia tidak melakukan pekerjaan yang sangat baik untuk tetap berada di tengah trek. Seiring waktu, agen mulai mempelajari tindakan mana yang membuatnya tetap di dekat garis tengah, tetapi jika ia melakukan ini dengan terus melakukan tindakan acak, hal itu akan memakan waktu lama untuk belajar tetap berada di dekat pusat lintasan untuk seluruh putaran. Jadi, saat kebijakan mulai mempelajari tindakan yang baik, agen mulai menggunakan tindakan tersebut daripada mengambil tindakan acak. Namun, jika selalu menggunakan atau mengeksploitasi tindakan baik, agen tidak akan membuat penemuan baru, karena tidak lagi menjelajahi lingkungan. Pertukaran ini sering disebut sebagai masalah eksplorasi vs eksploitasi di RL.

Bereksperimen dengan ruang tindakan default dan sampel fungsi penghargaan. Setelah Anda menjelajahi semuanya, gunakan pengetahuan Anda dengan merancang ruang tindakan khusus dan fungsi hadiah khusus Anda sendiri.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pembelajaran penguatan

Algoritma pelatihan