Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Melatih model pembelajaran penguatan pada AWS DeepRacer Siswa
Panduan ini menunjukkan cara melatih model pertama Anda di Student. AWS DeepRacer Ini juga memberi Anda beberapa tips berguna untuk membantu Anda memaksimalkan pengalaman Anda dan mempercepat pembelajaran Anda.
Langkah 1: Latih model pembelajaran penguatan menggunakan AWS DeepRacer Siswa
Mulailah perjalanan Anda di AWS DeepRacer Siswa dengan mempelajari di mana menemukan tombol Buat model dan mulai melatih model pertama Anda. Perlu diingat bahwa membuat dan melatih model adalah proses berulang. Bereksperimenlah dengan berbagai algoritme dan fungsi penghargaan untuk mencapai hasil terbaik Anda.
Untuk melatih model pembelajaran penguatan
-
Di halaman Beranda AWS DeepRacer Siswa, pilih Buat model. Atau, navigasikan ke Model Anda di panel navigasi kiri. Di halaman Model, di Model Anda, pilih Buat model.
-
Di halaman Ikhtisar, baca tentang cara melatih model penguatan. Setiap langkah dalam proses dijelaskan di halaman ini. Setelah selesai membaca, pilih Berikutnya.
Langkah 2: Beri nama model Anda
Beri nama model Anda. Merupakan praktik yang baik untuk memberi model Anda nama unik untuk menemukan model individual dengan cepat saat Anda ingin meningkatkan dan mengkloningnya. Misalnya, Anda mungkin ingin memberi nama model Anda menggunakan konvensi penamaan seperti: yourinitials-date-version
.
Untuk memberi nama model Anda
-
Pada halaman Nama model Anda, masukkan nama di bidang Nama model.
catatan
Ketika Anda mulai melatih model, nama model menjadi tetap dan tidak lagi dapat diubah.
-
Pilih Berikutnya.
Langkah 3: Pilih trek Anda
Pilih trek simulasi Anda. Trek berfungsi sebagai lingkungan dan menyediakan data ke mobil Anda. Jika Anda memilih trek yang sangat kompleks, mobil Anda membutuhkan waktu pelatihan total yang lebih lama dan fungsi hadiah yang Anda gunakan lebih kompleks.
Untuk memilih trek Anda (lingkungan)
-
Pada halaman Pilih trek, pilih trek untuk dijadikan lingkungan pelatihan untuk mobil Anda.
-
Pilih Berikutnya.
Langkah 4: Pilih algoritma
AWS DeepRacer Siswa memiliki dua algoritma pelatihan untuk dipilih. Algoritma yang berbeda memaksimalkan imbalan dengan cara yang berbeda. Untuk memaksimalkan pengalaman AWS DeepRacer Siswa Anda, bereksperimenlah dengan kedua algoritma. Untuk informasi selengkapnya tentang algoritme, lihat Algoritma AWS DeepRacer Pelatihan.
Untuk memilih algoritma pelatihan
-
Pada halaman Pilih jenis algoritma, pilih jenis algoritma. Dua jenis algoritma tersedia:
-
Optimalisasi Kebijakan Proksimal (PPO). Algoritma yang stabil tetapi haus data ini bekerja secara konsisten di antara iterasi pelatihan.
-
Kritikus Aktor Lembut (SAC). Algoritma yang tidak stabil tetapi efisien data ini dapat bekerja secara tidak konsisten antara iterasi pelatihan.
-
Pilih Berikutnya.
Langkah 5: Sesuaikan fungsi hadiah Anda
Fungsi penghargaan adalah inti dari pembelajaran penguatan. Gunakan untuk memberi insentif pada mobil Anda (agen) untuk mengambil tindakan spesifik saat menjelajahi trek (lingkungan). Sama seperti Anda akan mendorong dan mencegah perilaku tertentu pada hewan peliharaan, Anda dapat menggunakan alat ini untuk mendorong mobil Anda menyelesaikan putaran secepat mungkin dan mencegahnya keluar dari trek dan zig-zagging.
Saat melatih model pertama Anda, Anda mungkin ingin menggunakan fungsi hadiah sampel default. Saat Anda siap untuk bereksperimen dan mengoptimalkan model Anda, Anda dapat menyesuaikan fungsi hadiah dengan mengedit kode di editor kode. Untuk informasi selengkapnya tentang menyesuaikan fungsi reward, lihatMenyesuaikan fungsi hadiah.
Untuk menyesuaikan fungsi hadiah Anda
-
Pada halaman fungsi Sesuaikan hadiah, pilih fungsi hadiah sampel. Ada 3 contoh fungsi hadiah yang tersedia yang dapat Anda sesuaikan:
Ikuti garis tengah. Hadiahi mobil Anda saat mengemudi secara mandiri sedekat mungkin ke garis tengah trek.
Tetap di dalam perbatasan. Hadiahi mobil Anda saat mengemudi secara mandiri dengan keempat roda tetap berada di dalam batas lintasan.
Cegah zig-zag. Hadiahi mobil Anda karena tinggal di dekat garis tengah. Menghukum mobil Anda jika menggunakan sudut kemudi tinggi atau keluar jalur.
catatan
Jika Anda tidak ingin menyesuaikan fungsi hadiah, pilih Berikutnya.
-
(Opsional) Ubah kode fungsi hadiah.
-
Pilih fungsi hadiah sampel dan pilih Walk me through this code.
Untuk setiap bagian kode, Anda dapat melihat informasi lebih lanjut dengan memilih + untuk menampilkan kotak teks pop-up dengan teks eksplantori. Lanjutkan melalui panduan kode dengan memilih Berikutnya di setiap pop-up. Untuk keluar dari kotak teks pop-up, pilih X di sudut. Untuk keluar dari panduan, pilih Selesai.
catatan
Anda dapat memilih untuk tidak mengedit kode fungsi hadiah sampel dengan memilih Go dengan kode default.
-
Secara opsional, edit kode fungsi hadiah sampel dengan memilih fungsi hadiah sampel dan memilih Edit kode sampel. Edit kode dan pilih Validasi untuk memeriksa kode Anda. Jika kode Anda tidak dapat divalidasi atau Anda ingin mengatur ulang kode ke keadaan semula, pilih Reset.
-
-
Pilih Berikutnya.
Langkah 6: Pilih durasi dan kirimkan model Anda ke papan peringkat
Durasi pelatihan model Anda memengaruhi kinerjanya. Saat bereksperimen pada fase awal pelatihan, Anda harus mulai dengan nilai kecil untuk parameter ini dan kemudian berlatih secara progresif untuk jangka waktu yang lebih lama.
Dalam langkah melatih model Anda ini, model terlatih Anda dikirimkan ke papan peringkat. Anda dapat memilih keluar dengan membatalkan pilihan kotak centang.
Untuk memilih durasi dan mengirimkan model ke papan peringkat
-
Pada halaman Pilih durasi, pilih waktu di Pilih durasi pelatihan model.
-
Di bidang Deskripsi model, masukkan deskripsi berguna untuk model Anda yang akan membantu Anda mengingat pilihan yang Anda buat.
Tip
Merupakan praktik yang baik untuk menambahkan informasi tentang model Anda seperti pilihan dan modifikasi saat ini untuk fungsi dan algoritme hadiah serta hipotesis Anda tentang bagaimana kinerja model.
-
Pilih kotak centang agar model Anda dikirimkan secara otomatis ke papan peringkat AWS DeepRacer Siswa setelah pelatihan selesai. Secara opsional, Anda dapat memilih untuk tidak memasukkan model Anda dengan membatalkan pilihan kotak centang.
Tip
Kami menyarankan Anda mengirimkan model Anda ke papan peringkat. Mengirimkan model Anda membantu Anda melihat bagaimana model Anda dibandingkan dengan orang lain dan memberi Anda umpan balik sehingga Anda dapat meningkatkan model Anda.
-
Pilih Latih model Anda.
Dalam pop-up pelatihan model inisialisasi, pilih Oke.
Pada halaman konfigurasi Pelatihan, Anda dapat meninjau status dan konfigurasi pelatihan model Anda. Anda juga dapat melihat video pelatihan model Anda di trek yang dipilih saat Status pelatihan sedang berlangsung. Menonton video dapat membantu Anda mengembangkan wawasan berharga yang dapat Anda gunakan untuk meningkatkan model Anda.
Langkah 7: Lihat kinerja model Anda di papan peringkat
Setelah Anda melatih model Anda dan mengirimkannya ke papan peringkat, Anda dapat melihat kinerjanya.
Untuk melihat kinerja model Anda
Di panel navigasi kiri, navigasikan ke dan perluas Bersaing. Pilih musim. Pada halaman Leaderboard, model dan peringkat Anda muncul di bagian. Halaman ini juga mencakup bagian Papan Peringkat dengan daftar model yang dikirimkan, detail balapan, dan bagian detail Balapan.
Di halaman yang menampilkan papan peringkat, di bagian dengan profil Anda, pilih Tonton Video untuk melihat video kinerja model Anda.
Langkah 8: Gunakan Clone untuk meningkatkan model Anda
Setelah Anda melatih dan secara opsional mengirimkan model Anda ke papan peringkat, Anda dapat mengkloningnya untuk memperbaikinya. Mengkloning model Anda menghemat langkah Anda dan membuat pelatihan lebih efisien dengan menggunakan model yang dilatih sebelumnya sebagai titik awal untuk model baru.
Untuk mengkloning dan memaksakan model
Di AWS DeepRacer Siswa, di panel navigasi kiri, navigasikan ke Model Anda.
Pada halaman Model Anda, pilih model dan pilih Klon.
Di bidang Nama model Anda, berikan nama baru untuk model kloning Anda dan pilih Berikutnya.
Pada halaman Sesuaikan fungsi hadiah, sesuaikan fungsi hadiah dan pilih Berikutnya. Untuk informasi selengkapnya tentang menyesuaikan fungsi reward, lihatLangkah 5: Sesuaikan fungsi hadiah Anda.
Di halaman Pilih durasi, masukkan waktu di bidang Pilih durasi pelatihan model, masukkan deskripsi di bidang Deskripsi model, dan pilih kotak centang untuk mengirimkan model kloning ke papan peringkat.
Pilih Latih model Anda. Pelatihan Anda diinisialisasi. Halaman konfigurasi Pelatihan muncul dengan informasi tentang model kloning Anda. Anda juga dapat melihat video pelatihan model Anda di trek yang dipilih saat Status pelatihan sedang berlangsung.
Lanjutkan mengkloning dan memodifikasi model pra-terlatih Anda untuk mencapai kinerja terbaik Anda di papan peringkat.
Langkah 9: (Opsional) Unduh model
Setelah melatih model dan secara opsional mengirimkannya ke papan peringkat, Anda mungkin ingin mengunduhnya untuk digunakan di masa mendatang di perangkat fisik. AWS DeepRacer Model Anda disimpan sebagai .tar.gz
file.
Untuk mengunduh model
Di AWS DeepRacer Siswa, di panel navigasi kiri, navigasikan ke Model Anda.
Pada halaman Model Anda, pilih model dan pilih Unduh.
Lacak kemajuan unduhan model di browser Anda. Ketika model Anda diunduh, Anda dapat menyimpannya ke hard drive lokal Anda atau perangkat penyimpanan pilihan lainnya.
Untuk mempelajari lebih lanjut tentang bekerja dengan AWS DeepRacer perangkat, lihat Mengoperasikan AWS DeepRacer Kendaraan Anda di AWS DeepRacer panduan.