Latih DeepRacer model AWS pertama Anda - AWS DeepRacer

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Latih DeepRacer model AWS pertama Anda

Panduan ini menunjukkan cara melatih model pertama Anda menggunakan DeepRacer konsol AWS.

Melatih model pembelajaran penguatan menggunakan DeepRacer konsol AWS

Pelajari tempat menemukan tombol Buat model di DeepRacer konsol AWS untuk memulai perjalanan pelatihan model Anda.

Untuk melatih model pembelajaran penguatan
  1. Jika ini adalah pertama kalinya Anda menggunakan AWS DeepRacer, pilih Buat model dari halaman arahan layanan atau pilih Memulai di bawah judul pembelajaran penguatan pada panel navigasi utama.

  2. Pada halaman Memulai dengan pembelajaran penguatan, pada bagian bawah Langkah 2: Buat model, pilih Buat model.

    Atau, pilih Model Anda di bawah judul pembelajaran Reinforcement dari panel navigasi utama. Pada halaman Model Anda, pilih Buat model.

Tentukan nama model dan lingkungan

Beri nama model Anda dan pelajari cara memilih trek simulasi yang tepat untuk Anda.

Untuk menentukan nama model dan lingkungan
  1. Pada halaman Buat model, di bawah Rincian pelatihan, masukkan nama untuk model Anda.

  2. Secara opsional, tambahkan deskripsi pekerjaan pelatihan.

  3. Untuk mempelajari lebih lanjut tentang menambahkan tag opsional, lihatPenandaan.

  4. Dalam simulasi Lingkungan, pilih trek untuk berfungsi sebagai lingkungan pelatihan untuk DeepRacer agen AWS Anda. Di bawah Arah Track, pilih Searah Jarum Jam atau Berlawanan Arah Jarum Jam. Kemudian pilih Selanjutnya.

    Untuk percobaan pertama Anda, pilih lintasan dengan bentuk sederhana dan belokan yang halus. Dalam pengulangan berikutnya, Anda dapat memilih lintasan yang lebih kompleks untuk lebih meningkatkan model Anda. Untuk melatih model untuk peristiwa balap tertentu, pilih lintasan yang paling mirip dengan lintasan peristiwa.

  5. Pilih Berikutnya di bagian bawah halaman.

Pilih tipe perlombaan dan algoritme pelatihan

DeepRacer Konsol AWS memiliki tiga jenis balapan dan dua algoritme pelatihan untuk dipilih. Pelajari mana yang sesuai untuk tingkat keterampilan dan tujuan pelatihan Anda.

Untuk memilih jenis balapan dan algoritma pelatihan
  1. Pada halaman Buat model, di bawah Jenis balapan, pilih Uji coba waktu, Penghindaran objek, atau Head-to-bot.

    Untuk percobaan pertama Anda, kami sarankan memilih Uji coba waktu. Untuk panduan tentang mengoptimalkan konfigurasi sensor agen Anda untuk jenis balapan ini, lihatMenyesuaikan DeepRacer pelatihan AWS untuk uji coba waktu.

  2. Opsional, pada percobaan berikutnya, pilih Penghindaran objek untuk berjalan di sekitar rintangan berupa stasioner yang ditempatkan secara acak ataupun tetap pada lintasan yang dipilih. Untuk informasi selengkapnya, lihat Menyesuaikan DeepRacer pelatihan AWS untuk balapan penghindaran objek.

    1. Pilih Lokasi tetap untuk menghasilkan kotak di lokasi tetap yang ditunjuk pengguna di dua jalur trek atau pilih Lokasi acak untuk menghasilkan objek yang didistribusikan secara acak di dua jalur di awal setiap episode simulasi pelatihan Anda.

    2. Selanjutnya, pilih nilai untuk Jumlah objek di trek.

    3. Jika Anda memilih Lokasi tetap, Anda dapat menyesuaikan penempatan setiap objek di trek. Untuk penempatan Lane, pilih antara jalur dalam dan jalur luar. Secara default, objek didistribusikan secara merata di trek. Untuk mengubah seberapa jauh antara awal dan garis finish sebuah objek, masukkan persentase jarak antara tujuh dan 90 pada Lokasi (%) antara bidang start dan finish.

  3. Secara opsional, untuk percobaan ambisius, pilih ead-to-bot balapan H untuk berlomba melawan hingga empat kendaraan bot yang bergerak dengan kecepatan konstan. Untuk mempelajari selengkapnya, lihat Menyesuaikan DeepRacer pelatihan AWS untuk head-to-bot balapan.

    1. Di bawah Pilih jumlah kendaraan bot, pilih dengan berapa banyak kendaraan bot yang Anda ingin agen Anda latih.

    2. Selanjutnya, pilih kecepatan dalam milimeter per detik di mana Anda ingin kendaraan bot berkeliling trek.

    3. Secara opsional, centang kotak Aktifkan perubahan jalur untuk memberi kendaraan bot kemampuan untuk mengubah jalur secara acak setiap 1-5 detik.

  4. Di bawah Algoritma pelatihan dan hyperparameter, pilih algoritme Soft Actor Critic (SAC) atau Proximal Policy Optimization (PPO). Di DeepRacer konsol AWS, model SAC harus dilatih di ruang aksi berkelanjutan. Model PPO dapat dilatih baik dalam ruang aksi berkelanjutan atau terpisah.

  5. Di bawah Algoritma pelatihan dan hyperparameter, gunakan nilai hyperparameter default apa adanya.

    Kemudian, untuk meningkatkan performa pelatihan, perluas Hyperparameter dan modifikasi nilai default hyperparameter sebagai berikut:

    1. Untuk Ukuran batch keturunan gradien, pilih opsi yang tersedia.

    2. Untuk Jumlah epoch, atur nilai yang valid.

    3. Untuk Tingkat pembelajaran, atur nilai yang valid.

    4. Untuk Nilai alfa SAC (hanya algoritme SAC), atur nilai yang valid.

    5. Untuk Entropi, atur nilai yang valid.

    6. Untuk Faktor diskon, atur nilai yang valid.

    7. Untuk Tipe kerugian, pilih opsi yang tersedia.

    8. Untuk Jumlah episode pengalaman antara setiap iterasi pembaruan kebijakan, atur nilai yang valid.

    Untuk informasi selengkapnya tentang hyperparameter, lihat Secara sistematis menyetel hyperparameter.

  6. Pilih Selanjutnya.

Menentukan ruang tindakan

Pada halaman Define action space, jika Anda memilih untuk berlatih dengan algoritma Soft Actor Critic (SAC), ruang tindakan default Anda adalah ruang aksi kontinu. Jika Anda memilih untuk berlatih dengan algoritma Proximal Policy Optimization (PPO), pilih antara ruang aksi berkelanjutan dan ruang tindakan Diskrit. Untuk mempelajari lebih lanjut tentang bagaimana setiap ruang tindakan dan algoritme membentuk pengalaman pelatihan agen, lihatRuang DeepRacer aksi AWS dan fungsi reward.

  1. Di bawah Tentukan ruang aksi kontinu, pilih derajat kisaran sudut kemudi kiri dan kisaran sudut kemudi kanan.

    Coba masukkan derajat yang berbeda untuk setiap rentang sudut kemudi dan perhatikan visualisasi perubahan rentang Anda untuk mewakili pilihan Anda pada grafik sektor Dinamis.

    Citra: AWS DeepRacer memilih agen pelatihan.
  2. Di bawah Kecepatan, masukkan kecepatan minimum dan maksimum untuk agen Anda dalam milimeter per detik.

    Perhatikan bagaimana perubahan Anda tercermin pada grafik sektor Dinamis.

  3. Secara opsional, pilih Reset ke nilai default untuk menghapus nilai yang tidak diinginkan. Kami mendorong mencoba nilai yang berbeda pada grafik untuk bereksperimen dan belajar.

  4. Pilih Selanjutnya.

  1. Pilih nilai untuk Perincian sudut kemudi dari daftar dropdown.

  2. Pilih nilai dalam derajat antara 1-30 untuk sudut kemudi maksimum agen Anda.

  3. Pilih nilai untuk Kecepatan granularity dari daftar dropdown.

  4. Pilih nilai dalam milimeter per detik antara 0,1-4 untuk kecepatan maksimum agen Anda.

  5. Gunakan pengaturan tindakan default pada daftar Tindakan atau, secara opsional, aktifkan Konfigurasi lanjutan untuk menyempurnakan pengaturan Anda. Jika Anda memilih Sebelumnya atau menonaktifkan Konfigurasi lanjutan setelah menyesuaikan nilai, Anda kehilangan perubahan.

    Gambar: Beralih pada konfigurasi lanjutan.
    1. Masukkan nilai dalam derajat antara -30 dan 30 di kolom Sudut kemudi.

    2. Masukkan nilai antara 0,1 dan 4 dalam milimeter per detik hingga sembilan tindakan di kolom Kecepatan.

    3. Opsional, pilih Tambahkan tindakan untuk meningkatkan jumlah baris dalam daftar tindakan.

      Gambar: Pilih Tambahkan tindakan untuk menambahkan tindakan ke daftar tindakan.
    4. Opsional, pilih X pada baris untuk menghapusnya.

  6. Pilih Selanjutnya.

Pilih mobil virtual

Pelajari cara memulai dengan mobil virtual. Dapatkan mobil kustom baru, pekerjaan cat, dan modifikasi dengan bersaing di Divisi Terbuka setiap bulan.

Untuk memilih mobil virtual
  1. Pada halaman Pilih shell kendaraan dan konfigurasi sensor, pilih shell yang kompatibel dengan jenis balapan dan ruang aksi Anda. Jika Anda tidak memiliki mobil di garasi yang cocok, pergi ke garasi Anda di bawah judul pembelajaran Penguatan di panel navigasi utama untuk membuatnya.

    Untuk pelatihan uji waktu, konfigurasi sensor default dan kamera lensa tunggal The Original DeepRacer adalah semua yang Anda butuhkan, tetapi semua konfigurasi shell dan sensor lainnya bekerja selama ruang aksi cocok. Untuk informasi selengkapnya, lihat Menyesuaikan DeepRacer pelatihan AWS untuk uji coba waktu.

    Untuk pelatihan menghindari objek, kamera stereo sangat membantu, tetapi satu kamera juga dapat digunakan untuk menghindari hambatan stasioner di lokasi tetap. Sensor LiDAR adalah opsional. Lihat Ruang DeepRacer aksi AWS dan fungsi reward.

    Untukead-to-bot pelatihan H, selain kamera tunggal atau kamera stereo, unit LiDAR optimal untuk mendeteksi dan menghindari titik buta saat melewati kendaraan bergerak lainnya. Untuk mempelajari selengkapnya, lihat Menyesuaikan DeepRacer pelatihan AWS untuk head-to-bot balapan.

  2. Pilih Selanjutnya.

Sesuaikan fungsi hadiah Anda

Fungsi penghargaan adalah inti dari pembelajaran penguatan. Belajarlah untuk menggunakannya untuk memberi insentif kepada mobil Anda (agen) untuk mengambil tindakan tertentu saat menjelajahi trek (lingkungan). Seperti mendorong dan mengecilkan perilaku tertentu pada hewan peliharaan, Anda dapat menggunakan alat ini untuk mendorong mobil Anda menyelesaikan pangkuan secepat mungkin dan mencegahnya mengemudi dari trek atau bertabrakan dengan benda.

Untuk menyesuaikan fungsi hadiah Anda
  1. Pada halaman Buat model, di bawah Fungsi penghargaan, gunakan contoh fungsi penghargaan default sebagaimana adanya untuk model pertama Anda.

    Citra: AWS DeepRacer memilih agen pelatihan.

    Nantinya, Anda bisa memilih Contoh fungsi penghargaan untuk memilih fungsi contoh yang lain kemudian pilih Gunakan kode untuk menerima fungsi penghargaan yang dipilih.

    Ada empat contoh fungsi yang dapat Anda gunakan. Mereka menggambarkan cara mengikuti pusat lintasan (default), cara menjaga agen di dalam batas lintasan, cara mencegah mengemudi secara zig-zag, dan bagaimana menghindari menabrak rintangan stasioner atau kendaraan bergerak lainnya.

    Untuk mempelajari selengkapnya tentang fungsi penghargaan, lihat Referensi fungsi DeepRacer penghargaan AWS.

  2. Di bawah Kondisi berhenti, biarkan nilai Waktu maksimum agar default apa adanya, atau tetapkan nilai baru untuk mengakhiri tugas pelatihan, untuk membantu mencegah tugas pelatihan berjalan lama (dan mungkin tidak terkendali).

    Saat bereksperimen pada tahap awal pelatihan, Anda harus memulai dengan nilai kecil untuk parameter ini dan kemudian secara bertahap latih untuk jumlah waktu yang lebih lama.

  3. Di bawah Secara otomatis kirimkan ke AWS DeepRacer, Kirimkan model ini ke AWS DeepRacer secara otomatis setelah pelatihan selesai dan dapatkan kesempatan untuk memenangkan hadiah diperiksa secara default. Secara opsional, Anda dapat memilih untuk tidak memasukkan model Anda dengan memilih tanda centang.

  4. Berdasarkan persyaratan Liga, pilih Negara tempat tinggal Anda dan setujui syarat dan ketentuan dengan mencentang kotak.

  5. Pilih Buat model untuk mulai membuat model dan menyediakan contoh tugas pelatihan.

  6. Setelah pengiriman, perhatikan tugas pelatihan Anda diinisialisasi lalu kemudian jalankan.

    Proses inisialisasi membutuhkan waktu beberapa menit untuk berubah dari Inisialisasi menjadi sedang berlangsung.

  7. Perhatikan Grafik penghargaan dan Aliran video simulasi untuk mengamati kemajuan tugas pelatihan Anda. Anda dapat menekan tombol refresh di sebelah Grafik penghargaan secara berkala untuk menyegarkan Grafik penghargaan sampai tugas pelatihan selesai.

    Citra: DeepRacer Pelatihan AWS sedang berlangsung.

Tugas pelatihan berjalan diAWS Cloud, jadi Anda tidak perlu menjaga DeepRacer konsol AWS terbuka. Anda selalu dapat kembali ke konsol untuk memeriksa model Anda di setiap titik saat tugas sedang berlangsung.

Jika jendela Aliran video simulasi atau Grafik penghargaan menjadi tidak responsif, refresh halaman peramban untuk mendapatkan pembaruan progres pelatihan.