Terminologia relativa agli eventi agonistici

DeepRacer Concetti e terminologia di AWS

AWS DeepRacer si basa sui seguenti concetti e utilizza la seguente terminologia.

DeepRacer Servizio AWS

AWS DeepRacer è un servizio AWS Machine Learning per esplorare l'apprendimento per rinforzo incentrato sulle corse autonome. Il DeepRacer servizio AWS supporta le seguenti funzionalità:

Formazione di un modello di apprendimento per rinforzo nel cloud.
Valuta un modello addestrato nella DeepRacer console AWS.
Iscrizione di un modello addestrato a una corsa virtuale e, in caso di qualifica, pubblicazione delle prestazioni nella classifica dell'evento.
Clona un modello addestrato per continuare l'allenamento e migliorare le prestazioni.
Scarica gli artefatti del modello addestrato per il caricamento su un veicolo AWS. DeepRacer
Posizionamento del veicolo su un circuito fisico per la guida autonoma e valutazione del modello per le prestazioni reali.
Rimuovi le spese superflue eliminando modelli che non sono necessari.

AWS DeepRacer

«AWS DeepRacer" può riferirsi a tre diversi veicoli:

L'auto da corsa virtuale può assumere la forma del DeepRacer dispositivo AWS originale, del dispositivo Evo o di vari premi digitali ottenibili partecipando alle gare del Virtual Circuit DeepRacer della AWS League. Puoi anche personalizzare l'auto virtuale cambiandone il colore.
Il DeepRacer dispositivo AWS originale è un modellino fisico di auto in scala 1/18. dotato di una videocamera e un modulo di calcolo integrato. Il modulo di elaborazione esegue l’inferenza per guidare lungo un tracciato. Telaio e modulo di calcolo del veicolo sono alimentati da batterie distinte, rispettivamente di guida e di calcolo.
Il dispositivo AWS DeepRacer Evo è il dispositivo originale con un kit di sensori opzionale. Il kit include una fotocamera aggiuntiva e un LIDAR (light detection and ranging), che consentono all'auto di rilevare oggetti dietro e lateralmente a se stessa. Il kit include anche una nuova scocca.

Apprendimento per rinforzo

L'apprendimento per rinforzo è un metodo di apprendimento automatico incentrato sul processo decisionale autonomo da parte di un agente al fine di raggiungere obiettivi specifici attraverso interazioni con un ambiente. Nell'apprendimento per rinforzo, si procede per tentativi ed errori e la formazione non richiede un input etichettato. L'allenamento si basa sull'ipotesi della ricompensa, secondo la quale tutti gli obiettivi possono essere raggiunti massimizzando una ricompensa futura dopo le sequenze di azioni. Nell'apprendimento per rinforzo, la progettazione della funzione di ricompensa è cruciale. Funzioni di ricompensa meglio elaborate si traducono in decisioni migliori da parte dell'agente.

Nel caso della corsa in autonomia, l'agente è il veicolo. L'ambiente è contraddistinto dai tracciati e dalle condizioni del traffico. L'obiettivo del veicolo è raggiungere la propria destinazione in modo rapido senza incidenti. Come ricompense d'incentivo per un viaggio sicuro e rapido verso la destinazione, vengono assegnati dei punteggi, che possono, inoltre, penalizzare il veicolo in caso di guida pericolosa o inefficace.

Per incoraggiare l’apprendimento durante la formazione, all'agente di apprendimento deve essere consentito talvolta perseguire azioni che non comportano ricompense. Questa pratica, definita di compromesso tra l'esplorazione e l'utilizzo, consente di ridurre al minimo o scongiurare del tutto la possibilità che l'agente si diriga verso destinazioni pretestuose.

Per una maggiore definizione formale, consulta la voce apprendimento per rinforzo su Wikipedia.

Modello di apprendimento per rinforzo

Un modello di apprendimento per rinforzo è un ambiente in cui un agente agisce che stabilisce tre elementi: gli stati in cui si trova l'agente, le azioni che l'agente può intraprendere e i premi che si ottengono agendo. La strategia con cui l'agente decide la propria azione viene definita politica. La policy, in sostanza, definisce l'azione da compiere come output in base allo stato dell'ambiente che rappresenta l’input. Nell'apprendimento per rinforzo, la politica è spesso rappresentata da una rete neurale profonda. Ci riferiamo a questo come al modello di apprendimento per rinforzo. Ogni processo di formazione genera un modello. Può verificarsi la generazione di un modello anche in caso di conclusione anticipata del processo di formazione. Un modello è immutabile: dopo la creazione, infatti, non può essere modificato né sovrascritto.

DeepRacer Simulatore AWS

Il DeepRacer simulatore AWS è un ambiente virtuale per visualizzare la formazione e la valutazione dei modelli AWS. DeepRacer

DeepRacer Veicolo AWS

Vedi AWS DeepRacer.

DeepRacer Automobile AWS

Questo tipo di DeepRacer veicolo AWS è un modellino di auto in scala 1/18.

Classifica

Una classifica è una classifica delle prestazioni dei DeepRacer veicoli AWS in un evento di corse della AWS DeepRacer League. La gara può essere un evento virtuale che si svolge in un ambiente simulato o un evento fisico che si svolge nel mondo reale. La metrica delle prestazioni dipende dal tipo di gara. Può essere il tempo sul giro più veloce, il tempo totale o il tempo medio sul giro inviato dagli DeepRacer utenti AWS che hanno valutato i propri modelli allenati su una pista identica o simile a quella della gara.

Se un veicolo completa tre giri consecutivamente, allora è idoneo per entrare nella classifica. La media dei tempi su giro dei primi tre giri consecutivi viene inviata alla classifica.

Framework di apprendimento automatico

I framework di apprendimento automatico sono le librerie software utilizzate per creare algoritmi di apprendimento automatico. I framework supportati per AWS DeepRacer includono Tensorflow.

Rete di policy

La rete di policy corrisponde alla rete neurale addestrata. La rete di policy esamina le immagini video come input e prevede le azioni che andrà a compiere l'agente. A seconda dell'algoritmo, potrebbe anche stimare il valore dello stato corrente dell’agente.

Algoritmo di ottimizzazione

Quello di ottimizzazione è l'algoritmo utilizzato per addestrare un modello. Nel caso dell'addestramento supervisionato, l’algoritmo viene ottimizzato riducendo al minimo la funzione di perdita con una particolare strategia di aggiornamento delle ponderazioni. Nell'apprendimento per rinforzo, l'ottimizzazione viene garantita massimizzando le ricompense attese con una peculiare funzione di ricompensa.

Rete neurale

Una rete neurale (nota anche come rete neurale artificiale) è una raccolta di unità o nodi connessi utilizzati per creare un modello di informazioni basato su sistemi biologici. Ogni nodo è chiamato neurone artificiale e imita un neurone biologico in quanto riceve un input (stimolo), si attiva se il segnale di ingresso è sufficientemente forte (attivazione) e produce un output basato sull'input e sull'attivazione. È ampiamente utilizzato nel machine learning, poiché una rete neurale artificiale può rappresentare genericamente qualsiasi funzione. Insegnare alle macchine ad apprendere significa trovare l'approssimazione ottimale delle funzioni per un dato input e output. Nell'apprendimento profondo per rinforzo, la rete neurale rappresenta la policy e spesso è definita rete di policy. Formare la rete politica equivale a ripetere diverse fasi che prevedono la generazione di esperienze basate sulla politica attuale, seguita dall'ottimizzazione della rete politica con le nuove esperienze generate. Il processo continua finché alcuni parametri prestazionali non soddisfano i criteri richiesti.

Iperparametri

Gli iperparametri sono variabili dipendenti dall'algoritmo che controllano le prestazioni dell'addestramento della rete neurale. Un esempio di iperparametro è il tasso di apprendimento che controlla quante nuove esperienze vengono conteggiate nell'apprendimento in ogni fase. Un tasso di apprendimento più elevato si traduce in una formazione più rapida, ma può compromettere la qualità del modello formato. Gli iperparametri sono di per sé empirici e richiedono un affinamento sistematico per ogni addestramento.

DeepRacer Traccia AWS

Un tracciato è un percorso o un percorso su cui percorre un DeepRacer veicolo AWS. La pista può esistere in un ambiente simulato o in un ambiente fisico reale. Utilizzi un ambiente simulato per addestrare un DeepRacer modello AWS su un percorso virtuale. La DeepRacer console AWS rende disponibili tracce virtuali. Utilizzi un ambiente reale per far funzionare un DeepRacer veicolo AWS su una pista fisica. L'AWS DeepRacer League fornisce piste fisiche per consentire ai partecipanti all'evento di competere. Devi creare la tua traccia fisica se desideri utilizzare il tuo DeepRacer veicolo AWS in qualsiasi altra situazione. Per saperne di più su come creare la tua pista, consulta Build Your Physical Track.

Funzione di ricompensa

Una funzione di ricompensa è un algoritmo all'interno di un modello di apprendimento che indica all'agente se l'azione eseguita ha prodotto:

Un risultato positivo da rafforzare.
Un risultato neutrale.
Un risultato negativo da scoraggiare.

La funzione di ricompensa rappresenta un aspetto chiave dell’apprendimento per rinforzo. Determina il comportamento appreso dall'agente, incentivando delle azioni specifiche a discapito di altre. L'utente fornisce la funzione di ricompensa utilizzando Python. Questa funzione di ricompensa viene utilizzata da un algoritmo di ottimizzazione per addestrare il modello di apprendimento di rinforzo.

Episodio di esperienza

Un episodio di esperienza è un periodo in cui l'agente raccoglie esperienze sotto forma di dati di allenamento dall'ambiente correndo da un determinato punto di partenza fino al completamento del percorso o all'uscita dalla pista. Episodi diversi possono avere lunghezze differenti. Questo periodo viene anche definito episodio o episodio che genera esperienza.

Iterazione dell'esperienza

L'iterazione dell'esperienza (nota anche come iterazione generatrice di esperienza) è un insieme di esperienze consecutive tra ogni iterazione delle politiche che esegue aggiornamenti dei pesi della rete delle politiche. Al termine di ogni iterazione delle esperienze, gli episodi raccolti vengono aggiunti a una riproduzione o buffer delle esperienze. La dimensione può essere impostata in uno degli iperparametri per l'allenamento. La rete neurale viene aggiornata utilizzando gli esempi casuali delle esperienze.

Iterazione della policy

L'iterazione delle politiche (nota anche come iterazione di aggiornamento delle politiche) è un numero qualsiasi di passaggi attraverso i dati di addestramento campionati casualmente per aggiornare i pesi della rete neurale delle politiche durante l'ascesa del gradiente. Un singolo passaggio attraverso i dati di allenamento per aggiornare i pesi è noto anche come epoca.

Processo di formazione

Un processo di formazione è un carico di lavoro che addestra un modello di apprendimento per rinforzo e crea artefatti di modelli addestrati su cui eseguire l'inferenza. Ogni processo di formazione dispone di due sottoprocessi:

Avvia l'agente per seguire la policy attuale. L'agente analizza l'ambiente in un numero di episodi e crea i dati di formazione. La generazione dei dati è un processo iterativo in sé.
Applicare i nuovi dati di formazione per elaborare nuove sfumature della policy. Aggiorna i pesi della rete e continua con i corsi di formazione. Ripetere la Fase 1 fino a una condizione di arresto.

Ogni processo di formazione produce un modello addestrato e ne genera gli artefatti in un data store specificato.

Processo di valutazione

Un lavoro di valutazione è un carico di lavoro che verifica le prestazioni di un modello. Le prestazioni sono misurate con i parametri specifici dopo il termine del processo di formazione. La metrica DeepRacer prestazionale standard di AWS è il tempo impiegato da un agente per completare un giro su una pista. Un altro parametro è la percentuale del giro completato.

Terminologia relativa agli eventi agonistici

Gli eventi di DeepRacer gara AWS utilizzano i seguenti concetti e terminologia.

Campionato/Concorso: Nel contesto degli eventi della AWS DeepRacer League, i termini campionato e competizione si riferiscono alla struttura della competizione. AWS sponsorizza l'AWS DeepRacer League, il che significa che la possediamo, la progettiamo e la gestiamo. Un concorso ha una data di inizio e di fine.
Stagione: Un concorso può ripetersi negli anni successivi. Chiamiamo queste diverse stagioni, ad esempio, stagione 2019 o stagione 2020. Le regole possono cambiare da stagione a stagione, ma in genere sono coerenti all'interno di una stagione. I termini e le condizioni dell'AWS DeepRacer League possono variare da stagione a stagione.
Il circuito virtuale: Il Circuito virtuale si riferisce alle gare sponsorizzate che si AWS svolgono nella DeepRacer console AWS durante la stagione della AWS DeepRacer League.
Evento: Come definito dalle regole, un evento è un evento DeepRacer della AWS League a cui puoi partecipare a una gara. Un evento ha una data di inizio e di fine. Gli eventi del Virtual Circuit durano in genere un mese. In una stagione possono esserci molti eventi e alcune regole, come la classificazione dei partecipanti a un evento, la selezione dei vincitori e cosa succede dopo, sono soggette a modifiche.
Tipo di gara: Tutti i piloti possono partecipare a gare a cronometro (TT), a evitamento di oggetti (OA) o (H2B). head-to-bot Ogni tipo di gara specificherà il numero di giri e la posizione dei piloti.
Classifica della stagione nazionale: La classifica stagionale nazionale si riferisce alla classifica di un pilota tra gli altri piloti del proprio paese. Tutti i piloti possono competere contro altri piloti del proprio paese in gare virtuali mensili.
Classifica della stagione regionale: Una classifica stagionale regionale si riferisce alla classifica di un pilota tra gli altri piloti della sua regione.
Campionato del mondo: La classifica mensile del Virtual Circuit di AWS DeepRacer League è divisa per nazione e regione. Il miglior pilota di ogni regione avrà l'opportunità di qualificarsi per i Campionati del mondo di re:Invent. AWS Per ulteriori informazioni, consulta i termini e le condizioni.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esplora l'apprendimento per rinforzo

Come funziona