DeepRacerConcetti e terminologia di AWS - AWS DeepRacer

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

DeepRacerConcetti e terminologia di AWS

AWS DeepRacer si basa sui seguenti concetti e utilizza la seguente terminologia.

DeepRacerservizio AWS

AWS DeepRacer è un servizio di AWS Machine Learning per esplorare l'apprendimento per rinforzo incentrato sulle corse autonome. Il DeepRacer servizio AWS supporta le seguenti funzionalità:

  1. Formazione di un modello di apprendimento per rinforzo nel cloud.

  2. Valuta un modello addestrato nella DeepRacer console AWS.

  3. Iscrizione di un modello addestrato a una corsa virtuale e, in caso di qualifica, pubblicazione delle prestazioni nella classifica dell'evento.

  4. Clona un modello addestrato per continuare l'allenamento e migliorare le prestazioni.

  5. Scarica gli artefatti del modello addestrato per il caricamento su un veicolo AWS. DeepRacer

  6. Posizionamento del veicolo su un circuito fisico per la guida autonoma e valutazione del modello per le prestazioni reali.

  7. Rimuovi le spese superflue eliminando modelli che non sono necessari.

DeepRacer AWS

«AWSDeepRacer" può riferirsi a tre diversi veicoli:

  • L'auto da corsa virtuale può assumere la forma del DeepRacer dispositivo AWS originale, del dispositivo Evo o di vari premi digitali che possono essere guadagnati partecipando alle gare del circuito virtuale di AWS DeepRacer League. Puoi anche personalizzare l'auto virtuale cambiandone il colore.

  • Il DeepRacer dispositivo AWS originale è un modellino fisico di auto in scala 1/18. dotato di una videocamera e un modulo di calcolo integrato. Il modulo di elaborazione esegue l’inferenza per guidare lungo un tracciato. Telaio e modulo di calcolo del veicolo sono alimentati da batterie distinte, rispettivamente di guida e di calcolo.

  • Il dispositivo AWS DeepRacer Evo è il dispositivo originale con un kit di sensori opzionale. Il kit include una telecamera aggiuntiva e un LIDAR (light detection and range), che consentono all'auto di rilevare oggetti dietro e lateralmente a se stessa. Il kit include anche una nuova scocca.

Apprendimento per rinforzo

L'apprendimento per rinforzo è un metodo di apprendimento automatico incentrato sul processo decisionale autonomo da parte di un agente al fine di raggiungere obiettivi specifici attraverso le interazioni con un ambiente. Nell'apprendimento per rinforzo, si procede per tentativi ed errori e la formazione non richiede un input etichettato. L'allenamento si basa sull'ipotesi della ricompensa, che postula che tutti gli obiettivi possono essere raggiunti massimizzando una sequenza futura di ricompensa dopo azione. Nell'apprendimento per rinforzo, la progettazione della funzione di ricompensa è cruciale. Funzioni di ricompensa meglio realizzate portano a decisioni migliori da parte dell'agente.

Nel caso della corsa in autonomia, l'agente è il veicolo. L'ambiente è contraddistinto dai tracciati e dalle condizioni del traffico. L'obiettivo del veicolo è raggiungere la propria destinazione in modo rapido senza incidenti. Come ricompense d'incentivo per un viaggio sicuro e rapido verso la destinazione, vengono assegnati dei punteggi, che possono, inoltre, penalizzare il veicolo in caso di guida pericolosa o inefficace.

Per incoraggiare l’apprendimento durante la formazione, all'agente di apprendimento deve essere consentito talvolta perseguire azioni che non comportano ricompense. Questa pratica, definita di compromesso tra l'esplorazione e l'utilizzo, consente di ridurre al minimo o scongiurare del tutto la possibilità che l'agente si diriga verso destinazioni pretestuose.

Per una maggiore definizione formale, consulta la voce apprendimento per rinforzo su Wikipedia.

Modello di apprendimento per rinforzo

Un modello di apprendimento per rinforzo è un ambiente in cui agisce un agente che stabilisce tre cose: gli stati che l'agente ha, le azioni che l'agente può intraprendere e le ricompense che si ricevono agendo. La strategia con cui l'agente decide la propria azione viene definita politica. La policy, in sostanza, definisce l'azione da compiere come output in base allo stato dell'ambiente che rappresenta l’input. Nell'apprendimento per rinforzo, la politica è spesso rappresentata da una rete neurale profonda. Ci riferiamo a questo come al modello di apprendimento per rinforzo. Ogni processo di formazione genera un modello. Può verificarsi la generazione di un modello anche in caso di conclusione anticipata del processo di formazione. Un modello è immutabile: dopo la creazione, infatti, non può essere modificato né sovrascritto.

DeepRacerSimulatore AWS

Il DeepRacer simulatore AWS è un ambiente virtuale per la visualizzazione della formazione e la valutazione dei modelli AWS. DeepRacer

DeepRacerVeicolo AWS

Vedi AWS DeepRacer.

DeepRacerAuto AWS

Questo tipo di DeepRacerveicolo AWS è un modellino di auto in scala 1/18.

Classifica

Una classifica è una classifica delle prestazioni dei DeepRacer veicoli AWS in un evento di gara della AWS DeepRacer League. La gara può essere un evento virtuale che si svolge in un ambiente simulato o un evento fisico che si svolge nel mondo reale. La metrica delle prestazioni dipende dal tipo di gara. Può trattarsi del tempo sul giro più veloce, del tempo totale o del tempo medio sul giro inserito DeepRacer dagli utenti AWS che hanno valutato i loro modelli addestrati su una pista identica o simile a quella della gara.

Se un veicolo completa tre giri consecutivamente, allora è idoneo per entrare nella classifica. La media dei tempi su giro dei primi tre giri consecutivi viene inviata alla classifica.

Framework di apprendimento automatico

I framework di machine learning sono le librerie software utilizzate per creare algoritmi di machine learning. I framework supportati per AWS DeepRacer includono Tensorflow.

Rete di policy

La rete di policy corrisponde alla rete neurale addestrata. La rete di policy esamina le immagini video come input e prevede le azioni che andrà a compiere l'agente. A seconda dell'algoritmo, potrebbe anche stimare il valore dello stato corrente dell’agente.

Algoritmo di ottimizzazione

Quello di ottimizzazione è l'algoritmo utilizzato per addestrare un modello. Nel caso dell'addestramento supervisionato, l’algoritmo viene ottimizzato riducendo al minimo la funzione di perdita con una particolare strategia di aggiornamento delle ponderazioni. Nell'apprendimento per rinforzo, l'ottimizzazione viene garantita massimizzando le ricompense attese con una peculiare funzione di ricompensa.

Rete neurale

Una rete neurale (nota anche come rete neurale artificiale) è un insieme di unità o nodi connessi che vengono utilizzati per costruire un modello informativo basato su sistemi biologici. Ogni nodo è chiamato neurone artificiale e imita un neurone biologico in quanto riceve un input (stimolo), si attiva se il segnale di ingresso è sufficientemente forte (attivazione) e produce un output basato sull'input e sull'attivazione. È ampiamente utilizzato nel machine learning, poiché una rete neurale artificiale può rappresentare genericamente qualsiasi funzione. Insegnare alle macchine ad apprendere significa trovare l'approssimazione ottimale della funzione per un dato input e output. Nell'apprendimento profondo per rinforzo, la rete neurale rappresenta la policy e spesso è definita rete di policy. La formazione della rete politica equivale a ripetere passaggi che implicano la generazione di esperienze basate sulla politica attuale, seguita dall'ottimizzazione della rete di politiche con le nuove esperienze generate. Il processo continua finché alcuni parametri prestazionali non soddisfano i criteri richiesti.

Iperparametri

Gli iperparametri sono variabili dipendenti dall'algoritmo che controllano le prestazioni dell'addestramento delle reti neurali. Un esempio di iperparametro è il tasso di apprendimento che controlla quante nuove esperienze vengono conteggiate nell'apprendimento in ogni fase. Un tasso di apprendimento maggiore comporta una formazione più rapida, ma può ridurre la qualità del modello addestrato. Gli iperparametri sono di per sé empirici e richiedono un affinamento sistematico per ogni addestramento.

DeepRacerPercorso AWS

Una pista è un percorso o un percorso su cui viaggia un DeepRacer veicolo AWS. La pista può esistere in un ambiente simulato o in un ambiente fisico reale. Utilizzi un ambiente simulato per addestrare un DeepRacer modello AWS su una pista virtuale. La DeepRacer console AWS rende disponibili tracce virtuali. Utilizzi un ambiente reale per far funzionare un DeepRacer veicolo AWS su una pista fisica. L'AWS DeepRacer League offre percorsi fisici per consentire ai partecipanti all'evento di competere. Devi creare la tua pista fisica se desideri far funzionare il tuo DeepRacer veicolo AWS in qualsiasi altra situazione. Per saperne di più su come costruire la tua pista, vedi Costruisci la tua pista fisica.

Funzione di ricompensa

Una funzione di ricompensa è un algoritmo all'interno di un modello di apprendimento che indica all'agente se l'azione eseguita ha prodotto:

  • Un risultato positivo da rafforzare.

  • Un risultato neutrale.

  • Un risultato negativo da scoraggiare.

La funzione di ricompensa rappresenta un aspetto chiave dell’apprendimento per rinforzo. Determina il comportamento appreso dall'agente, incentivando delle azioni specifiche a discapito di altre. L'utente fornisce la funzione di ricompensa utilizzando Python. Questa funzione di ricompensa viene utilizzata da un algoritmo di ottimizzazione per addestrare il modello di apprendimento di rinforzo.

Episodio di esperienza

Un episodio di esperienza è un periodo in cui l'agente raccoglie esperienze come dati di allenamento dall'ambiente correndo da un determinato punto di partenza fino al completamento del percorso o all'uscita di pista. Episodi diversi possono avere lunghezze differenti. Questo viene anche definito episodio o episodio che genera esperienza.

Iterazione dell'esperienza

L'iterazione dell'esperienza (nota anche come iterazione generatrice di esperienza) è un insieme di esperienze consecutive tra ogni iterazione delle policy che esegue gli aggiornamenti dei pesi della rete di policy. Al termine di ogni iterazione delle esperienze, gli episodi raccolti vengono aggiunti a una riproduzione o buffer delle esperienze. La dimensione può essere impostata in uno degli iperparametri per l'allenamento. La rete neurale viene aggiornata utilizzando gli esempi casuali delle esperienze.

Iterazione della policy

L'iterazione delle politiche (nota anche come iterazione di aggiornamento delle politiche) è un numero qualsiasi di passaggi attraverso i dati di addestramento campionati casualmente per aggiornare i pesi della rete neurale politica durante l'ascesa del gradiente. Un singolo passaggio attraverso i dati di allenamento per aggiornare i pesi è anche noto come epoca.

Processo di formazione

Un lavoro di formazione è un carico di lavoro che addestra un modello di apprendimento per rinforzo e crea artefatti di modelli addestrati su cui eseguire l'inferenza. Ogni processo di formazione dispone di due sottoprocessi:

  1. Avvia l'agente per seguire la policy attuale. L'agente analizza l'ambiente in un numero di episodi e crea i dati di formazione. La generazione dei dati è un processo iterativo in sé.

  2. Applicare i nuovi dati di formazione per elaborare nuove sfumature della policy. Aggiorna i pesi della rete e continua con i corsi di formazione. Ripetere la Fase 1 fino a una condizione di arresto.

Ogni processo di formazione produce un modello addestrato e ne genera gli artefatti in un data store specificato.

Processo di valutazione

Un lavoro di valutazione è un carico di lavoro che verifica le prestazioni di un modello. Le prestazioni sono misurate con i parametri specifici dopo il termine del processo di formazione. La metrica standard DeepRacer delle prestazioni di AWS è il tempo di guida impiegato da un agente per completare un giro su una pista. Un altro parametro è la percentuale del giro completato.

Terminologia degli eventi agonistici

Gli eventi di DeepRacer corse di AWS utilizzano i concetti e la terminologia seguenti.

Campionato/Concorso

Nel contesto degli eventi della AWS DeepRacer League, i termini campionato e competizione si riferiscono alla struttura della competizione. AWSsponsorizza l'AWS DeepRacer League, il che significa che la possediamo, la progettiamo e la gestiamo. Un concorso ha una data di inizio e di fine.

Stagione

Un concorso può ripetersi negli anni successivi. Chiamiamo queste diverse stagioni, ad esempio, stagione 2019 o stagione 2020. Le regole possono cambiare da stagione a stagione, ma in genere sono coerenti all'interno di una stagione. I termini e le condizioni della AWS DeepRacer League possono variare da stagione a stagione.

Il circuito virtuale

Il Virtual Circuit si riferisce alle gare sponsorizzate AWS dalla DeepRacer console AWS durante la stagione della AWS DeepRacer League.

Evento

Come definito dalle regole, un evento è un evento DeepRacer della AWS League a cui puoi partecipare a una gara. Un evento ha una data di inizio e di fine. Gli eventi del circuito virtuale in genere durano un mese. Ci possono essere molti eventi in una stagione e alcune regole, come la classifica dei partecipanti a un evento, la selezione dei vincitori e cosa succede dopo, sono soggette a modifiche.

Tipo di gara

Tutti i piloti possono partecipare a gare a cronometro (TT), a evitare oggetti (OA) o head-to-bot (H2B). Ogni tipo di gara specificherà il numero di giri e la classifica dei piloti.

Classifica della stagione nazionale

La classifica di una stagione nazionale si riferisce alla classifica di un pilota tra gli altri piloti del proprio paese. Tutti i piloti possono competere contro altri piloti del proprio paese in gare virtuali mensili.

Classifica della stagione regionale

Una classifica stagionale regionale si riferisce alla classifica di un pilota tra gli altri piloti della sua regione.

Campionato del mondo

La classifica mensile del Circuito virtuale dell'AWS DeepRacer League è suddivisa per nazione e regione. I migliori piloti di ogni regione avranno l'opportunità di qualificarsi per i Campionati del Mondo a re:Invent. AWS Per ulteriori informazioni, consulta i termini e le condizioni.