Esempio 1: segui la linea centrale nelle prove a cronometro Esempio 2: rimani all'interno dei due confini nelle prove a cronometro Esempio 3: evita lo zig-zag nelle prove a cronometro Esempio 4: Rimanete su una corsia senza schiantarvi contro ostacoli fissi o veicoli in movimento

Esempi di funzioni di DeepRacer ricompensa AWS

Di seguito sono elencati alcuni esempi della funzione di DeepRacer ricompensa di AWS.

Argomenti

Esempio 1: segui la linea centrale nelle prove a cronometro
Esempio 2: rimani all'interno dei due confini nelle prove a cronometro
Esempio 3: evita lo zig-zag nelle prove a cronometro
Esempio 4: Rimanete su una corsia senza schiantarvi contro ostacoli fissi o veicoli in movimento

Esempio 1: segui la linea centrale nelle prove a cronometro

Questo esempio determina la distanza dell'agente dalla linea centrale e offre una ricompensa maggiore se l'agente è più vicino al centro della pista, incoraggiandolo a seguire il più possibile la linea centrale.


def reward_function(params):
    '''
    Example of rewarding the agent to follow center line
    '''
    
    # Read input parameters
    track_width = params['track_width']
    distance_from_center = params['distance_from_center']

    # Calculate 3 markers that are increasingly further away from the center line
    marker_1 = 0.1 * track_width
    marker_2 = 0.25 * track_width
    marker_3 = 0.5 * track_width

    # Give higher reward if the car is closer to center line and vice versa
    if distance_from_center <= marker_1:
        reward = 1
    elif distance_from_center <= marker_2:
        reward = 0.5
    elif distance_from_center <= marker_3:
        reward = 0.1
    else:
        reward = 1e-3  # likely crashed/ close to off track

    return reward

Esempio 2: rimani all'interno dei due confini nelle prove a cronometro

Questo esempio offre semplicemente ricompense elevate se l'agente rimane entro i confini e consente all'agente di individuare la strada migliore per finire un giro. È facile da programmare e comprendere, ma probabilmente richiede più tempo per convergere.


def reward_function(params):
    '''
    Example of rewarding the agent to stay inside the two borders of the track
    '''
    
    # Read input parameters
    all_wheels_on_track = params['all_wheels_on_track']
    distance_from_center = params['distance_from_center']
    track_width = params['track_width']
    
    # Give a very low reward by default
    reward = 1e-3

    # Give a high reward if no wheels go off the track and 
    # the car is somewhere in between the track borders 
    if all_wheels_on_track and (0.5*track_width - distance_from_center) >= 0.05:
        reward = 1.0

    # Always return a float value
    return reward

Esempio 3: evita lo zig-zag nelle prove a cronometro

Questo esempio incentiva l'agente a seguire la linea centrale, ma penalizza con una ricompensa inferiore se sterza troppo, il che aiuta a prevenire il movimento a zig-zag. L'agente impara a guidare senza problemi nel simulatore e probabilmente mantiene lo stesso comportamento quando viene impiegato sul veicolo fisico.


def reward_function(params):
    '''
    Example of penalize steering, which helps mitigate zig-zag behaviors
    '''
    
    # Read input parameters
    distance_from_center = params['distance_from_center']
    track_width = params['track_width']
    abs_steering = abs(params['steering_angle']) # Only need the absolute steering angle

    # Calculate 3 marks that are farther and father away from the center line
    marker_1 = 0.1 * track_width
    marker_2 = 0.25 * track_width
    marker_3 = 0.5 * track_width

    # Give higher reward if the car is closer to center line and vice versa
    if distance_from_center <= marker_1:
        reward = 1.0
    elif distance_from_center <= marker_2:
        reward = 0.5
    elif distance_from_center <= marker_3:
        reward = 0.1
    else:
        reward = 1e-3  # likely crashed/ close to off track

    # Steering penality threshold, change the number based on your action space setting
    ABS_STEERING_THRESHOLD = 15 

    # Penalize reward if the car is steering too much
    if abs_steering > ABS_STEERING_THRESHOLD:
        reward *= 0.8

    return float(reward)

Esempio 4: Rimanete su una corsia senza schiantarvi contro ostacoli fissi o veicoli in movimento

Questa funzione di ricompensa premia l'agente che rimane all'interno dei confini della pista e penalizza l'agente se si avvicina troppo agli oggetti che lo precedono. L'agente può spostarsi da una corsia all'altra per evitare collisioni. La ricompensa totale è una somma ponderata della ricompensa e delle penalità. L'esempio dà più peso alla penalità nel tentativo di evitare incidenti. Sperimenta con pesi medi diversi per allenarti a risultati comportamentali diversi.


import math
def reward_function(params):
    '''
    Example of rewarding the agent to stay inside two borders
    and penalizing getting too close to the objects in front
    '''
    all_wheels_on_track = params['all_wheels_on_track']
    distance_from_center = params['distance_from_center']
    track_width = params['track_width']
    objects_location = params['objects_location']
    agent_x = params['x']
    agent_y = params['y']
    _, next_object_index = params['closest_objects']
    objects_left_of_center = params['objects_left_of_center']
    is_left_of_center = params['is_left_of_center']
    # Initialize reward with a small number but not zero
    # because zero means off-track or crashed
    reward = 1e-3
    # Reward if the agent stays inside the two borders of the track
    if all_wheels_on_track and (0.5 * track_width - distance_from_center) >= 0.05:
        reward_lane = 1.0
    else:
        reward_lane = 1e-3
    # Penalize if the agent is too close to the next object
    reward_avoid = 1.0
    # Distance to the next object
    next_object_loc = objects_location[next_object_index]
    distance_closest_object = math.sqrt((agent_x - next_object_loc[0])**2 + (agent_y - next_object_loc[1])**2)
    # Decide if the agent and the next object is on the same lane
    is_same_lane = objects_left_of_center[next_object_index] == is_left_of_center
    if is_same_lane:
        if 0.5 <= distance_closest_object < 0.8:
            reward_avoid *= 0.5
        elif 0.3 <= distance_closest_object < 0.5:
            reward_avoid *= 0.2
        elif distance_closest_object < 0.3:
            reward_avoid = 1e-3  # Likely crashed
    # Calculate reward by putting different weights on
    # the two aspects above
    reward += 1.0 * reward_lane + 4.0 * reward_avoid
    return reward

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Parametri di input della funzione Reward