AWS DeepRacer 概念和术语

AWS DeepRacer 基于以下概念构建并使用以下术语。

AWS DeepRacer 服务

AWS DeepRacer 是一项 AWS 机器学习服务，用于探索以自动驾驶赛车为重点的强化学习。AWS DeepRacer 服务支持以下功能：

在云端训练强化学习模型。
在 AWS DeepRacer 控制台中评估训练后的模型
提交训练后的模型用于虚拟比赛，并在符合要求时，将成绩发布到相关活动的排行榜。
克隆经过训练的模型以继续训练从而提高性能。
下载训练后的模型构件，以上传到 AWS DeepRacer 车辆。
将车辆放置在物理赛道上进行自动驾驶，并评估模型的真实性能。
移除不需要的模型，减少不必要的费用。

AWS DeepRacer

“AWS DeepRacer” 可以指三种不同的赛车：

虚拟赛车可以采用原始 AWS DeepRacer 设备、Evo 设备或通过参加 AWS DeepRacer League 虚拟巡回赛获得的各种数字奖励。您还可以通过更改虚拟赛车的颜色对其进行个性化改装。
原始 AWS DeepRacer 设备是一辆比例为 1/18 的实体模型车。它有一台车载摄像机和一个板载计算模块。计算模块运行推理从而沿着轨道行驶。计算模块和车辆底盘由分别称为计算电池和驱动电池的专用电池供电。
AWS DeepRacer Evo 设备是带有可选传感器套件的原始设备。该套件含有一个额外的摄像机和 LIDAR（光线探测和测距），让汽车能够探测自身后方和侧面的物体。该套件还包括一个新外壳。

强化学习

强化学习是一种机器学习方法，此方法专注于由代理进行自主决策，以通过与环境的交互实现指定的目标。在强化学习中，学习是通过反复的试验和错误来实现的，训练不需要带标签的输入。训练依赖于奖励假设，该假设认定通过最大化操作序列后的未来奖励便可实现所有目标。在强化学习中，设计奖励函数至关重要。精心设计的奖励函数可以让代理做出更好的决策。

对于自动驾驶赛车，代理是一个车辆。环境包括行驶路线和交通状况。其目标是使车辆快速到达目的地而不发生事故。使用积分来奖励安全快速地行驶至目的地的行为。对于危险和破坏性的驾驶通过扣分进行惩罚。

要在训练过程中鼓励学习，必须允许学习代理有时执行可能不会产生奖励的操作。这被称为勘探和开发权衡。它有助于减小或消除代理可能误入错误目的地的可能性。

有关更正式的定义，请参阅 Wikipedia 上的强化学习。

强化学习模型

强化学习模型是一种代理操作环境，它建立三个内容：代理拥有的状态、代理可以采取的操作以及通过采取操作获得的奖励。代理用来确定其操作的战略称为策略。策略将环境状态作为输入，并输出要执行的操作。在强化学习中，策略通常由深度神经网络表示。我们将其称为强化学习模型。每个训练作业均会生成一个模型。即使提前停止训练作业，也可以生成模型。模型是不可变的，这意味着它在创建后不能被修改和覆盖。

AWS DeepRacer 模拟器

AWS DeepRacer 模拟器是一个虚拟环境，用于可视化训练和评估 AWS DeepRacer 模型。

AWS DeepRacer 车辆

参见 AWS DeepRacer。

AWS DeepRacer 赛车

这种类型的 AWS DeepRacer 车辆是 1/18 比例的模型车。

排行榜

排行榜是 AWS DeepRacer 车辆在 AWS DeepRacer League 赛车赛事中的性能排名列表。比赛可以是在模拟环境中举行的虚拟活动，或者是在真实环境中举行的实地活动。性能指标取决于比赛类型。它可以是 AWS DeepRacer 用户提交的最短单圈时间、总时间或平均单圈时间，这些用户已经在与给定赛道相同或相似的赛道上评估了他们训练过的模型。

如果一辆赛车连续跑完三圈，那么就有资格进入排行榜。最先完成的连续三圈的平均单圈时间将提交到排行榜。

机器学习框架

机器学习框架是用于构建机器学习算法的软件库。AWS DeepRacer 支持的框架包括 Tensorflow。

策略网络

策略网络是指训练后的神经网络。策略网络采用视频图像作为输入并预测代理的下一个操作。根据此算法，它还可以评估代理的当前状态的值。

优化算法

优化算法是用于训练模型的算法。对于监管训练，该算法使用特殊策略更新权重来最小化损失函数，从而实现优化。对于强化学习，该算法使用特殊奖励函数来最大化预期未来奖励，从而实现优化。

神经网络

神经网络（也称为人工神经网络）是连接的单元或节点的集合，用于构建基于生物系统的信息模型。每个节点称为一个人工神经元，这是对生物神经元的模仿，因为它接收输入（刺激），如果输入信号足够强（激活）则转为活动状态，并生成根据输入和激活预测的输出。它广泛用于机器学习，因为人工神经网络可以作为任何函数的通用近似值。教机器学习变成了为给定输入和输出找到最佳函数近似值。在深度强化学习中，神经网络代表策略，通常被称为策略网络。训练策略网络等同于迭代步骤，在这些步骤中，根据当前策略生成经验，然后利用新生成的经验优化策略网络。该过程一直持续到某些性能指标满足要求的标准为止。

超参数

超参数是控制神经网络训练性能的算法相关变量。超参数的一个示例是学习速率，用于控制在学习的每一部中纳入多少新经验。更高的学习速率产生更快的训练，但是可能会使得训练后的模型质量偏低。超参数是经验性的，需要针对每次训练进行系统化调整。

AWS DeepRacer 赛道

赛道是 AWS DeepRacer 车辆行驶的路径或路线。赛道可以存在于模拟环境中，也可以存在于现实世界的物理环境中。您可以使用模拟环境在虚拟赛道上训练 AWS DeepRacer 模型。AWS DeepRacer 控制台提供虚拟赛道。您可以在真实环境的物理赛道上行驶 AWS DeepRacer 车辆。AWS DeepRacer League 提供物理赛道供参赛者进行比赛。如果您希望在任何其他条件下驾驶 AWS DeepRacer 车辆，就必须修建自己的物理赛道。要详细了解如何修建自己的赛道，请参阅修建物理赛道。

奖励函数

奖励函数是学习模型中的一种算法，告知代理执行的操作是否产生以下结果：

一个应该得到加强的好结果。
一个中立的结果。
一个应劝阻的糟糕结果。

奖励函数是强化学习的关键部分。它通过激励特定操作而不是其他操作来确定代理学习的行为。用户使用 Python 提供奖励函数。优化算法使用此奖励函数来训练强化学习模型。

经验情节

经验情节是一段时间，代理在这段时间中，通过从指定起点开始行驶完成赛道或者偏离赛道，从环境收集经验作为训练数据。不同的情节可以有不同的长度。这也被称为情节或经验生成情节。

经验迭代

经验迭代（也称为经验生成迭代），是每次策略迭代（（执行对策略网络权重的更新））之间一系列连续的经验。在每次经验迭代结束时，收集的情节将添加到经验回放或缓冲中。其大小可以在训练的超参数之一中设置。使用经验的随机样本更新神经网络。

策略迭代

策略迭代（也称为策略更新迭代），是在梯度上升期间任意次遍历随机采样的训练数据，以更新策略神经网络权重。对训练数据的单次遍历以更新权重的过程称为一个纪元。

训练作业

训练作业是一种工作负载，可训练学习强化模型并创建要在其上运行推理的训练后的模型构件。每个训练作业都有两个子流程：

启动代理以遵循当前策略。代理在多个情节中探索环境并创建训练数据。此数据生成本身是一个迭代过程。
应用新的训练数据来计算新的策略梯度。更新网络权重并继续训练。重复步骤 1，直至满足预先说明的停止条件。

每个训练作业会生成一个训练模型，并将模型构件输出到指定的数据存储。

评估作业

评估作业是测试模型性能的工作负载。训练作业完成后，通过给定的指标来衡量性能。标准 AWS DeepRacer 性能指标是代理在赛道上完成一圈所需的行驶时间。另一个指标是完成一圈所占的百分比。

赛车赛事术语

AWS DeepRacer 赛事使用以下概念和术语。

联赛/比赛: 在 AWS DeepRacer League 赛事中，联赛和比赛这两个术语与比赛结构有关。AWS 作为 AWS DeepRacer League 的赞助方，是该赛事的所有者、设计者和运营者。比赛有开始日期和结束日期。
赛季: 比赛可以在随后的几年中重复举行。我们称之为不同的赛季（例如，2019 赛季或 2020 赛季）。规则可能因赛季而改变，但通常在一个赛季内保持一致。不同的赛季可能适用不同的 AWS DeepRacer League 条款和条件。
虚拟巡回赛: 虚拟巡回赛是指 AWS DeepRacer League 赛季期间在 AWS DeepRacer 控制台上由 AWS 赞助的比赛。
赛事: 根据规则定义，赛事是指您可以参加比赛的 AWS DeepRacer League 赛事。赛事有开始日期和结束日期。虚拟巡回赛通常持续一个月。一个赛季中可能有许多赛事，有些规则（例如我们如何对参赛者进行排名、选择谁获胜以及之后的事项）可能会发生变化。
比赛类型: 所有赛车手都可以参加计时赛（TT）、避障赛（OA）或对战赛（H2B）。每种比赛类型都会规定圈数以及赛车手的排名方式。
全国赛季排名: 全国赛季排名是指赛车手在其所在国家与其他赛车手的排行榜排名。所有赛车手都可以在每月的虚拟比赛中与所在国家的其他赛车手竞争。
地区赛季排名: 地区赛季排名是指赛车手在其所在地区与其他赛车手的排行榜排名。
世界锦标赛: AWS DeepRacer League 的虚拟巡回赛月度排行榜按国家和地区划分。每个地区的顶级赛车手将有机会获得参加 AWS re:Invent 世界锦标赛的资格。有关更多信息，请参阅条款和条件。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

探索强化学习

工作原理