AWS DeepRacer 概念和术语
AWS DeepRacer 概念和术语
AWS DeepRacer 建立在以下概念的基础上,并使用以下术语。
AWS DeepRacer 服务
AWS DeepRacer 是一项 AWS Machine Learning(亚马逊云机器学习) 服务,用于探索以自动驾驶赛车为重点的强化学习。AWS DeepRacer 服务支持以下功能:
- 在云端训练强化学习模型。
- 在 AWS DeepRacer 控制台中评估经过训练的模型。
- 提交训练后的模型用于模拟比赛,并在符合要求时,将成绩发布到相关活动的排行榜。
- 克隆经过训练的模型以继续训练以提高性能。
- 下载经过训练的模型工件以上传到 AWS DeepRacer 车辆。
- 将车辆置于物理轨道上进行自动驾驶,并评估模型的实际性能。
- 通过删除不需要的模型来消除不必要的费用。(对的除了初始的免费套餐,要继续想用亚马逊的机器学习服务,还得付费,不过根据使用时间收费,很合理)
AWS DeepRacer
“AWS DeepRacer” 可以指三种不同的车辆:
- 虚拟赛车可以采用原始 AWS DeepRacer 设备、Evo 设备或通过参加 AWS DeepRacer
联赛虚拟巡回赛获得的各种数字奖励的形式。您还可以对虚拟汽车进行更改。 - 最初的 AWS DeepRacer 设备是 1/18
比例的物理模型汽车。它有一台车载摄像机和一个板载计算模块。计算模块运行推理是为了自己沿着轨道行驶。计算模块和车辆底盘由分别称为计算电池和驱动电池的专用电池供电。 - AWS DeepRacer Evo
设备是带有可选传感器套件的原始设备。该套件包括一个额外的摄像头和激光雷达(光探测和测距),允许汽车检测自身后方和侧面的物体。该套件还包括一个新外壳。
强化学习
强化学习是一种机器学习方法,它侧重于代理的自主决策,以便通过与环境的交互来实现特定目标。在强化学习中,学习是通过反复试验实现的,训练不需要带标签的输入。训练依赖于奖励假设,该假设认为所有目标都可以通过在动作序列之后最大限度地提高未来的奖励来实现。在强化学习中,设计奖励函数很重要。精心设计的奖励功能可以让代理做出更好的决策。
对于自动驾驶赛车,代理是一个车辆。环境包括行驶路线和交通状况。目标是让车辆快速到达目的地而不会发生事故。使用积分来奖励安全快速地行驶至目的地的行为。对于危险和破坏性的驾驶通过扣分进行惩罚。
为了鼓励在培训期间学习,必须允许学习主体有时采取可能不会带来回报的行动。这被称为勘探和开采权衡。它有助于减少或消除代理人可能被误导到虚假目的地的可能性。
有关更多信息,请参阅 Wikipedia 上更正式的强化学习定义。
强化学习模型
强化学习模型是代理在其中发挥作用的环境,它建立了三件事:代理拥有的状态、代理可以采取的行动以及通过采取行动获得的奖励。代理决定其行动的策略被称为策略。该策略将环境状态作为输入并输出要采取的操作。在强化学习中,策略通常由深度神经网络表示。我们将其称为强化学习模型。每个训练作业均会生成一个模型。即使训练作业提前停止,也可以生成模型。模型是不可变的,这意味着它在创建后不能被修改和覆盖。
AWS DeepRacer 模拟器
AWS DeepRacer 模拟器是基于 AWS 构建的虚拟环境, RoboMaker 用于可视化培训和评估 AWS DeepRacer 模型。
AWS DeepRacer 车辆
请参阅 AWS DeepRacer。
AWS DeepRacer 汽车
这种类型的 AWS DeepRacer 车辆是 1/18 比例的模型车。
排行榜
排行榜是 AWS DeepRacer 车辆在 AWS DeepRacer 联赛赛事中的表现排名列表。比赛可以是在模拟环境中进行的虚拟赛事,也可以在现实环境中进行的物理赛事。绩效指标取决于比赛类型。它可以是 AWS DeepRacer 用户提交的最快单圈时间、总时间或平均单圈时间,这些用户在与给定赛道相同或相似的赛道上评估了自己的训练模型。
如果一辆车连续完成三圈,则有资格在排行榜上名列前茅。最先完成的连续三圈的平均单圈时间将提交到排行榜。
机器学习框架
机器学习框架是用于构建机器学习算法的软件库。AWS 支持的框架 DeepRacer 包括 Tensorflow。
策略网络
策略网络是指训练后的神经网络。策略网络将视频图像作为输入,并预测代理的下一步行动。根据此算法,它还可以评估代理的当前状态的值。
优化算法
优化算法是用于训练模型的算法。对于监督训练,通过使用更新权重的特定策略最小化损失函数来优化算法。对于强化学习,通过使用特定的奖励函数最大化预期的future 奖励来优化算法。
神经网络
神经网络(也称为人工神经网络)是一组连接的单元或节点,用于建立基于生物系统的信息模型。每个节点都被称为人工神经元,它模仿生物神经元,因为它接收输入(刺激),如果输入信号足够强(激活)就会被激活,并产生基于输入和激活的输出。它被广泛用于机器学习,因为人工神经网络可以用作任何函数的通用近似值。教机器学习变为为为给定输入和输出找到最佳函数近似值。在深度强化学习中,神经网络代表策略,通常被称为策略网络。培训政策网络等于反复执行步骤,这些步骤涉及根据现行政策生成经验,然后利用新产生的经验优化政策网络。该过程将继续,直到某些性能指标符合要求的标准。
超参数
超参数是控制神经网络训练性能的算法相关变量。一个示例超参数是学习率,它控制在每一步学习中计入多少新体验。学习率越高,训练速度越快,但可能会使训练后的模型质量降低。超参数是经验性的,需要对每次训练进行系统调整。
AWS DeepRacer 追踪
轨道是 AWS DeepRacer 车辆行驶的路径或路线。轨道可以存在于模拟环境中,也可以存在于现实世界的物理环境中。您可以使用模拟环境在虚拟赛道上训练 AWS DeepRacer 模型。AWS DeepRacer 控制台提供虚拟轨道。您使用真实环境在物理赛道上运行 AWS DeepRacer 车辆。AWS Le DeepRacer ague 为赛事参与者提供物理赛道供他们竞争。如果您想在任何其他情况下运行 AWS DeepRacer 车辆,则必须创建自己的物理赛道。要详细了解如何创建自己的赛道,请参阅建立您的物理赛道。
奖励函数
奖励函数是学习模型中的一种算法,它告诉代理执行的操作是否导致:
- 一个应该得到加强的好结果。
- 中立结果。
- 一个应劝阻的糟糕结果。
奖励功能是强化学习的关键部分。它通过激励特定行为而不是其他行为来决定代理人学习的行为。用户使用 Python 提供奖励功能。优化算法使用此奖励函数来训练强化学习模型。
经验情节
体验事件是指代理从给定起点跑到完成赛道或离开赛道,从环境中收集经验作为训练数据的时期。不同的情节可以有不同的长度。这也被称为剧集或产生经验的剧集。
经验迭代
体验迭代(也称为经验生成迭代)是每次策略迭代之间的一组连续体验,用于更新策略网络权重。在每次体验迭代结束时,收集的剧集将添加到体验重播或缓冲区中。可以在训练的超参数之一中设置大小。神经网络通过使用随机体验样本进行更新。
策略迭代
策略迭代(也称为策略更新迭代)是指在梯度上升期间通过随机抽样的训练数据来更新策略神经网络权重的任意次数。单次遍历训练数据以更新权重也称为纪元。
训练作业(training job)
训练作业是一种工作负载,用于训练强化学习模型并创建经过训练的模型工件来进行推理。每个训练作业都有两个子流程:
启动代理以遵循当前策略。该特工在多个剧集中探索环境并创建训练数据。此数据生成本身是一个迭代过程。
应用新的训练数据来计算新的策略梯度。更新网络权重并继续训练。重复步骤 1,直到满足停止条件。
每个训练作业会生成一个训练模型,并将模型构件输出到指定的数据存储。
评估作业
评估作业是测试模型性能的工作负载。训练任务完成后,通过给定的指标来衡量性能。标准 AWS DeepRacer 性能指标是代理人在赛道上完成一圈所花费的行驶时间。另一个指标是完成一圈所占的百分比。
赛车赛事术语
AWS DeepRacer 赛车赛事使用以下概念和术语。
联赛/比赛
在 AWS DeepRacer 联赛赛事的背景下,联赛和比赛这两个术语与比赛结构有关。 AWS赞助 AWS DeepRacer 联赛,这意味着我们拥有、设计和运营它。比赛有开始和结束日期。
赛季
比赛可以在随后的几年中重演。我们将这些季节称为不同的季节(例如,2019 赛季或 2020 赛季)。规则可能因季节而异,但通常在一个赛季内保持一致。AWS DeepRacer 联赛的条款和条件可能因季节而异。
虚拟电路
虚拟巡回赛是指 AWS DeepRacer 联赛赛季AWS期间在 AWS DeepRacer 控制台中赞助的比赛。
事件
根据规则的定义,赛事是指您可以参加比赛的 AWS DeepRacer 联赛。活动有开始和结束日期。虚拟电路事件通常持续一个月。一个赛季中可能有许多赛事,有些规则可能会发生变化,例如我们如何对参加赛事的人进行排名、选择谁获胜以及之后会发生什么。
比赛类型
所有赛车手都可以参加计时赛 (TT)、物体回避 (OA) 或 head-to-bot (H2B) 比赛。每种比赛类型都将指定圈数和赛车手的排名方式。
Nationl He
全国赛季排名是指赛车手在本国其他赛车手中的排行榜排名。所有赛车手都可以在每月的虚拟比赛中与自己国家的其他赛车手竞争。
地区赛季排名
区域赛季排名是指赛车手在所在地区其他赛车手中的排行榜排名。
世界锦标赛
AWS DeepRacer 联赛的虚拟巡回赛月度排行榜按国家和地区划分。每个地区的顶级赛车手将有机会获得参加 reAWS: Invent 世界锦标赛的资格。