AWS DeepRacer 解决方案工作流程
AWS DeepRacer 解决方案工作流程
训练 AWS DeepRacer 模型涉及以下一般任务:
AWS DeepRacer 服务使用虚拟轨道、代表车辆的代理和背景来初始化模拟。代理体现了可以通过超级参数调整的策略神经网络,如 PPO 算法中定义。
代理根据给定状态(通过来自前置摄像头的图像表示)操作(通过转向角度和速度指定)。
模拟环境根据代理操作更新代理的位置,返回奖励和更新后的摄像头图像。以状态、操作、奖励和新状态形式收集的经验用于定期更新神经网络。更新后的网络模型用于创建更多经验。
您可以使用与代理所见相同的第一人称视角,沿着模拟赛道监控进行中的训练。您可以显示每个情节的奖励、损耗函数值、策略的纪元等指标。随训练进行,还可以显示 CPU 或内存利用率。此外,系统记录详细的日志供分析和调试。
AWS DeepRacer 服务会定期将神经网络模型保存到永久存储中。
训练过程会根据时间限制而停止。
您可以在模拟器中评估训练模型。为此,请提交经过训练的模型,在选定的赛道上对选定数量的跑步进行计时试验。
成功训练和评估模型后,可以将其上传到物理代理(AWS DeepRacer 车辆)。该过程涉及到以下步骤:
从其永久存储(Amazon S3 存储桶)下载经过训练的模型。
使用车辆的设备控制控制台将经过训练的模型上传到设备。使用控制台校准车辆,将模拟操作空间映射到物理操作空间。您还可以使用控制台检查油门是否相等、查看前置摄像头信号源、加载模型到推理引擎以及观看车辆在真实赛道上的行驶。
车辆的设备控制台是托管在车辆计算模块上的 Web 服务器。控制台可通过互联 Wi-Fi 网络和计算机或移动设备上的 Web 浏览器,从车辆的 IP 地址访问。
在不同照明、电池水平和表面纹路及颜色下试验车辆驾驶。
由于模型限制或训练不足,设备在物理环境中的性能可能与模拟环境中的性能不匹配。该现象称为 sim2real 性能差距。要减少差距,请参阅Simulated-to-real 性能差距。