AWS DeepRacer 服务架构

术语
AWS DeepRacer
RoboMaker
Amazon S3
SageMaker

AWS DeepRacer 服务建立在 AWS RoboMaker 和其他AWS服务(例如 Amazon S3)的基础上SageMaker。

SageMaker 是一个AWS机器学习平台,用于训练一般的机器学习模型。AWS 特别 DeepRacer 使用它来训练强化学习模型。AWS RoboMaker 是一项云服务,用于开发、测试和部署一般机器人解决方案。AWS DeepRacer 使用它来创建虚拟代理及其交互环境。Amazon S3 是一种经济的通用云存储解决方案。AWS DeepRacer 使用它来存储经过训练的模型工件。此外,AWS DeepRacer 使用内存数据库 Redis 作为体验缓冲区,从中选择训练数据来训练策略神经网络。

在 AWS DeepRacer 架构中,AWS RoboMaker 创建了一个模拟环境,供代理沿着指定轨道行驶。代理根据已在 SageMaker 中训练特定时间的策略网络模型进行驾驶。每次运行从起点线开始,以达到终点线或者偏离赛道为结束状态,一次运行也称为一个情节。对于每个情节,过程划分具有固定步骤数的区段。在每个分段中,体验被定义为与单个步骤相关的元组(状态、操作、奖励、新状态)的有序列表,作为体验缓冲区缓存在Redis中。 SageMaker 然后分批从体验缓冲区训练数据中随机抽取,并将输入数据馈送到神经网络以更新权重。然后,它将更新的模型存储在 Amazon S3 中 SageMaker 以供使用,以生成更多体验。该循环继续直至训练停止。

在首次训练第一个模型的开始之前, SageMaker 使用随机操作初始化经验缓冲区。

下图阐明了此架构。
deepracer-how-it-works-architecture.png

此设置允许运行多个模拟,同时在单个赛道的多个区段上训练一个模型,或者同时针对多个赛道训练模型。

标签: none