AWS DeepRacer 服务架构
AWS DeepRacer 服务架构
术语 |
---|
AWS DeepRacer |
RoboMaker |
Amazon S3 |
SageMaker |
AWS DeepRacer 服务建立在 AWS RoboMaker 和其他AWS服务(例如 Amazon S3)的基础上SageMaker。
SageMaker 是一个AWS机器学习平台,用于训练一般的机器学习模型。AWS 特别 DeepRacer 使用它来训练强化学习模型。AWS RoboMaker 是一项云服务,用于开发、测试和部署一般机器人解决方案。AWS DeepRacer 使用它来创建虚拟代理及其交互环境。Amazon S3 是一种经济的通用云存储解决方案。AWS DeepRacer 使用它来存储经过训练的模型工件。此外,AWS DeepRacer 使用内存数据库 Redis 作为体验缓冲区,从中选择训练数据来训练策略神经网络。
在 AWS DeepRacer 架构中,AWS RoboMaker 创建了一个模拟环境,供代理沿着指定轨道行驶。代理根据已在 SageMaker 中训练特定时间的策略网络模型进行驾驶。每次运行从起点线开始,以达到终点线或者偏离赛道为结束状态,一次运行也称为一个情节。对于每个情节,过程划分具有固定步骤数的区段。在每个分段中,体验被定义为与单个步骤相关的元组(状态、操作、奖励、新状态)的有序列表,作为体验缓冲区缓存在Redis中。 SageMaker 然后分批从体验缓冲区训练数据中随机抽取,并将输入数据馈送到神经网络以更新权重。然后,它将更新的模型存储在 Amazon S3 中 SageMaker 以供使用,以生成更多体验。该循环继续直至训练停止。
在首次训练第一个模型的开始之前, SageMaker 使用随机操作初始化经验缓冲区。
下图阐明了此架构。
此设置允许运行多个模拟,同时在单个赛道的多个区段上训练一个模型,或者同时针对多个赛道训练模型。