DeepMind的科学家介绍了简单传感器意图(SSI)的概念,这是一种减少在强化学习中定义奖励(描述AI应该如何表现的功能)所需的知识的方法系统。他们声称,SSI仅使用原始的传感器数据就可以帮助解决一系列复杂的机器人任务,例如,抓握,举起球并将其放入杯中。
在机器人领域训练AI通常需要人类专家和先验信息。必须根据手头的首要任务对AI进行调整,这需要定义一个奖励,该奖励表示成功并有助于有意义的探索。SSI表面上提供了一种鼓励代理商探索其环境的通用方法,并提供了收集数据以解决主要任务的指南。如果将其商业化或部署到像仓库机器人这样的生产系统中,SSI可以减少对手动微调和计算量大的状态估计(即,根据输入和输出的测量来估计系统状态)的需求。
正如研究人员所解释的,在没有奖励信号的情况下,人工智能系统可以通过对机器人传感器(例如,触摸传感器,关节角度传感器和位置传感器)产生影响的学习策略来形成探索策略。这些政策探索环境以找到富有成果的地区,使他们能够收集主要学习任务的质量数据。具体而言,SSI是通过获取传感器响应并根据以下两种方案之一来计算奖励而定义的一组辅助任务:(1)奖励某个代理达到特定的目标响应,或者(2)奖励一个代理导致特定的响应响应。
在实验中,论文的合著者将原始图像从配备摄像头的机器人(Rethink Sawyer)转换成少量的SSI。他们汇总了图像空间颜色分布的统计信息,从场景中对象的颜色估计值定义了颜色范围和相应的传感器值。他们总共使用了六个基于机器人触摸传感器的SSI,以及两个装有彩色块的篮子周围的摄像机。仅当将两个摄像机的颜色分布平均值移动到所需方向时,控制该机器人的AI系统才能获得最高奖励。
研究人员报告说,在经过9,000次训练(六天)的训练后,AI成功学会了解除障碍物。即使在将单个颜色通道的SSI替换为在多个颜色通道上聚合了奖励的SSI之后,AI还是设法学会了从原始传感器信息中提取“各种各样”的不同对象。在另外一个环境中进行了4,000集(三天)的训练之后,它学会了打杯子和球。
在未来的工作中,合著者打算集中精力扩展SSI,以自动生成奖励和奖励组合。他们写道:“我们认为,与广泛使用的成形奖励公式相比,我们的方法需要较少的先验知识,成形奖励公式通常依赖于任务洞察力来定义和计算状态估计。” “ SSI的定义很简单,域之间没有或只有很小的适应性。”