DeepMind的AI研究,游戏玩家以利用其策略中的弱点

《DeepMind的AI研究,游戏玩家以利用其策略中的弱点》

Alphabet的DeepMind的科学家提出了一个新的框架,该框架可以学习对多种游戏中玩家的近似最佳反应。他们声称,在“国际象棋”,“围棋”以及“德州扑克。

DeepMind首席执行官Demis Hassabis 经常断言,游戏是开发算法的便捷试验场,这些算法可以转化为现实世界,以解决难题。这样,像这种新框架这样的创新可以为人工智能(AGI)奠定基础,这是AI的圣杯-决策AI系统不仅可以自动完成平凡的重复性企业任务,例如数据输入,还可以自动完成有关其环境的原因。这是OpenAI等其他研究机构的长期目标。

对玩家的表现水平称为可利用性。计算这种可利用性通常是计算密集型的,因为玩家可能采取的行动数量如此之多。例如,德州扑克的一种变体,单挑限制德州扑克,大约有10 14个决策点,而围棋有大约10 170 决策点。解决这一问题的一种方法是制定一项策略,利用强化学习(一种AI培训技术,通过系统奖励促使软件代理完成目标)来利用最佳学习来评估待评估的玩家。

DeepMind研究人员提出的框架,他们称为近似最佳响应信息状态蒙特卡洛树搜索(ABR IS-MCTS),它在信息状态基础上近似精确的最佳响应。框架内的参与者遵循一种算法来玩游戏,而学习者则从各种游戏结果中获取信息以训练策略。凭直觉,ABR IS-MCTS尝试学习一种策略,当剥削者被赋予对对手策略的无限访问权时,它可以创建有效的剥削策略。它模拟了如果某人经过多年训练来利用对手会发生什么情况。

研究人员报告说,在涉及200名演员(在装有4个处理器和8GB RAM的PC上训练)和一个学习者(10个处理器和20GB RAM)的实验中,ABR IS-MCTS在每场比赛中的胜率均超过50%在Hex或Go以外的游戏中(例如“连接四人”和“突破”),该比率高于70%。在步步高中,它经过100万集训练后赢得了80%的时间。

《DeepMind的AI研究,游戏玩家以利用其策略中的弱点》

合著者说,他们看到“大量学习”的证据,即当演员的学习步骤受到限制时,即使经过100,000次训练,他们的表现也往往会变差。但是,他们还注意到,在某些情况下,ABR IS-MCTS相当慢,平均需要150秒才能计算出特定形式的策略(UniformRandom)在Kuhn扑克(一种简化的两人扑克)中的可利用性。

未来的工作将涉及将该方法扩展到甚至更复杂的游戏。

点赞

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注