DeepMind的AI研究游戏玩家以利用其策略中的弱点

导读在预印服务器Arxiv org上发表的一篇论文中，Alphabet的DeepMind的科学家提出了一个新的框架，该框架可以学习多种游戏中对玩家的近似最佳响

在预印服务器Arxiv.org上发表的一篇论文中，Alphabet的DeepMind的科学家提出了一个新的框架，该框架可以学习多种游戏中对玩家的近似最佳响应。他们声称，在“国际象棋”，“围棋”和“国际象棋”等众多游戏中，它在“最坏情况下的对手”(即表现不佳，但至少按照规则进行游戏并实际上完成游戏)的玩家中始终表现出色。德州扑克。

DeepMind首席执行官Demis Hassabis经常断言，游戏是开发算法的便捷试验场，这些算法可以转化为现实世界，以解决难题。这样，像这种新框架这样的创新可以为人工智能(AGI)奠定基础，该人工智能是AI的圣杯-决策AI系统不仅可以自动完成平凡的重复性企业任务，例如数据输入，还可以自动完成有关其环境的原因。这是OpenAI等其他研究机构的长期目标。

对玩家的表现水平称为可利用性。计算这种可利用性通常是计算密集型的，因为玩家可能采取的行动数量如此之多。例如，德州扑克的一种变体-单挑限制德州扑克-大约有1014个决策点，而围棋有大约10170个决策点。解决这一问题的一种方法是制定一项策略，该策略可以利用强化学习(一种AI培训技术，通过系统奖励促使软件代理完成目标)来利用最佳学习来评估待评估的玩家。

DeepMind研究人员提出的框架，他们称为近似最佳响应信息状态蒙特卡洛树搜索(ABR IS-MCTS)，它在信息状态基础上近似精确的最佳响应。框架内的参与者遵循一种算法来玩游戏，而学习者则从各种游戏结果中获取信息以训练策略。凭直觉，ABR IS-MCTS尝试学习一种策略，当剥削者被赋予对对手策略的无限访问权时，它可以创建有效的剥削策略。它模拟了如果某人经过多年训练来利用对手会发生什么情况。

研究人员报告说，在涉及200名演员(在装有4个处理器和8GB RAM的PC上训练)和一个学习者(10个处理器和20GB RAM)的实验中，ABR IS-MCTS在每场比赛中的胜率均超过50%在Hex或Go以外的游戏中(例如“连接四人”和“突破”)，该比率高于70%。在步步高中，它经过100万集训练后赢得了80%的时间。

合著者说，他们看到“大量学习”的证据，即当演员的学习步骤受到限制时，即使经过100,000次训练，他们的表现也往往会变差。但是，他们还注意到，在某些情况下，ABR IS-MCTS相当慢，平均需要150秒才能计算出特定形式的策略(UniformRandom)在Kuhn扑克(一种简化的两人扑克)中的可利用性。

未来的工作将涉及将该方法扩展到甚至更复杂的游戏。

猜你喜欢

最新文章