微软最强麻将AI首次公开技术细节!专业十段水平

日期:2020-04-08 09:02:16 作者:澳门尼斯人娛乐城 浏览:53 次

  4月3日消息,微软公司于去年8月推出了一个名为Suphx的麻将人工智能系统,并在麻将游戏社区Tenhou中对其进行测试。据悉,Tenhou是世界上最大的麻将社区之一,拥有超过35万活跃用户。

  根据测试结果,Suphx最高成绩为10段。这是目前为止,世界上第一个也是唯一一个达到10段水平的人工智能。Tenhou社区中的人类玩家也证实Suphx具有超强学习能力,99.99%的玩家认为模型经过训练后表现有所改善。

  本周,微软团队发布了一份修订版预印本文件,对Suphx进行了全面介绍。目前这项研究发表在学术网站arXiv上,论文题目为《Suphx:用深度强化学习打麻将(Suphx:Mastering Mahjong with Deep Reinforcement Learning)》

微软最强麻将AI首次公开技术细节!专业十段水平

  一、麻将:规则复杂的不完全信息博弈

  麻将是一种多玩家参与、多轮牌的不完全信息博弈游戏。

  每一局麻将又包含许多回合。一局游戏的胜负是由累积回合分数决定的,输掉一圈并不意味着玩家满盘皆输。为了保证最后胜出,玩家有可能会故意输掉一局。

  另外,麻将游戏的“胡牌”方式非常多。不同的“胡牌”方式下,牌面也有很大不同。相应地,每回合游戏的得分也就不同。

  所谓不完全信息博弈,是指参与者并不了解博弈的全部情况。在麻将游戏中,每位玩家手中最多有13张别人不可见的牌。牌墙中的14张牌对所有玩家都不可见。此外,牌桌中央还有70张牌。只有被玩家摸回或打出时,这部分牌的牌面才可见。

  在这种规则下,玩家每做出一个选择,接下来的牌局就可能出现10个以上的走向。玩家很难仅仅依据自己手中的牌来判断接下来的动作,而是要经过仔细的思考与权衡。

  这也正是建立麻将人工智能模型的难点所在:人工智能很难将奖励信号与观察到的信息联系起来。

微软最强麻将AI首次公开技术细节!专业十段水平

  二、Suphx:两天训练150次,熟练掌握5种模式

  在微软的研究中,研究人员选择用日本4人麻将(Riichi Mahjong)规则训练Suphx模型,训练数据来自Tenhou社区。

  培训过程耗时两天,研究人员在44个图形处理单元上、用150万个游戏对模型进行了训练。

  1、原型:深度卷积神经网络

  深度卷积神经网络(deep convolutional neural networks)曾在围棋、象棋等游戏中应用,其强大的表示能力已经得到了验证。Suphx也选择深度卷积神经网络作为原型。

  不同于棋类游戏的是,麻将玩家获得的信息并不是自然的图像格式。为此,研究人员设计了一套特征,将观察到的信息编码为深度卷积神经系统能理解的形式。

  研究人员把每位玩家的私有牌编码成4个频道。图示有4行34列,每一行对应一个频道,每一列对应一种牌。第n个通道中的第m列表示玩家手中有n个m类型的牌。每种牌都可被表示为一个34维向量。

微软最强麻将AI首次公开技术细节!专业十段水平

  同时,研究人员还降低了计算复杂程度:规定执行深度搜索时优先找到可能的赢家;Suphx不考虑对手的行为,只专注于寻找可能获胜的牌面。

  2、训练方式:有监督学习+分层强化学习,学会5种模式

  训练过程中,原型先利用人类职业玩家的数据进行有监督学习(supervised learning),然后再进行分层强化学习(self-play reinforcement learning)。研究人员设计应用策略梯度算法(policy gradient algorithm)来进行分层强化学习。

微软最强麻将AI首次公开技术细节!专业十段水平

  Suphx学习了5种模式来处理不同的情况。分别是:弃牌(discard)模式、Riichi模式、Chow模式、Pong模式和Kong模式。

微软最强麻将AI首次公开技术细节!专业十段水平

  所有模式都用网络结构表示。弃牌模式对应34张牌,有34个输出神经元。其他模式仅有两个输出神经元,分别对应执行或不执行操作。

微软最强麻将AI首次公开技术细节!专业十段水平

  3、GRU网络+Oracle代理+pMCPA

  除上述设定外,微软团队还引入了其他几种技术:

  全局奖励预测器(GRU网络)。该预测器可以提前预测游戏的最终结局,提供有效的学习信号,从而使策略网络可执行。

微软最强麻将AI首次公开技术细节!专业十段水平



上一篇:上一篇:微软在最新的推文中展示了新的Windows 10开始菜单
下一篇:下一篇:今晚的华为发布会看什么?P40价格是关键 电视要挑战索尼?