麻将新鲜出炉AI微软史上最强人工智能发展需扣好安全带

南都讯 记者陈志芳 8月29日,2019世界人工智能[rén gōng zhì néng]大会在上海世博中心开幕。微软[wēi ruǎn]亚洲[yà zhōu]研究院[yán jiū yuàn]推出了号称史上最强的麻将[má jiàng]AI[AI]系统Suphx[Suphx](Super Phoenix,意为“超级凤凰”)。

据微软全球执行副总裁人工智能介绍,Suphx AI是第一个在日本麻将平台“天凤[tiān fèng]”上荣升10段的AI系统,实力已经超过公开房间当中顶级人类选手的顶尖水平。

微软亚洲研究院说,不同于象棋、围棋、德州扑克等棋牌类游戏,麻将的特别之处在于其高复杂度度和更加丰富的隐藏信息[xìn xī],这导致麻将AI的难度更高,而Suphx可以处理麻将的不确定性。

“面对麻将游戏的巨大挑战,AI 仅靠强大的计算力无法从根本上解决问题,而需要更强的直觉、预测、推理和模糊决策能力,”微软亚洲研究院副院长、机器学习领域负责人刘铁岩博士表示。

南都记者注意到,此款AI麻将系统公开后,微软亚洲研究院在其官网披露了Suphx的核心技术,使用了先知教练、全盘预测和自适应决策技术。

图说:麻将游戏的挑战以及Suphx 的核心技术。图自微软亚洲研究院官网。

据介绍,由于麻将有海量隐藏信息,玩家无法知道他人的手牌和没有翻出来的底牌,属于非完美信息游戏,对此,Suphx尝试了先知教练技术,其基本思想是在自我博弈的训练阶段利用不可见的一些隐藏信息来引导AI 模型的训练方向,使其学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI 模型更加深入地理解可见信息,从中找到有效的决策依据。Suphx还通过全盘预测技术,理解每盘比赛和8轮过后的终盘结果,来指导Suphx自我博弈的过程。另外,由于麻将游戏的高复杂性,Suphx采取自适应的决策方式,让Suphx根据牌局状态来动态调整策略。

据微软亚洲研究院介绍,Suphx于今年3月登陆天凤平台,在AI 能够参与的公开竞技房“特上房”中,与人类选手展开了5000 余场精彩激烈的四人麻将对局。 6 月,Suphx 成为了首个成功达到天凤十段的AI 系统。

据了解,天凤平台是国际知名的专业麻将平台,通过计算稳定[wěn dìng]段位[duàn wèi](Stable Rank)来衡量雀士的真实实力水平,雀士想取得高而稳定的稳定段位是非常不易的。目前,Suphx的稳定段位超过了8.7,比“特上房”中所有取得过天凤十段的顶级人类玩家的整体稳定段位,要领先约1.3个段位,同时也领先于东京大学在2015 年开发的“爆打”和Dwango 公司于2018 年开发的基于深度学习模型的“NAGA25”在天凤平台上的约6.5的稳定段位。

图说:天凤平台“特上房”稳定段位对比。图自微软亚洲研究院官网。

日本一名专业雀士朝仓康心ASAPIN在社交媒体上表示,Suphx好像还能变得更强,轻轻松松超过人类呀,也想与Suphx一战。

图说:朝仓康心对Suphx的感想。图自朝仓康心推特。

微软认为,人工智能将很多不可思议的事情变成现实,但其带来的社会影响和挑战也需要得到认真思考,“我们计划未来推出的每一个人工智能产品都要经过人工智能道德伦理审查,与此同时,我们也积极建议政府推动相关法律法规的建立和完善”。

沈向洋以汽车的发展为例,表示20世纪初,汽车在美国逐步流行后,高速公路交通事故带来的伤亡频出,但直到1984年,真正要求驾驶者扣好安全带的法规才出台。沈向洋呼吁到,“今天我们是人工智能的发明者,我们绝对不可能也不应该等到80年以后为人工智能补上一条‘安全带’。”

近年,部分国家、地区相继推出了人工智能伦理准则。我国在今年6月发布了《新一代人工智能治理原则——发展负责任的人工智能》,强调了和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理等八条原则。欧盟也在今年4月发布了人工智能伦理准则,准则对未来的人工智能系统在7个方面提出要求,包括人类监督管理、技术稳健性和安全性、隐私和数据管理、透明度、多元化、环境和社会福祉、可靠性。