一直以来,游戏都是验证 AI 功能的主要方式。为此,科学家不断寻找能够对 AI 科学问题进行模拟与测试的游戏。最终,国际象 棋成为 AI 的试验场。
2017 年, 推出了针对棋类游戏的强化学习算法 AlphaZero。它可以在没有人类监督的情况下,自动地从对弈数据中不断总结经验、从零开始学习最优的下棋策略,最终探索和设计出新的国际象棋套路。
最近, 与大脑(Google Brain)团队合作开展了一项研究,回顾了国际象棋作为人工智能试验场的作用,并证明了 AlphaZero 网络模型能够学习国际象棋知识。
该团队展示出 AlphaZero 模型在训练过程中获取象棋知识的准确时间,以及这些知识在模型中的存储位置。并且,对该模型获取知识的行为进行了定性的分析。
概括地讲,此项研究的创新点在于提升了研究者对以下几个方面的理解:模型对人类国际象棋知识概念的编码、模型在训练过程中对知识的获取、利用编码后的象棋概念对价值函数的新诠释、AlphaZero 的进化与人类棋手行为之间的比较、AlphaZero 对象棋走法倾向的演变、以及对无监督概念学习的原理性验证。
近日,相关论文以《AlphaZero 对国际象棋知识的获取》为题,发表在 PNAS 上[1]。
的人工智能领域专家托马斯·麦格拉思( )与 Google Brain 人工智能工程师安德烈·卡拉逊尼考夫( )等为论文作者。此外,国际象棋大师弗拉基米尔•克拉姆尼克( )也参与了此项目。




解读: https://zhuanlan.zhihu.com/p/361120908