游戏中的深度学习与人工智能-数据库-火龙果软件

捐助

游戏中的深度学习与人工智能

来源： InfoQ 发布于： 2017-8-10

2950 次浏览

大家好，我是欢聚时代的高扬，这次跟大家分享的内容是深度学习在游戏AI中的应用这样一个话题。

NPC的驱动粗分可以分成低级、中级、高级、特高级，这样几个类别。当然，按照其它的方式分也未尝不可，这里主要是针对实现方式和应用场景的一个粗略划分。

低级NPC通常说的是一些游戏中所谓的杂兵，不涉及什么情节，也没有什么所谓的策略作为驱动。基本上就是按照一定的设计好的路线行进，并直接攻击游戏主角。这类游戏很常见，尤其是老的单机游戏中，绝大部分就是这类NPC。

中级NPC常见于游戏群战中的配合型NPC。这类机器人会有一定的事先编号的策略作为驱动，并且有简单的应变能力。当然，这些都是人类事先设定好的策略内容。比如优先攻击血量较低的游戏主角，比如在自己血量过少的时候会优先进行回血等等，通过这些行为完成一定的活动序列差异。但是场景非常单一而且确定。

高级NPC是指网游中的高级团战中的配合。像王者荣耀、或者英雄联盟一类的游戏有着丰富的走位、加血、加防御、减速……等等复杂的影响盘面的因素。这些因素对于人来说都是需要长期摸索和练习才能在不同场景中得以良好配合的，所以这类NPC的策略是比较难编写的，至少很难找到一个相对确定的能够保证较高胜率的策略编写思路。

特高级NPC泛指那些带有较强的博弈性的对抗策略。在这种NPC需要对长期的盘面演变有较好的全局能力，通常更难直接编写。如果尝试使用穷举的方式去做搜索来充当策略的话，其时间复杂度通常也是普通的计算单元难以承受的。所以，如果期望NPC在复杂环境中有比较好的表现那么就需要有更合适的方式，例如让NPC自己在大量的游戏过程中自己学习最好的方式并逐步进化。

这种情况下人工智能在游戏AI中的应用就越来越受到人们的关注。当然，人工智能的差距主要是体现在游戏环境的差距上。不同的游戏的NPC训练其难度是不一样，当然是越简单的场景越容易训练，体现出来的就是输入的维度差距。少的游戏只有几个维度，而一些较复杂的场景就有数万个维度抑或更多。

除此之外，人工智能的差距还体现在另一方面，那就是在这个过程中，人对训练过程的参与程度的高低，我们当然是期望人为参与程度越低越好。越低说明这种模型或者方式的“自主性”越强，那么未来其自己进化的场景泛化性也就会越大。

对于这一类需要使用训练（自学习）的方式来进化的NPC来说，基本套路是固定的。如果能够在全局范围内，将模型转化成为一个求最大值或者最小值的问题那么就可以通过凸优化或者凹优化的方式来解决。那么在这个建立模型的过程中就要设定好整个模型的评价函数，并在策略的调整中使得评价函数取得极值。

在落地的过程中可以使用经典的统计方法来做，也可以用神经网络来拟合策略，当然也可以使用人工智能中比较经典的强化学习的套路来做实现，这些都是可以选择的路径。

可以使用经典的统计模型的多为概率性的博弈游戏，例如德州扑克、二十一点等等这些。不过这些模型在规则确定的情况下是几乎只能按照静态概型的情况通过排列组合来做计算的，所以局限性也比较强。

如果使用神经网络算法（深度学习）来做游戏AI也是可以的，由于神经网络拥有很高的VC维，也就本身超强的拟合能力，所以是可以用来应对复杂场景的。那么在这其中最容易想到的就是使用卷积神经网络作为落地工具。卷积神经网络有着很好的特征提取的特性，收敛快，适合输入为大量像素的情形。

这里简单介绍一下卷积网络，卷积网络是一种很常见的深度学习网络构建方式。其中拥有卷积层、池化层和最终的输出层。卷积层用来提取特征，池化层用来做降采样，提高泛化能力，输出层则是用来做分类或者预测，在这样一个场景中则可以用来表示NPC的输入，或者动作。也就是说，场景数据向量作为输入，NPC动作作为输出，网络在训练的过程中被投以大量的正样本——也就是那些在游戏中行为正确的样本。

例如在象棋对弈中，象棋棋盘就可以描述成为一个9*9的向量，向量上的每个维度可以用线性无关的编码描述有没有棋子，有哪个棋子——这些作为整个盘面的描述信息输入给卷积网络。网络的输入部分则给一个“好棋”的描述，就类似于“车三进一”，“炮二平七”这样的动作的向量化描述。

请注意，在这个过程中，一定要给卷积网络大量的正样本，也就是那些比较靠谱的动作，这样才能让卷积网络在这个过程中学到正确的动作。而如果相反，如果你给到网络的是一些不太好的行棋动作，那么网络同样会把这些臭棋都学下来。显然，这根本不是我们想要的东西。

卷积网络的优点就如刚才我们说的那样，收敛速度快，泛化能力好，应用场景广。这就使得它可以在很多种不同的游戏中得以应用，用来当做NPC的大脑来训练。

但是同样，卷积网络也是有着自己的缺点，它需要大量的正样本和人工干预。就以刚才的象棋来说，每一个盘面在输入网络的时候，都需要给定其一个人为标注过的“好棋”的描述。这样训练成本就大大增加了，所以这一点也就使得无法低成本获得正样本评价的场景中直接这样使用卷积网络成为了不可能。

综上所述，直接使用卷积网络仅仅适合那些输入数据量偏小，而且动作简单，容易获得正样本的游戏。而其它局势复杂的游戏通常都需要做一些改进才可以。

目前比较先进的游戏AI的训练方式是以2013年NIPS发表的关于DQN的论文为理论基础的神经网络和强化学习的结合方式。先抛开DQN不管，我们先来说强化学习的基本概念。在强化学习的范畴中，通常有这样几个研究对象，一个是机器人，也叫本体，就是我们要训练的对象；一个是环境，也就是机器人所处的场景；一个是动作，是机器人所发出的行为（Action）；从环境中，机器人会不断地得到两种东西，一个是状态（State），一个是奖励（Reward）。

一旦这个场景建立之后，其实就可以开始训练了，作为机器人我们将获得什么呢？当然是时间序列上的一系列State、Action、和Reward。请注意，这个Reward不一定只是奖励，如果是一个正数，那么就表示奖励，如果是一个负数就表示惩罚。在一个事件序列上我们将连续不断地获得State、Action和Reward串。不过这里的Reward不是表示当前你的State和Action的奖励，而是表示在前一个State的状态下，由于你做了一个Action所带来的奖励值。

既然有了这样一系列的数据，其实通过简单的统计我们就能得到这样一张表。如图所示，纵列都是State，横列都是Action，通过统计可以在表中填写一个Reward值。也就是表示在某个State下，发出某个Action后所获得的Reward值，这就是一个认知。那么在使用的时候，机器人可以通过查表，在一个State下，找到那个State下最大的Reward，和它对应的Action，然后做这个Action就可以获得最大的奖励值了。

不过这样也有一个显而易见的问题，那就是短时问题。因为State是连续的，前后之间也是有着一些潜在影响的。就像在玩沙罗曼蛇这种游戏的时候，如果为了吃个枪而在下一秒撞墙的话，那么吃枪的意义就不存在了。所以，即便在当前State下找到一个最大Reward的Action并不意味着它能够在未来保证长期的Reward比较大。

这种情况我们就需要这样来看了，其实就像这样一颗树。时序上靠近前面的State就是树根，时序上偏后的就是下面的树枝树叶的节点。下一层上所有的Action中Reward最大的其实并不意味着能引导一条全局Reward最大的路径。换句话说，下一秒笑得最开心不代表能笑到最后。从这个图上也能看出来，1-4-1这条路径的总收益是没有右侧的1-1-5更好的。

这种时候就需要这样一种叫做Q-Learning算法的东西，公式就这样写。Q(s,a)表示的就是前面那张表的内容，a和s分别是横纵坐标。一个Q(s,a)就表示一个具体的值，这个值就是一个Reward。在这个算法中需要对整个表中的Q(s,a)不断更新，更新的原则就像公式上所写，其中alpha和gamma是一个权重系数。定性来说，Alpha代表对未来收益的重视程度，0就表示完全不考虑，1则表示当前的收益取决于下一个可以转移到的状态中那个Reward值最大的。

也就是可以这样理解，如果把alpha配置成1的话，整个Q(s,a)的更新过程就是不断把后一个状态中Reward最高的值向前赋予。也就是可以解释成，一个状态被评价为“比较靠谱”是因为它后一个状态“比较靠谱”，而这后一个状态“比较靠谱”也是由于它的后一个状态“比较靠谱”。这样进行向前传递，也就容易解决短视问题了。

来看这张图，在这种假设前提下，基本我不能获得每一个State下每一个Action的具体评价，也能够在整个棋局最终结束的时候对胜利一方给一个正值的Reward，并通过这种方式进行传递，最终把整个一条完整的“靠谱”的行为链找到。

深度学习在这个场景中也是有应用的，现在用的比较多的是DQN，全称叫做Deep Q-Network。这是强化写出和深度学习的一种结合，网络的输入是一个盘面的信息，中间通过卷积层和全连接层，最后是一个SOFTMAX来拟合一个Q值也就是Action和其对应的Reward值的评价。

DQN的损失函数是比较特殊的。在训练的过程中，需要做两件事：1、不断把后面状态的Reward向前部去做更新，就像刚才我们写的那样。2、在这个过程中让一个状态Statet和它的下一个状态Statet+1通过网络，让他们产生的Reward评价差异最小。在整个算法最后收敛的时候，会有这样一种现象，那就是那条最靠谱的路径上所有的Statet和Statet+1的Reward值都一样大。并且，Statet和Statet+1状态的评价规则是一样的。因此，这种情况下，任何一个State输入网络，都可以顺着这个State下面最靠谱的那条路径走下去。

除此之外，其实也可以对这种机器人进行扩展。也就是说，评价函数不是让它胜率最高，而是让它在跟玩家游戏的过程中，使得玩家的游戏时长加大。这个技巧就比较多了，是需要把玩家的游戏节奏也作为训练条件输入的。

总体来说，对于很多流量不充足的游戏平台还是会需要这样一种机器人来陪伴玩家进行游戏的。不管是连续赢、连续输、没有对手、没有队友，任何一种引起玩家不悦感觉的情况，机器人理论上都应该可以破解。

对于一些更为复杂的模型，单纯依靠普通的DQN已经不能很好地解决问题了。因为维度过高，所以很可能导致模型收敛速度不理想。有时候可能需要借助一些其它的手段来进行决策，例如随机决策森林等。也就是说可以建立多个精度较差的模型，让它们各自根据自己的判断来进行策略投票，最终通过表决的方式来决定策略。其实就是一个“三个臭皮匠顶个诸葛亮”的用法。

最后进行一下游戏市场的展望，2016年中国的游戏市场大约1700亿的盘子，这个规模还是很大的。

目前据我们估算在众多的游戏中，大概有30%在长尾中的用户是由于“失配”的原因导致的流失或不活跃。那么机器人的作用就非常明显了，就是希望通过它们与用户的磨合最终弥补这30%的失配情形，最大程度提高长尾用户的活跃程度。

据推测在这长尾的容积中大概有700亿左右的市场空间是可以由游戏机器人来弥补的，也就是刚才估算的那30%。其中棋牌类游戏的保守估算大约80亿，所以说市场规模还是非常值得期待的。这也是我们逐步努力的目标。

2950 次浏览