我们真的永远也理解不了人工智能吗？

2018-07-27 11:21

现代机器学习技术为开发者提供了不同的选择：究竟是要精确获知结果，还是要以牺牲精确度为代价、了解出现该结果的原因？“了解原因”可帮助我们制定策略、做出适应、并预测模型何时可能失灵。而“获知结果”则能帮助我们即刻采取恰当行动。

我们真的永远也理解不了人工智能吗？

这实在令人左右为难。但一些研究人员提出，如果既能保留深度网络的多层构造、又能理解其运作原理，岂不是最好？令人惊奇的是，一些最受看好的研究所其实是将神经网络作为实验对象看待的，即沿袭生物科学的思路，而不是将其视作纯数学的研究对象。尤辛斯基也表示，他试图“通过我们了解动物、甚至人类的方式来了解深度网络。”他和其他计算机科学家借鉴了生物研究技术，借神经科学家研究人脑的方式研究神经网络：对各个部件展开详细分析，记录各部件内部对微小输入变化的反应，甚至还会移除某些部分、观察其余部分如何进行弥补。

在从无到有地打造了一种新型智能之后，科学家如今又将其拆开，用数字形式的“显微镜”和“手术刀”对这些“虚拟器官”展开分析。

尤辛斯基坐在一台电脑前、对着网络摄像头说话。摄像头接收的数据被输入深度神经网络，而与此同时，该网络也在由尤辛斯基和同事们开发的Deep Visualization（深度可视化）软件工具包进行分析。尤辛斯基在几个屏幕间来回切换，然后将网络中的一个神经元放大。“这个神经元似乎能够对面部图像做出反应。”人脑中也有这种神经元，其中多数都集中在一处名为“梭状脸区”的脑区中。该脑区最早由1992年开始的一系列研究发现，被视作人类神经科学最可靠的观察结果之一。对脑区的研究还需借助正电子发射计算机断层扫描等先进技术，但尤辛斯基只需凭借代码、便可对人造神经元展开详细分析。

借助该方法，尤辛斯基可将特定的人造神经元与人类能理解的概念或物体（如人脸）建立起映射关系，从而将神经网络变为有力工具。该研究还挑明了图片中最容易激发面部神经元反映的特征。“眼睛颜色越深、嘴唇越红，神经元的反应就更为强烈。”

杜克大学计算机科学、电子与计算机工程教授辛西娅·鲁丁认为，这些“事后解读”本身是有问题的。她的研究重点为以规则为基础的机器学习系统，可应用于罪犯量刑、医疗诊断等领域。在这些领域中，人类能够进行解读，且人类的解读十分关键。但在视觉成像等领域，“个人的解读结果纯属主观。”诚然，我们可以通过识别面部神经元、对神经网络的响应进行简化，但如何才能确定这就是该网络寻找的结果呢？无独有偶，有一套著名理论认为，不存在比人类视觉系统更简单的视觉系统模型。“对于一个复杂系统在做什么事情，可以有很多种解释，”鲁丁指出，“难道从中选出一个你‘希望’正确的解释就行了吗？”

尤辛斯基的工具包可以通过逆向工程的方式、找出神经网络自身“希望”正确的结果，从而在部分程度上解决上述问题。该项目先从毫无意义的“雪花”图像开始，然后对像素进行逐个调整，通过神经网络训练的反向过程逐步修改图片，最终找出能够最大限度激发某个神经元响应的图片。将该方法运用到AlexNet神经元上后，该系统生成了一些奇奇怪怪的照片，虽然看上去颇为诡异，但的确能看出属于它们被标记的类别。

这似乎支持了尤辛斯基的论断：这些面部神经元寻找的确实是面部图像。但还有一个问题：在生成这些图像的过程中，该流程依赖了一种名为“自然图像优先”的统计学约束，因此其生成的图像均会模仿真实物体照片的结构。而当他去除这些规则后，该工具包仍会选取被其标记为“信度最大”的图片，但这些图片看上去就像电视机失去信号时的“雪花”一样。事实上，尤辛斯基指出，AlexNet倾向于选择的大部分图片在人眼看来都是一片乱糟糟的“雪花”。他承认道：“很容易弄清如何让神经网络生成极端结果。”

我们真的永远也理解不了人工智能吗？

图为深度神经网络中的单个神经元（由绿框标出）对尤辛斯基的面部图像做出反应，就像人脑的某个脑区（标为黄色）也会对面部图像做出反应一样

为避免这些问题，弗吉尼亚理工大学电子与计算机工程助理教授杜鲁夫·巴特拉采用了一种更高级的实验方法对深度网络进行解读。他没有去试图寻找网络内部结构的规律，而是用一种眼动追踪技术分析神经网络的行为。在研究生阿比谢克·达斯和哈什·阿格拉瓦尔的带领下，巴特拉的团队向一个深度网络就某张图片提问，如房间窗户上是否有窗帘等等。不同于AlexNet或类似系统，达斯的网络每次只关注图片的一小部分，然后“扫视”图片各处，直到该网络认为已经得到了足够的信息、可以回答问题为止。经过充分训练后，这一深度神经网络的表现已经非常出色，精确度足以与人类的最高水平媲美。

接下来，达斯、巴特拉和同事们还想了解该网络是如何做出决策的。于是他们分析了该网络在图片上选取的观察点。而结果令他们大吃一惊：在回答“图中是否有窗帘”的问题时，该网络根本没去寻找窗户，而是先对图片底部进行观察，如果发现了床铺，就停下来不找了。看来在用来训练该网络的数据集中，装有窗帘的窗户可能常出现在卧室里。

该方法虽然揭露了深度网络的一些内部运行机制，但也凸显了可解释性带来的挑战。巴特拉指出：“机器捕捉到的并不是关于这个世界的真相，而是关于数据集的真相。”这些机器严格按照训练数据进行了调整，因此很难总结出它们运作机制的普遍规则。更重要的是，你要是不懂它如何运作，就无法预知它会如何失灵。而从巴特拉的经验来看，当它们失灵的时候，“就会输得一败涂地。”

我们真的永远也理解不了人工智能吗？

图为“深度视觉化”工具包生成的“理想猫脸”。该程序先从类似电视机没信号时的“雪花”图像开始，对像素进行逐个调整，直到AlexNet神经网络的面部神经元产生最大响应为止

尤辛斯基和巴特拉等研究人员面临的一些障碍对人脑科学家来说也并不陌生。例如，对神经成像的解读就常常遭到质疑。2014年，认知神经科学家玛莎·法拉在一篇领域评述中写道：“令人担忧的是……（功能性脑部）图像更像是研究人员的创造发明、而非观察结果。”这一问题在各种智能系统中也屡屡出现，说明无论对人脑、还是对智能的研究而言，该问题都会成为一大障碍。

追求可解释性是否为一项愚蠢之举呢？2015年，加州大学圣地亚哥分校的扎克利·立顿发表了一篇名为《模型可解释性的迷思》的博文，批判性地探讨了解读神经网络背后的动机、以及为大型数据集打造可解读的机器学习模型的价值。在2016年国际机器学习大会（ICML）上，他还向马里奥托夫与两名同事组织的“人类可解释性”专题研讨会提交了一篇与该话题相关的、颇具争议性的论文。

我们真的永远也理解不了人工智能吗？

立顿指出，许多学者并不赞同“可解释性”这一概念。因此他认为，要么是人们对可解释性的理解还不够，要么是它有太多可能的含义。无论是哪种情况，追求可解释性也许都无法满足我们对“简单易懂的神经网络输出”的渴求。立顿在博文中指出，当数据集过大时，研究人员完全可以抑制去解读的冲动，要相信“凭借经验也能成功”。他表示，该领域的目的之一，便是要“打造学习能力远超人类的模型”，如果太过注重可解释性，就难以使这类模型充分发挥潜力。

但这种能力既是特点也是缺陷：如果我们不明白网络输出是如何生成的，就无从知晓该网络需要何种输入。1996年，英国苏塞克斯大学的艾德里安·汤普森采用与如今训练深度网络相似的技术、用软件设计了一款电路。这一电路要执行的任务很简单：区分两个音频的音调。经过成千上万次调整和重排后，该软件终于找到了一种能近乎完美地完成任务的配置。