机器学习：开启智能创新之门

2017-10-23 09:59

三、机器学习：实现人工智能的高效方法

从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。国外有些学者对机器学习进行了定义大同小异，有学者认为，机器学习是对能通过经验自动改进的计算机算法的研究；也有学者认为，机器学习是指利用数据或以往的经验，以此优化计算机程序的性能标准。由此可知，机器学习是通过经验或数据来改进算法的研究，通过算法让机器从大量历史数据中学习规律，得到某种模式并利用此模型预测未来，机器在学习的过程中，处理的数据越多，预测结果就越精准。

机器学习在人工智能的研究中具有十分重要的地位。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。从20世纪50年代人们就开始了对机器学习的研究，从最初的基于神经元模型以及函数逼近论的方法研究，到以符号演算为基础的规则学习和决策树学习的产生，以及之后的认知心理学中归纳、解释、类比等概念的引入，至最新的计算学习理论和统计学习的兴起，机器学习一直都在相关学科的实践应用中起着主导作用。现在已取得了不少成就，并分化出许多研究方向，主要有符号学习、连接学习和统计学习等。

（一）机器学习的发展历程

机器学习发展过程大体可分为以下四个阶段：

1．50年代中叶到60年代中叶

在这个时期，所研究的是“没有知识”的学习，即“无知”学习；其研究目标是各类自组织系统和自适应系统；其主要研究方法是不断修改系统的控制参数以改进系统的执行能力，不涉及与具体任务有关的知识。指导本阶段研究的理论基础是早在40年代就开始研究的神经网络模型。随着电子计算机的产生和发展，机器学习的实现才成为可能。这个阶段的研究导致了模式识别这门新科学的诞生，同时形成了机器学习的二种重要方法，即判别函数法和进化学习。塞缪尔的下棋程序就是使用判别函数法的典型例子。不过，这种脱离知识的感知型学习系统具有很大的局限性。无论是神经模型、进化学习或是判别函数法，所取得的学习结果都很有限，远不能满足人们对机器学习系统的期望。在这个时期，我国研制了数字识别学习机。

2．60年代中叶至70年代中叶

本阶段的研究目标是模拟人类的概念学习过程，并采用逻辑结构或图结构作为机器内部描述。机器能够采用符号来描述概念（符号概念获取），并提出关于学习概念的各种假设。本阶段的代表性工作有温斯顿（Winston）的结构学习系统和海斯·罗思（Hayes Roth）等的基于逻辑的归纳学习系统。虽然这类学习系统取得较大的成功，但只能学习单一概念，而且未能投入实际应用。此外，神经网络学习机因理论缺陷未能达到预期效果而转入低潮。因此，使那些对机器学习的进展抱过大希望的人们感到失望。他们称这个时期为“黑暗时期”。

3．70年代中叶至80年代中叶

在这个时期，人们从学习单个概念扩展到学习多个概念，探索不同的学习策略和各种学习方法。机器的学习过程一般都建立在大规模的知识库上，实现知识强化学习。尤其令人鼓舞的是，本阶段已开始把学习系统与各种应用结合起来，并取得很大的成功，促进机器学习的发展。在出现第一个专家学习系统之后，示例归约学习系统成为研究主流，自动知识获取成为机器学习的应用研究目标。1980年，在美国的卡内基梅隆大学（CMU）召开了第一届机器学习国际研讨会，标志着机器学习研究已在全世界兴起。此后，机器归纳学习进入应用。1986年，国际杂志《机器学习》（Machine Learning）创刊，迎来了机器学习蓬勃发展的新时期。70年代末，中国科学院自动化研究所进行质谱分析和模式文法推断研究，表明我国的机器学习研究得到恢复。1980年西蒙来华传播机器学习的火种后，我国的机器学习研究出现了新局面。

4．机器学习最新阶段始于1986年

一方面，由于神经网络研究的重新兴起，对连接机制学习方法的研究方兴未艾，机器学习的研究已经在全世界范围内出现新的高潮，机器学习的基本理论和综合系统的研究得到加强和发展。另一方面，对实验研究和应用研究得到前所未有的重视，机器学习有了更强的研究手段和环境。从而出现了符号学习、神经网络学习、进化学习和基于行为主义（actionism）的强化学习等百家争鸣的局面。

机器学习：开启智能创新之门

图2 机器学习的发展历程

（二）机器学习的结构模型

机器学习的本质就是算法。算法是用于解决问题的一系列指令。程序员开发的用于指导计算机进行新任务的算法是我们今天看到的先进数字世界的基础。计算机算法根据某些指令和规则，将大量数据组织到信息和服务中。机器学习向计算机发出指令，允许计算机从数据中学习，而不需要程序员做出新的分步指令。

机器学习的基本过程是给学习算法提供训练数据。然后，学习算法基于数据的推论生成一组新的规则。这本质上就是生成一种新的算法，称之为机器学习模型。通过使用不同的训练数据，相同的学习算法可以生成不同的模型。从数据中推理出新的指令是机器学习的核心优势。它还突出了数据的关键作用：用于训练算法的可用数据越多，算法学习到的就越多。事实上，AI 的许多最新进展并不是由于学习算法的激进创新，而是现在积累了大量的可用数据。

机器学习：开启智能创新之门