订阅
纠错
加入自媒体

机器学习:开启智能创新之门

2017-10-23 09:59
来源: e-works

    (五)机器学习的算法分类

机器学习基于学习形式的不同通常可分为三类:

1.监督学习(Supervised Learning)
   给学习算法提供标记的数据和所需的输出,对于每一个输入,学习者都被提供了一个回应的目标。监督学习主要被应用于快速高效地教熟AI现有的知识,被用于解决分类和回归的问题。常见的算法有:

(1)决策树(Decision Trees):决策树可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树是一个决策支持工具,它用树形的图或者模型表示决策及其可能的后果,包括随机事件的影响、资源消耗、以及用途。用于分析判断有无贷款意向的决策树示如图 所示,从商业角度看,常用于基于规则的信用评估、赛马结果预测等。

机器学习:开启智能创新之门

图6 决策树

(2)Adaboost算法:这是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。算法本身是改变数据分布实现的,它根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。AdaBoost算法主要解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题和回归问题; 优点:学习精度明显增加,并且不会出现过拟合问题,AdaBoost算法技术常用于人脸识别和目标跟踪领域。

机器学习:开启智能创新之门

图7 Adaboost

(3)人工神经网络(Artificial Neural Network -ANN)算法:人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术完全不同的机理,克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点。

机器学习:开启智能创新之门

图8 人工神经网络

(4)SVM(Support Vector Machine):SVM 法即支持向量机算法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。 SVM是一种二分算法。假设在N维空间,有一组点,包含两种类型,SVM生成a(N-1) 维的超平面,把这些点分成两组。比如你有一些点在纸上面,这些点是线性分离的。SVM会找到一个直线,把这些点分成两类,并且会尽可能远离这些点。从规模看来,SVM(包括适当调整过的)解决的一些特大的问题有:广告、人类基因剪接位点识别、基于图片的性别检测、大规模图片分类,适用于新闻分类、手写识别等应用。

机器学习:开启智能创新之门

图9 支持向量机算法

(5)朴素贝叶斯(Naive Bayesian):贝叶斯法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。朴素贝叶斯分类器基于把贝叶斯定理运用在特征之间关系的强独立性假设上。优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。现实生活中的应用例子:电子邮件垃圾副过滤、判定文章属性分类、分析文字表达的内容含义和人脸识别、情感分析、消费者分类。

机器学习:开启智能创新之门

图10  朴素贝叶斯算法

(6)K-近邻(k-Nearest Neighbors,KNN):这是一种分类算法,其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。

机器学习:开启智能创新之门

图11  K-近邻算法

(7)逻辑回归(Logistic Regression):这是一种分类算法,主要用于二分类问题。逻辑回归是一种非常强大的统计方法,可以把有一个或者多个解释变量的数据,建立为二项式类型的模型,通过用累积逻辑分布的逻辑函数估计概率,测量分类因变量和一个或多个独立变量之间的关系。逻辑回归是一种非线性回归模型,相比于线性回归,它多了一个sigmoid函数(或称为Logistic函数)。通常,回归在现实生活中的用途如下:信用评估、测量市场营销的成功度、预测某个产品的收益、特定的某天是否会发生地震,路面交通流量分析、邮件过滤。

机器学习:开启智能创新之门

图12  逻辑回归算法

(8)随机森林算法(Random Forest):随机森林算法可以用于处理回归、分类、聚类以及生存分析等问题,当用于分类或回归问题时,它的主要思想是通过自助法重采样,生成很多个树回归器或分类器。在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定,常用于用户流失分析、风险评估。

机器学习:开启智能创新之门

图13  随机森林算法

(9)线形回归( Linear Regression):这是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。

机器学习:开启智能创新之门

图14  线形回归算法

<上一页  1  2  3  4  5  6  7  8  9  下一页>  余下全文
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号