【有书共读】机器学习与优化读书笔记 03

1.线性模型

传统的线性回归模型(一组输入一输出对的线性逼近)通过最小化线性模型预测值训练样本输出值之间的平方误差和来找到可能的最好的实验数据线性拟合。最小化可以“一招制胜”,通过推广线性代数中的矩阵求逆,也可以通过迭代的方式逐步修改模型参到并降低误差。广义逆法可能是拟合实验数据的最常用的技术。

在分类中,线性模型旨在用线条、平面与超平面来分离实例。要确定分离平面,人们可以要求把输入值映射到两个不同的输出值(如+1和一1)并使用回归。
考虑到泛化性找到健壮的分离超平面的更先进的技术是下面章节中将会描述的支持向量机。

计算机中不存在实数,它们只能用有限大小的二进制数字逼近,而这可能会导致误差和不稳定(样本点的小扰动导致结果变化较大)。

一些机器学习方法与生物大脑从经验和功能中的学习方式存在松散的联系。学习骑行车与符号逻辑和方程无关,而是关于如何进行逐步调整以及……复过来。迅速从初始的事故中恢复过来。

2.广义线性最小二乘法

多项式拟合以一种特定的方式使用线性系数模型(linear-in-the-coefficients model)来处理非线性问题。该模型包括(待定)系数的线性加权和乘以原始的输入变量的积。如果积被替换为输入变量的任意函数,相同的技术也可以使用,只要这个函数时固定的。(函数中没有自由参数,仅作为乘法系数)。通过最小化平方误差来确定最优系数,这就意味着求蟹万哭毕件歹程粤。如果系数的数目大于输入一输出实例数,会出现过拟合(over一fitting),用这样的模型来推断新输入值的输出结果是危险的。

多项式拟合的优度(goodness of a pofynoninal fit)可以通过预测观察到与实测数据的差异的概率来评价(给定了模型参数后数据的似然率)。如果这个概率很低,那么不应该太过于信任该模型。但关于误差如何生成的错误假设容易导致我们得出过于乐观或过于悲观的结论。统计从假设开始建立坚实的科学建筑。如果建立在无效假设的沙土上,即使最坚实的统计建筑也会倒塌粉碎。幸运的是,基于可行性强的大规模计算的方法(例如交叉验证)是容易理解的,并且具有健壮性。

像自助法(bootstrapping)这样“荒谬”的方法(对同一数据进行带放回的再抽样,并以蒙特卡罗的方式重复估计过程),可以用于获取估计的参数值周围的置信区间。你不过是最大化了自己被当成线性最小二乘法大师的概率。

3.规则、决策和森林

简单的“如果一那么”规则提炼出在某种程度上可以被人们理解的信息金块。的规则矛盾所带来的混乱,有一个简单方法是以层次结构来处理问题(首先是信息量最大的),由此引出带组织结构的简单的连续问题,称为决策树
避免可能

树可以用贪心和递归的方式习得:从一整套的实例集开始,选择一个测试,将它分为两个尽可能纯的子集,再重复产生子集。当子集的纯度足以在树叶上得到分类输出值时,递归过程终止。

充足的内存和强大的计算能力允许我们训练大量不同的树。通过收集所有输出以及平均(对于回归)或投票(对于分类),它们可以卓有成效地用作决策森林。决策森林有各种优点:像所有树那样,它们能自然地处理两类以上的分类问题以及缺失的属性;能提供基于概率的输出,以及概率和误差线;不会有过度训练的风险,因此能很好地泛化到从未见过的数据;由于其并行性,以及每个数据点上减少的测试问题集,它快速而高效。

虽然一棵树的树荫很小,但即使是最火热的机器学习应用,数以百计的树也可以带来清凉。

4.特征排序及选择

减少模型所使用的输入特征的数量,同时又能保持大致相同的性能这样做有许多优更快的训练和更短的运行时间,更小的模型和更高的可理解性,可能还有更强的泛化能力。

对特征进行排序,如果不考虑特定的建模方法以及它们之间的相互关系,将会是很困难的。想想一个侦探(在这种情况下,分类的目标是“有罪”或“无罪”)聪明地结合多个线索,并避免混乱的论证。排序和过滤只是试探的第一步,并且需要通过所选的方法尝试不同的特征集进行验证,将方法用特征选择方案“包装”起来。

一个简便的方法是:仅当有理由猜测是线性关系时,才信任相关系数其他相关度量,尤其是相关比,即使输出值不是定量的也适用。,否则可以考虑使用卡方来确认输入和输出之间可能的依赖性,通过估计单独和联合事件的概率。最后,可以利用强大的互信息来估计定性或定量特征之间的任意依赖关系,但要注意,只有非常少的几个实例时,结果可能会高估。

作为一个练习,挑选你自己喜欢的福尔摩斯的故事,并找出他使用了哪些特征(线索、证据)选择方法来揭露和逮捕真凶,并让他的朋友华生叹服。







#机器学习##笔记##读书笔记#
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务