为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

机器学习方法汇总

2020-03-08 14页 doc 32KB 15阅读

用户头像

is_841159

暂无简介

举报
机器学习方法汇总机器学习经典书目汇总 本文总结了机器学习的经典书籍,包括数学基础和算法理论的书籍。 入门书单 《数学之美》 作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。 《programming collective intelligence》(《集体智慧编程》)作者toby segaran也是《beautifuldata : the stories behind elegant data solutions》(《数据之美:解密优雅数据解决方案背后的故事》)的作者。这本书最大的优势就是里面...
机器学习方法汇总
机器学习经典书目汇总 本文总结了机器学习的经典书籍,包括数学基础和算法理论的书籍。 入门书单 《数学之美》 作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。 《programming collective intelligence》(《集体智慧编程》)作者toby segaran也是《beautifuldata : the stories behind elegant data solutions》(《数据之美:解密优雅数据解决背后的故事》)的作者。这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门书。目前中文版已经脱销,对于有志于这个领域的人来说,英文的pdf是个不错的选择,因为后面有很多经典书的翻译都较差,只能看英文版,不如从这个入手。还有,这本书适合于快速看完,因为据评论,看完一些经典的带有数学推导的书后会发现这本书什么都没讲,只是举了很多例子而已。 《algorithms of the intelligent web》(《智能web算法》)作者haralambos marmanis、dmitry babenko。这本书中的公式比《集体智慧编程》要略多一点,里面的例子多是互联网上的应用,看名字就知道。不足的地方在于里面的配套代码是beanshell而不是python或其他。总起来说,这本书还是适合初学者,与上一本一样需要快速读完,如果读完上一本的话,这一本可以不必细看代码,了解算法主要思想就行了。 《统计学习方法》 作者李航,是国内机器学习领域的几个大家之一,曾在msra任高级研究员,现在华为诺亚方舟实验室。书中写了十个算法,每个算法的介绍都很干脆,直接上公式,是彻头彻尾的“干货书”。每章末尾的参考文献也方便了想深入理解算法的童鞋直接查到经典论文;本书可以与上面两本书互为辅助阅读。 《machine learning》(《机器学习》) 作者tom mitchell是cmu的大师,有机器学习和半监督学习的网络课程视频。这本书是领域内翻译的较好的书籍,讲述的算法也比《统计学习方法》的范围要大很多。据评论这本书主要在于启发,讲述公式为什么成立而不是推导;不足的地方在于出版年限较早,时效性不如prml。但有些基础的经典还是不会过时的,所以这本书现在几乎是机器学习的必读书目。 《mining of massive datasets》(《大数据》) 作者anand rajaraman[3]、jeffrey david ullman,anand是stanford的phd。这本书介绍了很多算法,也介绍了这些算法在数据规模比较大的时候的变形。但是限于篇幅,每种算法都没有展开讲的感觉,如果想深入了解需要查其他的资料,不过这样的话对算法进行了解也足够了。还有一点不足的地方就是本书原文和翻译都有许多错误,勘误表比较长,读者要用心了。 《data mining: practical machine learning tools and techniques》(《数据挖掘:实用机器学习技术》) 作者ian h. witten 、eibe frank是weka的作者、新西兰怀卡托大学教授。他们的《managinggigabytes》[4]也是信息检索方面的经典书籍。这本书最大的特点是对weka的使用进行了介绍,但是其理论部分太单薄,作为入门书籍还可,但是,经典的入门书籍如《集体智慧编程》、《智能web算法》已经很经典,学习的话不宜读太多的入门书籍,建议只看一些上述两本书没讲到的算法。 《机器学习及其应用》 周志华、杨强主编。来源于“机器学习及其应用研讨会”的文集。该研讨会由复旦大学智能信息处理实验室发起,目前已举办了十届,国内的大牛如李航、项亮、王海峰、刘铁岩、 余凯等都曾在该会议上做过讲座。这本书讲了很多机器学习前沿的具体的应用,需要有基础 的才能看懂。如果想了解机器学习研究趋势的可以浏览一下这本书。关注领域内的学术会议 是发现研究趋势的方法嘛。 《managing gigabytes》(深入搜索引擎) 信息检索不错的书。 《modern information retrieval》 ricardo baeza-yates et al. 1999。貌似第一本完整讲述ir的书。可惜ir这些年进展 迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,ricardo同学现在是yahoo research for europe and latin ameria的头头。 《推荐系统实践》 项亮,不错的入门读物 深入 《pattern classification》(《模式分类》第二版) 作者richard o. duda[5]、peter e. hart、david。模式识别的奠基之作,但对最近呈 主导地位的较好的方法svm、boosting方法没有介绍,被评“挂一漏万之嫌”。 《pattern recognition and machine learning》 作者christopher m. bishop[6];简称prml,侧重于概率模型,是贝叶斯方法的扛鼎之 作,据评“具有强烈的工程气息,可以配合stanford 大学 andrew ng 教授的 machine learning 视频一起来学,效果翻倍。” 《the elements of statistical learning : data mining, inference, andprediction》, (《统计学习基础:数据挖掘、推理与预测》第二版) 作者roberttibshirani、trevor hastie、jerome friedman。“这本书的作者是boosting 方法最活跃的几个研究人员,发明的gradient boosting提出了理解boosting方法的新角度, 极大扩展了boosting方法的应用范围。这本书对当前最为流行的方法有比较全面深入的介绍, 对工程人员参考价值也许要更大一点。另一方面,它不仅总结了已经成熟了的一些技术,而 且对尚在发展中的一些议题也有简明扼要的论述。让读者充分体会到机器学习是一个仍然非 常活跃的研究领域,应该会让学术研究人员也有常读常新的感受。”[7] 《data mining:concepts andtechniques》(《数据挖掘:概念与技术》第三版) 作者(美)jiawei han[8]、(加)micheline kamber、(加)jian pei,其中第一作者是 华裔。本书毫无疑问是数据挖掘方面的的经典之作,不过翻译版总是被喷,没办法,大部分 翻译过来的书籍都被喷,想要不吃别人嚼过的东西,就好好学习英文吧。 《ai, modern approach 2nd》 peter norvig,无争议的领域经典。 《foundations of statistical natural language processing》 自然语言处理领域公认经典。 《information theory:inference and learning algorithms》《statistical learning theory》 vapnik的大作,统计学界的权威,本书将理论上升到了哲学层面,他的另一本书《the nature ofstatistical learning theory》也是统计学习研究不可多得的好书,但是这两本 书都比较深入,适合有一定基础的读者。 数学基础 《矩阵分析》 roger horn。矩阵分析领域无争议的经典 《概率论及其应用》 威廉·费勒。极牛的书,可数学味道太重,不适合做机器学习的《all of statistics》机器学习这个方向,统计学也一样非常重要。推荐all of statistics,这是cmu的一本很简洁的教科书,注重概念,简化计算,简化与machine learning无关的概念和统计内容,可以说是很好的快速入门材料。 《nonlinear programming, 2nd》 最优化方法,非线性规划的参考书。 《convex optimization》 boyd的经典书籍,被引用次数超过14000次,面向实际应用,并且有配套代码,是一本不可多得的好书。 《numerical optimization》 第二版,nocedal著,非常适合非数值专业的学生和工程师参考,算法流程清晰详细,原理清楚。 《introduction to mathematical statistics》 第六版,hogg著,本书介绍了概率统计的基本概念以及各种分布,以及ml,bayesian 方法等内容。 《an introduction to probabilistic graphical models》 jordan著,本书介绍了条件独立、分解、混合、条件混合等图模型中的基本概念,对隐变量(潜在变量)也做了详细介绍,相信大家在隐马尔科夫链和用gaussian混合模型来实现em算法时遇到过这个概念。 《probabilistic graphical models-principles and techniques》 koller著,一本很厚很全面的书,理论性很强,可以作为参考书使用。 具体数学 经典 大家的补充 线性代数 (linear algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于learning是必备的基础,对它的透彻掌握是必不可少的。我在科大篇二:机器学习的方法 浅谈机器学习方法 【摘要】本文以什么是机器学习、机器学习的发展历史和机器学习的主要策略这一线索,对机器学习进行系统性的描述。接着,着重介绍了流形学习、李群机器学习和核机器学习三种新型的机器学习方法,为更好的研究机器学习提供了新的思路。 【关键词】机器学习;人工智能;李群机器学习;核机器学习;流形学习 brief remarks on machine learning methods zhen panhao abstract:first of all, machine learning is described systematically on the concept of machine learning, the history and main strategies of machine learning. then,three new machine learningmethods of manifold learning,lie group machine learning and nuclear machine learning are referred emphatically to provide anew way of thinking for better research on machine learning. keywords:machine learning;artificial intelligence;lie group machine learning;kernel machine learning;manifold learning 0 引言计算机视觉是指用计算机实现人的视觉功能,希望能根据感知到的图像( 视频) 对实际的目标和场景内容做出有意义的判断如何能正确识别目标和行为非常关键,其中一个最基本的和最核心的问题是对图像的有效表达如果所选的表达特征能够有效地反映目标和行为的本质,那么对于理解图像就会取得事半功倍的效果正因为如此,关于机器学习的发展历史特征的构建和选取一直得到广泛关注近些年来人们已构建出许多特征,并且得到了广泛的应用, 例如等等设计特征是一种利用人类的智慧和先验知识,并且将这些知识应用到目标和行为识 别技术中的很好的方式但是,如果能通过无监督的方式让机器自动地从样本中学习到表征这 些样本的更加本质的特征则会使得人们更好地用计算机来实现人的视觉功能,因此也是近些 年人们关注的一个热点方向深度学习( deeplearning) 的目的就是通过逐层的构建一个多 层的网络来使得机器能自动地学习到反映隐含在数据内部的关系,从而使得学习到的特征更 具有推广性和表达力本文旨在向读者介绍深度学习的原理及它在目标和行为识别中的最新动 态,希望吸引更多的研究者进行讨论,并在这一新兴的具有潜力的视觉领域做出更好的成果 首先对深度学习的动机历史以及应用进行了概括说明; 主要介绍了基于限制玻尔兹曼机的 深度学习架构和基于自编码器的深度学习架构,以及深度学习 近些年的进展,主要讨论了去噪自编码器( denoisingautoencoder),卷积限制玻尔兹曼 机,三元因子玻尔兹曼机( 3-way factorizedboltzmannmachine),以及神经自回归分布估计 器( nade) 等一些新的深度学习; 对目前深度学习在计算机视觉中的一些应用以及取得 的成果进行介绍; 最后,对深度学习与神经网络的关系,深度学习的本质等问题加以讨论, 提出目前深度学习理论方面需要解决的主要问题 1机器学习的发展历程 机器学习的发展大致可以分为四个阶段. 第一阶段:20世纪50年代中叶至60年代中叶这个时期是机器学习研究的热烈时代研 究对象是没有知识的学习,目标是各自组织和适应系统此阶段有两个代表,一是1957年 rosenblatt提出了感知机算法,这是第一个具有重要学术意义的机器学习的算法二是50年 代末,samuel编写了跳棋程序,利用启发式搜索技术,可以从经验和棋谱中进行学习,不断 调整棋盘函数,提高棋艺. 第二阶段:20世纪60年代中叶至70年代中叶,机器学习的冷静时期本阶段是模拟人类 的学习过程,采用逻辑结构或图结构作为内部描述代表有:1969年minsky与papert出版 的对机器学习研究有深远影响的著作<感知机>一书. 第三阶段:20世纪70年代中叶至80年代中叶,称为复兴时期在这个时期,人们从学习 单一概念延伸至学习的多个概念,探索不同的学习策略和各种学习方法在此阶段中,研究者已经将机器学习系统与现实应用相结合,完成相应的学习过程,取得了很大的成功 1980年,在美国召开的第一届机器学习国际研讨会,着机器学习在全世界范围内的全面 兴起. 第四阶段:1986年至今由于作为机器学习科学基础之一的神经科学研究的重新兴起, 机器学习也进一步受到了人们的重视另一方面,对实验研究和应用研究得到前所未有的重视. 2.1 机械学习 机械学习是一种最基本的学习策略,把环境提供的信息简单存储起来,不经过任何推理, “死记硬背”式的学习。适合于一些环境相对稳定,输入输出模式相对固定的系统中,例如 医生给病人看病。 2.2 传授学习 (1) 传授学习又叫做指导式学习或示教学习。传授学习的学习过程可以简单地描述如下: 请求:先向指导者请求提出建议;(2)解释:接受建议并将其转化为内部表示形式;(3)操 作化:将解释后的建议转化为具体的知识;(4)归并:将得到的新知识归并到知识库中;(5) 评价:对新知识进行评价,常用方法有,检查新知识与知识库里的知识是否矛盾,或者使用 新知识执行某些任务,观察其执行情况。 2.3 演绎学习 演绎学习以演绎推理为基础。演绎推理是一种有一般到个别的推理方法,其核心是三段 论。例如,1动物都会死亡;2狗是一种动物;3狗会死亡。只要对给定的知识进行演绎的保 真推理,就能得出一个正确的新结论,然后把有价值的结论存储起来。 2.4 归纳学习 归纳学习以归纳推理为基础。从某个概念的一系列正例和反例中归纳出一个一般的概念描述。归纳学习可分为有导师学习和无导师学习。有导师学习,又称示例学习。给学习系统提供正例和反例,学习系统通过归纳算法求解出一个总的概念描述。无导师学习,又称观察与发现学习。通过由环境提供的观察来进行学习,而且这些观察是未经过知道者分类的例子。 2.5 类比学习 类比学习是一种利用相似性来认识新事物的学习方式,其基础是类比推理。可以看作是演绎学习和归纳学习的组合学习形式。 学习过程: (1)联想搜索匹配:提取特征值,搜索和它相似的已知事物; (2)检验相似程度:判断相似程度,相似程度达到一定阈 值,则说明匹配成功; (3)修正变换求解:即类比映射,把对已知事物的有关知 识进行适当的调整或变换,以求出新事物的解; (4)更新知识库:求出新事物的解以后,将新事物及其解 并入知识库。 3 机器学习方法 3.1 流形学习 现实世界中的数据,例如语音信号、数字图像或功能性磁共振图像等,通常都是高维数据,为了正确地了解这些数据,我们就需要对其进行降维,降维的目的就是要找出隐藏在高维数据中的低维结构。流形学习是一种新的数据降维方法,能揭示数据的内在变化规律,其目标是发现嵌入在高维数据空间中的低维流形结构,并给出一个有效的低维表示。2000年以来,流形学习在包括数据挖掘、机器学习、计算机视觉等多个研究领域得到了广泛的应用。 3.2 李群机器学习 李群机器学习(lie group machine learning,lml)作为机器学习领域的一种新的学习方法,一方面继承流形学习的优点,另一方面借用李群的思想,形成了具有创新特色的学习范式.自2004年提出至今,已引起加拿大、爱尔兰、芬兰、意大利、美国等国内外同行的广泛关注。李群结构是目前学术界公认的对学习问题研究很有用的一套理论工具。从数据分析的角度来说,用机器学习进行数据分析(数据挖掘),其目的就是揭示这些数据具有的规律,从而帮助用户提供解释的依据。李群一方面具有好的数学结构,另一方面物理学家广泛使用李群方法来处理物理学中复杂数据的启发。因此,引进李群理论对机器学习是一种可以探索的新思路。 3.3 核机器学习 20世纪90年代初随着统计学习理论的完善和线性超平面函数集容量控制方法的发现,提出了著名的支撑矢量机方法(svms)。随后,以支撑矢量机为核心算法的核机器(km)方法和fisher判断分析(fda)方法得到了机器学习、模式识别、网络搜索引擎技术、计算机视觉等等领域的广泛关注。核机器方法以统计学习理论为基础,巧妙利用了mercer核技巧,使其获得了良好的推广能力、强大的非线性处理能力、灵活的相似性测度定义和简洁的模型表示,是目前在特征提取、模式识别、数据发掘领域公认的具有最佳性能的方法之一。 4.1基于限制玻尔兹曼机的深度学习架构 玻尔兹曼机( boltzmannmachine)本质上是一种能量模型能量模型是指对于参数空间( configurationspace) 中每一种情况均有一个标量形式的能量与之对应能量函数就是从
/
本文档为【机器学习方法汇总】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索