为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 数据科学_鄂维南

数据科学_鄂维南

2019-04-21 8页 doc 28KB 26阅读

用户头像

is_212655

暂无简介

举报
数据科学_鄂维南数据科学——鄂维南 一、数据科学的基本内容 大数据时代在科学领域里的表现是数据科学的兴起。常常听到有人问:多大才算是“大数据”?“大数据”和“海量数据”有什么区别?其实根本没有必要为“大数据”这个名词的确切含义而纠结。“大数据”是一个热点名词,它代表的是一种潮流、一个时代,它可以有多方面的含义。“海量数据”是一个技术名词,它强调数据量之大。而数据科学则是一个学科、一门新兴的学科。 为什么要强调数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不一样? 作为一门学科,数据科学所依赖的两个因素是数据的广泛性和多样性,以及...
数据科学_鄂维南
数据科学——鄂维南 一、数据科学的基本内容 大数据时代在科学领域里的表现是数据科学的兴起。常常听到有人问:多大才算是“大数据”?“大数据”和“海量数据”有什么区别?其实根本没有必要为“大数据”这个名词的确切含义而纠结。“大数据”是一个热点名词,它代表的是一种潮流、一个时代,它可以有多方面的含义。“海量数据”是一个技术名词,它强调数据量之大。而数据科学则是一个学科、一门新兴的学科。 为什么要强调数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不一样? 作为一门学科,数据科学所依赖的两个因素是数据的广泛性和多样性,以及数据研究的共性。现代社会的各行各业都充满了数据,而且这些数据也是多种多样,不仅包括传统的结构型数据,也包括象网页、文本、图像、视频、语音等非结构型数据。正如我们后面将要讨论到的,数据分析本质上都是在解反问题,而且是随机模型的反问题。所以,对它们的研究有着很多的共性。比方说自然语言处理和生物大分子模型里都用到隐式马氏过程和动态规划,其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种手段。所以,用于图像处理的算法和用于压缩感知的算法有着许多共同之处。这在新加坡国立大学沈佐伟教授的工作中就可以很明显地看出来。 除了新兴的学科如计算广告学之外,数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据,前者包括象生物信息学、天体信息学、数字地球等领域,后者包括统计学、机器学习、数据挖掘、数据库等领域,这些学科都是数据科学的重要组成部分,但只有把它们有机地放在一起,才能形成整个数据科学的全貌。 用数据的方法来研究科学,最典型的例子是开普勒关于行星运动的三大定律。 开普勒的三大定律是根据他的前任,一位叫第谷的天文学家留给他的观察数据总结出来的,表9-1是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间(以年为单位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒的第三定律。 表9-1太阳系八大行星绕太阳运动的数据 行星 周期(年) 平均距离 周期2/距离2 水星 金星 地球 火星 木星 土星 天王星 海王星 0.241 0.615 1.000 1.880 11.800 29.500 84.010 165.000 0.39 0.72 1.00 1.52 5.20 9.54 9.18 30.06 0.98 1.01 1.00 1.01 0.99 1.00 1.00 1.00         开普勒虽然总结出他的三大定律,但他并不理解其内涵。牛顿则不然,牛顿用他的第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。如果忽略行星之间的相互作用,那么这就成了一个两体问题。因此很容易求出这个常微分方程组的解,并由此推出开普勒的三大定律。 牛顿运用的是寻求基本原理的方法,它远比开普勒的方法深刻。牛顿不仅知其然,而且知其所以然,所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。这种方法在上个世纪初期达到了顶峰:在它的指导下,物理学家们发现了量子力学。原则上来讲,我们日常生活中所碰到的自然现象都可以从量子力学出发得到解决,量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理,这应该说是很成功,但事情远非这么简单。正如狄拉克指出的那样,如果以量子力学的基本原理为出发点去解决这些问题,那么其中的数学问题太困难了。所以,如果要想有进展,还是必须做妥协,也就是说要对基本原理作近似。 再举另外一个例子,表9-2中形象地描述了一组人类基因组的SNP数据(SingleNucleotidePolymorphismdata)。一组研究人员在全世界挑选出1064个志愿者,并把他们的SNP数据数字化,也就是把每个位置上可能出现的10种碱基对用数字来代表,对这组数据作主组分分析,就可以得到图9-1中的结果。其中横轴和纵轴代表的是第一和第二奇异值所对应的特征向量。这些向量一共有1064个分量,对应1064个志愿者。值得注意的是这组点的颜色所代表的意义。可以看出,人类进化的过程可以从这组数据中通过最常见的统计分析的方法,即主组分分析而展示出来。 主组分分析是一种最简单的数据分析方法,它的做法是对数据的协方差矩阵作对角分解。 表9-2SNP数据的示意图   SNP1SNP2……SNPm 志愿者1 志愿者2 志愿者3 ? 志愿者n 01……0 02……1 19……1     其中:n=1064,m=644258,0,1,…,9分别代表碱基对是AA,AC,CC,…。 参见:JunZ.Lietal,“Worldwidehumanrelationshipsinferredfromgenome-widepatternsofvariation”,Science,22,Feburary,2008. 图9-1对SNP数据作主组分分析的结果告诉我们人类进化的过程 这里横轴和纵轴分别表示最大奇异值和第二大奇异值所对应的特征向量。此结果系姚远等根据JunZ.Li等人文章中的结果重新制作。 这样的问题,如果采用从基本原理出发的牛顿模式,则基本上是没法解决的,而基于数据的开普勒模式则是行之有效。尽管牛顿模式很深刻,但对复杂的问题,开普勒模式往往更有效,开普勒模式最成功的例子是生物信息学和人类基因组工程。正是因为它们的成功,材料基因组工程等类似的项目也被提上了议事日程。同样,天体信息学、计算社会学等等也成了热门学科。这些都是用数据的方法来研究科学问题的例子。图像处理是另外一个典型的例子,图像处理是否成功是由人的视觉系统决定的。所以,要从根本上解决图像处理的问题,就需要从理解人的视觉系统着手,并了解不同质量的图像,对人的视觉系统产生什么样的影响。这样的理解当然很深刻,而且也许是我们最终所需要的。但从目前来看,它过于困难也过于复杂。解决很多实际问题时,并不需要它,而是一些更为简单的数学模型就足够了。 用数据的方法来研究科学问题,并不意味着就不需要模型,只是模型的出发点不一样,不是从基本原理的角度去找模型。就拿图像处理的例子来说,基于基本原理的模型需要描述人的视觉系统以及它与图像之间的关系,而通常的方法则可以是基于更为简单的数学模型,如函数逼近的模型。 怎样用科学的方法来研究数据?这包括以下几个方面的内容:数据的获取,存储,和数据的分析,下面我们将主要讨论数据的分析。 二、数据分析的中心问题 比较常见的数据有以下几类: 1)表格。这是最为经典的数据。 2)点集(pointcloud)。很多数据都可以看成是某种空间的一堆点。 3)时间序列。文本,通话,DNA序列等都可以看成是时间序列。它们也是一个变量(通常可以看成是时间)的函数。 4)图像。可以看成是两个变量的函数。 5)视频。时间和空间坐标的函数。 6)网页,报纸等。虽然网页或报纸上的每篇文章都可以看成是时间序列,但整个网页或报纸又具有空间结构。 7)网络数据。 还可以考虑更高层次的数据,如图像集,时间序列集,表格序列等等。 数据分析的基本假设就是观察到的数据都是由背后的一个模型产生的,数据分析的基本问题就是找出这个模型。由于数据采集过程中不可避免地会引入噪声,通常这些模型都是随机模型。 表9-3常见的数学模型 数据类型 模型 点集 时间序列 图像 网络 概率分布 随机过程(如隐式马氏过程等) 随机场(如吉布斯随机场) 图模型,贝叶斯模型     当然,在大部分情况下,我们并不感兴趣整个模型,而只是希望找到模型的一部分内容,如: 1)相关性。判断两组数据是不是相关的。 2)排序。比方说对网页作排序。 3)分类、聚类。把数据分成几类。 很多情况下,我们还需要对随机模型作近似,最常见的是把随机模型近似为确定型模型,所有的回归模型都采用了这样的近似,基于变分原理的图像处理模型也采用了同样的近似。另一类方法是对其分布作近似,例如假设概率密度是正态分布,或假设时间序列是马尔可夫链等等。 分析数据的第一步是赋予数据一定的数学结构,这种结构包括: 1)度量结构。在数据集上引进度量,也就是距离,使之成为一个度量空间。文本处理中的余弦距离函数就是一个典型的例子。 2)网络结构。有些数据本身就具有网络结构,如社交网络。有些数据本身没有网络结构,但可以附加上一个网络结构。比方说度量空间的点集,我们可以根据点与点之间的距离来决定是否把两个点连接起来,这样就得到一个网络结构。 3)代数结构。比方说我们可以把数据看成是向量,或矩阵,或更高阶的张量。有些数据集具有隐含的对称性。这也可以用代数的方法表达出来。 在这基础上,我们可以问更进一步的问题。例如: 1)拓扑结构。从不同的尺度去看数据集,得到的拓扑结构可能是不一样的。最著名的例子是3×3的自然图像数据集里面隐含着一个2维的克莱因瓶。(参见:RobertGhrist,BARCODES:THEPERSISTENTTOPOLOGYOFDATA,BULLETIN(NewSeries)OFTHEAMERICANMATHEMATICALSOCIETY,Volume45,Number1,January2008,Pages61-75)。 2)函数结构。尤其对点集而言,寻找其中的函数结构是统计学的基本问题。这里的函数结构包括:线性函数,用于线性回归;分片常数,用于聚类或分类;分片多项式,如样条函数;其他函数如小波展开等。 三、数据分析的主要困难 我们碰到的数据通常有这样几个特点:一是数据量大,大家只要想一想,万维网上有多少网页,这些网页上有多少数据,就可以对现在碰到的数据量之大有点感觉了;第二是维数高,前面提到的SNP数据是64万维的;第三是类型复杂,比方说这些数据可以是网页或报纸,也可以是图像,视频;第四是噪音大。 这里面最核心的困难是维数高,维数高给我们带来的是维数诅咒(curseofdimension):模型的复杂度和计算量随着维数的增加而指数增长。例如非参数化的模型中参数的个数会随着维数的增加而指数增长。 怎样克服维数高带来的困难?通常有两类方法:一类方法就是将数学模型限制在一个极小的特殊类里面,如线性模型,如假设概率密度遵循正态分布,如假设观测到的时间序列是隐式马氏过程等;另一类方法是利用数据可能有的特殊结构,例如稀疏性,低维或低秩,光滑性等等。这些特性可以通过对模型作适当的正则化而实现。当然,降维方法也是主要方法之一。
/
本文档为【数据科学_鄂维南】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索