为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

数统计学小史6误差分布 正态与偏态(上)

2017-11-30 10页 doc 32KB 39阅读

用户头像

is_180829

暂无简介

举报
数统计学小史6误差分布 正态与偏态(上)数统计学小史6误差分布 正态与偏态(上) 数理统计学小史陈希孺中国科技大学研究生院北京1000396 误差分布:正态与偏态上上一章我们讲了最小二乘法及其相关的发展在那里这个方法是纯粹作为一个处理测量值的代数方法来讨论的不涉及有关的统计推断问题要研究这个问题需要考虑到测量值有误差。这种误差假定量测过程排除了可能的系统性因素的影响是随机性的它有一定的概率分布对量测数据的统计分析就建立在这个分布的基础上。由此可知为把最小二乘法当然也包括最小一乘法及其他处理量测数据的方法与数理统计学挂上钩基础性的工作就是定出误差分布的形式。这个问题...
数统计学小史6误差分布 正态与偏态(上)
数统计学小史6误差分布 正态与偏态(上) 数理统计学小史陈希孺中国科技大学研究生院北京1000396 误差分布:正态与偏态上上一章我们讲了最小二乘法及其相关的发展在那里这个方法是纯粹作为一个处理测量值的代数方法来讨论的不涉及有关的统计推断问要研究这个问题需要考虑到测量值有误差。这种误差假定量测过程排除了可能的系统性因素的影响是随机性的它有一定的概率分布对量测数据的统计分析就建立在这个分布的基础上。由此可知为把最小二乘法当然也包括最小一乘法及其他处理量测数据的方法与数理统计学挂上钩基础性的工作就是定出误差分布的形式。这个问题的研究可远溯到16世纪的伟大天文学家伽利略。18世纪的伟大科学家拉普拉斯在这个问题上下了很大的工夫但主要的贡献属于伟大的数学家高斯他在19世纪初建立了测量误差的正态分布理论是统计史上的一座里程碑与这些发展有关的细节将在下文作简单的介绍。因为最小二乘法是针对数据结合模型而发展起来的参见第5讲这是一种线性模型。后来这个模型的意义脱出量测数据的意义之外而发展成为一个包罗极广大应用极广泛的统计模型现今常用的统计方法包括线性相关回归分析、方差分析等都可包容于其内。有关这个模型的理论和应用方面的进展主要是20世纪的事但其若干基础性的成果如作为整个理论的基础的高斯—马尔科夫定理却是在高斯的正态误差理论确立以后在19世纪的几十年期间中建立起来的。有关的历史情况也准备在本章中介绍一下。由高斯正态误差理论的影响以及如社会统计学家魁特奈特的工作的带动见第8章正态分布作为一种统计模型在19世纪极为流行一些学者甚至把19世纪的统计学称为正态分布统治的时代。但在当时也有少数学者注意到实际问题中数据不符合正态称为偏态的情况。到19世纪末至20世纪初终于引发了一些研究。其主要成果是卡尔??皮尔逊的分布族。要注意的是对偏态分布的研究是为了一般的统计数据分析的需要并非或主要不是针对量测误差。因其与正态分布的密切关系把这个内容也放在这一章。早期天文学家的工作丹麦统计史学家哈尔德AndersHald在其著作《1750年以前概率统计及其应用史》中指出天文学在数理统计学发展中所起的作用。“天文学自古代至18世纪是应用数学中最发达的领域。观测和数学天文学给出了建模及数据拟合的最初例子在这个意义下天文学家是最初一代的数理统计学家…天文学的问题逐渐引导到算术平均以及参数模型中的种种估计方法以最小二乘法为顶峰”。这一段引语也肯定了最小二乘法的显赫地位。不过如我们以前所曾指出?恼庵值匚坏娜妨?诩蟮某潭壬先【鲇谝桓鲇行У牟饬课蟛罾砺鄣慕?,鄙僬庋桓隼砺圩钚《数理统计与管理18卷 1期1999年1月法就不过是一个算法没有了与统计分析相联系的纽带。误差理论的基本问题当然是指:随机测量误差服从怎样的概率规律即有怎样的概率分布。这个问题的提出和讨论也是天文学者的功劳。在上述引文中哈尔德提到“天文学的问题逐渐引导到算术平均”似应作这样的理解:天文学家最早关心使用算术平均的合理性问题并从误差分布理论的角度来考察这个问题。16世纪著名的丹麦天文学家第谷TychoBrahe在改善观察仪器和观察条件训练观察人员方面做了大量的工作他让其助手独立地对某一天文量进行重复观测以资比较由此对观测误差的量级获得了解。在长达25年的时间内他对一些天体进行了系统的观测所得数据成为开普勒JohannesKepler1571—1630日后建立行星运动定律的基础而这又对牛顿建立其万有引力的学说起了极大的作用。不过第谷和开普勒都还没有提及建立随机观测误差的概率理论的问题。但开普勒在1619年发的著作《和谐的世界》中提出了一些建模modelbuilding的原则其中有一条是“模型选择的最终标准是其与观察数据的符合程 度”从今日的观点看这“符合程度”的提法只能从统计分析的角度去理解因而实质上蕴含了误差概率理论的问题。伟大的天文学家伽利略G.Galileo1564—1642可能是第一个在其著作中提出随机误差这个概念并对之有所讨论的学者。他在1632年出版的著作《关于两个主要世界系统的对话——托雷密和哥白尼》中提及这个问题。他是用“观测误差”这个名称。他没有提出“随机”和“分布”这样的概念但他所描述的“观测误差”的性质表明他的旨归实际上即我们现在所理解的随机误差分布他提出了以下几点:1?所有观测值都可以有误差其来源可归因于观测者、仪器工具以及观测条件。2?观测误差对称地分布在0的两侧——按:这当然假定已排除系统误差的情况并明确表明他指的是随机误差。3?小误差出现得比大误差更频繁。综合这几条伽利略所设想的误差分布用现今的术语说是一个关于0的对称分布其概率密度fx随x增加而递减。这个原则性的提法成为日后学者们在研究这一问题时的出发点。伽利略还提到误差的传递性质指出:所算出的天体间的距离是一些观察值的函数对观察值的小的变动可以引起距离值的大变动。当然以上这些先驱者的努力都没有超出定性式讨论的范围。当时概率论发展的水平也没有能提供为进行有意义的定量式研究所必须的工具认真的努力始于18世纪的中期。辛普森的工作辛普森 ThomasSimpson1710—1761是一个自学数学成才的人对狄莫弗的著作作过认真的研读。青年时曾沉迷于星相学这使他对天文学和数学感兴趣。他早年出版过几种有关机遇和精算的其关于误差理论的工作则是在1755年那时他是英国皇家军事学院教授并被选为皇家学会会员。他的工作是以一封写给一位勋爵的题为《在应用天文学中取若干个观察值的平均的好处》的信件中提出的。他在信中指出:在天文学界取算术平均的做法并没有为多数人所接受。他们认为当有多个观测值时应选择其中那个“谨慎地观测”所得的值认为这比平均值可靠。辛普森认为这是一件重要的事情他表示打算使用数学方法去试试看能否对这个问题有所进展以便使取平均这个做法有更大的可信度。回过头来看人们会觉得:辛普森所指出的当时天文学家对取平均抱怀疑的态度也有其75数理统计学小史现实的原因。因为不同天文台的设备和观测条件、人员素质上难免有差异故其观测结果的可靠性也有差异取平均将会使结果受到“坏”的观测值的干扰而不如其中的优秀者这种考虑恐在今日也还存在不过也要看到:这种“择优”并非总是可能面对众多的观测值往往并无足够的根据去鉴定其优劣如何只好一视同仁地对待用现在的术语只好假定手头这些观测值是独立同分布的。辛普森所做的工作实际上并未触及建立一般的误差概率理论的问题。他只是在误差假定为独立同分布满足某种特定的分布的前提下去计算平均误差误差的算术平均即各观测值的算术平均的误差的分布从而证明在某种概率的意义上平均误差小于个别误差。现今无法确知辛普森是否受到前述伽利略等人工作的影响但有一点与之相合:他撇开未知的真值不论而把注意力放在其误差上。美国统计史家斯蒂格勒指出这一点有重大意义因为它排除了一个未知参量而使问题提法简化了。设被测量的量真?滴次独立同分布观测值为X1…Xn于是各次测量的误差为eiXi-Η1?i?n若用X??2ni1Xin去估计Η其误差为eλ2ni1ein。辛普森想要证明的是:在下述意义之下eλ比单次测量的误差e1小即:Peγ?k?Pe1?kkgt01不等式1解释为:相比于e1eλ取小值的机会更大。自然对一组特定的观测结果e比e1大也完全可能。辛普森只对一种极特殊的误差分布通过计算证明了1式。他假定误差只能取0?1…?5这11个值至于取这些值的概率则是以在0处最大然后在两边按比例下降直到?6处为0即Pe1i6-ir r0?1…?52其中r136。分布 如下图所示:图一辛普森取n6对这一特例他算得Peγ?10.725 Pe1?10.444Peγ?20.967 Pe1?20.667等等这验证了1式这个结果可视为第一次在一个特定情况下严格地从概率的角度证明了算术平均的优良性。作为一般的原则辛普森在其工作中也提到了前述伽利略的那一些:他假定了无系统误差误差有一个由具体条件所限定的界限在这界限内依其与0距离的增大而递减。在具体计算比例时他使用了现今我们称之为母函数的方法他首先注意到分布2是两个独立的均匀分布85数理统计与管理18卷 1期1999年1月PΝi216 i?1?3?5的叠加因而误差和26i1ei是12个这样的分布的叠加而26i1eij的概率则是函数 16t-52t-32t-12t12t32t52126-12t-301tt2t3t4t5126-12t-301-t6121-t-12的展开式中tj一项的系数这不难利用二项展开式求得。辛普森进一步考察了图一中横轴上的分点无限加密的情形它的极限形式是一个连续的图二三角形分布如图二若底边端点的坐标为-a和a则这分布是两个独立的均匀分布R-a2a2的叠加。因此n个带这种分布的独立误差的叠加即2ni1ei就是2n个独立的均匀分布R-a2a2的叠加。利用上述母函数方法并令分点数目趋于无劣辛普森算出了这个分布的形式即现今熟知的独立均匀分布和的密度公式。。辛普森选择这样一个特例显然是出于计算上的可能性的考虑。可以猜想当他经过计算在这一特例上证实了1式时他可能会推测这个结果对任何符合上述性质的误差分布对称随x增大而下降都会成立。对正态误差这一点显然对某些其他常见分布也可以证明但是如误差有柯西分布其密度函数为?1x2-1则eλ与e1同分布而1式 式不成立的例子注1见第7讲。沿着辛普森这种成立等号。循着这个方向可以举出使1 想法研究这个问题的还有大数学家拉格朗日J.L.Lagrange1736—1813。他在1776年发表了一篇题为《关于取平均方法的有用性…》的论文考察了其他一些离散情况及个别的连续情况如误差有密度Ca2-x2x?a及C??cosxx??2的情形。然而长时间对这个问题进行研究用力最勤的是大数学家拉普拉斯P.S.Laplace1749—1827下面来介绍他的工作。拉普拉斯的工作与辛普森和拉格朗日的途径不同拉普拉斯不是先假定一种误差分布然后去设法证明平均值的优良性而是直接涉及误差论的基本问题即应取怎样的分布为误差分布以及在决定了误差分布后如何根据未知量Η的多次测量结果x1…xn去估计Η。图三关于前一个问题拉普拉斯也是从这样的假定出发:误差密度f应关于0对称即f-xfx且fx在x?0处增加时fx下降。图三画出了一个典型的这种函数的右半支问题是这种函数很多如何去决定其一。按当时科学界流行的做法一切都应当尽可能从某种“firstprinciple”出发。拉普拉斯这样推理:由于x??时fx?0随着x的增加曲线fx愈来愈平缓。因此其下降率即-f′x也应随x增加而下降。另一方面fx本身也是随x增加而下降。拉普拉斯假定:-f′x及fx在下降中总保持恒定比例即-f′xmfxx?0mgt0为常数。上述方程解出fxce-mxcgt0为常数由f-xfx得fxcemx当xlt0再由??-?fxdx195数理统计学小史定出cm2于是得到fxm2e-mx-?ltxlt?3这就是拉普拉斯给出的误差分布密度。它在误差理论中没有起到什么作用但是这个分布却以拉普拉斯分布的名称流传下来有时也把这个分布称为重指数分布doubleexponential大概是因为通常的指数分布限于xgt0的一边而这个分布是xgt0和xlt0两边都是指数拉普拉斯引进这一分布的时间是1772年。得出了误差密度3拉普拉斯就着手解决通过Η的观测值x1…xn去估计Η的问题这里首先要处理的是方法问题——要记住现今我们熟知的一些点估计方法如矩估计和极大似然估计之类当时都还没有。拉普拉斯处理这个问题是基于他的“不充分推理”的原则这在第6章中已有介绍其要点是:若A1A2…是等可能事件构成 一个完备事件群则对任一事件E有PAiE?PEAi4即比值PAiEPEAi与i无关设被测的量真值为Η误差密度为f则观测Η得到值x的概率与fx-Η成比例。因此n次独立观测得到值x1…xn的概率与fx1-Ηfx2-Η…fxn-Η5成比例。按“同等无知”的假定Η取各种值的先验机会看成等可能于是按不充分推理原则4在得到样本x1…xn后Η取各种值的后验概率fΗx1…xn应与5成比例:fΗx1…xn?fx1-Η…fxn-Η即 fΗx1…xnfx1-Η…fxn-Η??-??ni1fxi-??d??6为利用后验分布6去估计Η拉普拉斯提出了两个原则一是“均概”原则即在估计值Ηδ两边Η的概率相同即 ?Ηδ-?f??x1…xnd????Ηδf??x1…xnd??127另一个原则是绝对平均误差最小:记MΗ??-???-Ηf??x1…xnd??有MΗδminΗMΗ。后来他发现这两个原则是一回事二者所决定的估计Ηδ相同。今日在初等概率教本中都可以见到这个事实的证明。现在要把f的表达式3代入7而解出Ηδ在这个问题上拉普拉斯遇到了麻烦。他所以只考虑了n3的情况即使对这么一个简单的情况计算也颇不易解的形式也不简洁。例如不防设x1ltx2ltx3则在x2-x1gtx3-x2时解为Ηδx2m-1log113exp-mx2-x1-13exp-mx3-x2不仅如 m此这里还有一个待定系数m的问题。对此拉普拉斯又动用“不充分推理原则”并对作“同等无知”的假定最后搞出一个极其复杂的方程就是对n3的情况也难以对付。这样沿着这条路线没能得出什么有用的结果。以上的工作拉普拉斯作于1772—1774年他自己也认为所给的解法不能令人满意。以后他还曾继续沿着这条路线研究本问题例如在06数理统计与管理18卷 1期1999年1月1777年他从某种奇特的考虑出发提出 的根以fx2a-1logaxx?aagt08fx0当xgta为误差密度他花了几十页的篇幅去论证公式8据但他也了解:这个公式形状不太平常不可能有何实际的应用实际上与3相比8这个形式可以说离题更远以至今日的概率教科书上都不提到它不像3还留下一个拉普拉斯分布的名称。至此终18世纪可以说寻找误差分布的问题依旧进展甚微。现在轮到高斯出场出人意表的是他以极其简单的手法给了这个问题一个完满的解决其结果成为数理统计发展史上的一块里程碑。高斯导出误差正态分布1809年高斯CarlFriedrichGauss1777—1855发表了其数学和天体力学的名著《绕日天体运动的理论》。在此书末尾他写了一节有关“数据结合”datacombination的问题实际涉及的就是这个误差分布的确定问题。设真值为Ηn个独立测量值为x1…xn高斯把后者的概率取为LΗLΗx1…xnfx1-Η…fxn-Η9其中f为待定的误差密度函数。到此为止他的作法与拉普拉斯相同但在往下进行时他提出了两个创新的想法。一是他不采取贝叶斯式的推理方式而径直把使9式达到最大的ΗδΗδx1…xn作为Η的估计即使LΗδmaxΗLΗ10成立的Ηδ。现在我们把LΗ称为样本x1…xn的似然函数而把满足10式的Ηδ称为Η的极大似然估计这个称呼是追随费歇尔因为他在1912年发表的一篇文章中明确提到以上概念并是针对一般参数的情形。如果拉普拉斯采用了高斯这个想法那他会得出在已定误差密度3的基础上Η的估计是x1…xn的中位数medx1…xn即x1…xn按大小排列居于正中的那一个n为奇数时或居于正中那两个的算术平均n为偶数时这个解不仅计算容易且在实际意义上有时比算术平均xθ更合理。不过即使这样拉普拉斯的误差分布3大概也不可能取得高斯正态误差那样的地位原因是xθ是线性函数在正态总体下有完善的小样本理论而medx1…xn要用于推断就难于处理。另外这里所谈的是一个特定的问题——随机测量误差该有如何的分布。测量误差是由诸多因素形成每种因素影响都不大。按中心极限定理其分布近似于正态是势所必然。其实早在1780年左右拉普拉斯就推广了狄莫弗的结果得到了中心极限定理的比较一般的形式。可惜的是他 未能把这一成果用到确定误差分布的问题上来。高斯的第2点创新的想法是:他把问题倒过来先承认算术平均xθ是应取的估计然后去找误差密度函数f以迎合这一点即找这样的f使由10式决定的Ηδ就是xθ。高斯证明注2见第7讲:这只有在fx12?he-x22h211才能成立这里hgt0是常数这就是正态分布N0h。使用这个误差分布就容易对最小二乘法给出一种解释。回到第7章的方程3其中xoi…xkii1…n是观测数据记eixoix1iΗ1…xkiΗk1?i?n按理论它们应为0但因有测量误差存在实际不必为0故e1…en可视为误差。按高斯的第16数理统计学小史一个原则极大似然结合误差密度11e1…en的概率为2?h-nexp-12h22ni1xoix1iΗ1…xkiΗk2要此式达到最大必须取Η1…Ηk之值使表达式2ni1xoix1iΗ1…xkiΗk2达到最小于是得到Η1…Ηk的最小二乘估计。要注意的是这一点与待定常数h之值无关。高斯这项工作对后世的影响极大它使正态分布同时有了“高斯分布”的名称且如第7章曾指出的后世之所以多将最小二乘法的发明权归之于他也是出于这一工作。高斯是一个伟大的数学家重要的贡献不胜枚举但现今德国10马克的印有高斯头像的钞票其上还印有正态分布N?Ρ2的密度曲线。这传达了一种想法:在高斯的一切科学贡献中其对人类文明影响最大者就是这一项。在高斯刚作出这个发现之初也许人们还只能从其理论的简化上来评价其优越性其全部影响还不能充分看出来。这要到20世纪正态小样本理论充分发展起来以后。拉普拉斯很快得知高斯的工作并马上将其与他发现的中心极限定理联系起来。为此他在即将发表的一篇文章发表于1810年上加上了一点补充指出如若误差可看成许多量的叠加则根据他的中心极限定理则误差理应有高斯分布这是历史上第一次提到所谓“无误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成。后来到1837年海根G.Hagen在一篇论文中正式提出了这个学说。其实他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的“元误差”Ν1…Νn之和每个Νi只取?a两值其概率都是12。由此出发按狄莫弗的中心极限定理立即就得出误差近似地服从正态分布。拉普拉斯所指出的这一点有重大的意义在于它给误差的正态理论一个更自然合理、更令人信服的解释。因为高斯的说法有一点循环论证的气味。由于算术平均是优良的推出误差必须服从正态分布反过来由后一结论又推出算术平均及最小二乘估计的优良性故必须认定这二者之一算术平均的优良性误差的正态性为出发点。但算术平均虽则可以说人们从千百年的使用中体会了其优良性可并无理论上的充分根据以之作为理论的出发点就显得有不足之感拉普拉斯的理论把这断裂了的一环连接起来。我们这些后来的学者难免会有好奇:以拉普拉斯这样一位功力深厚、思想敏锐的顶尖级的学者为何竟未能在高斯的工作发表之前想到他发现的中心极限定理与他研究了多年的误差分布问题之间的联系对此像作者这样浅学寡闻的人实不敢妄加议论如果一定要说一点“事后诸葛亮”性质的话推想一个因素可能是:拉氏是以纯理论的思维方式来考虑这个问题。一切要按规矩——Firstprinciple。于是有f′与f成比例的假设及Ηm的“同等无知”的假定而其实误差分布是一个现实问题误差分布自有其规律何得一定就服从f′?f这样的形式假定而高斯的想法则是植根于现实算术平均是一个千百年来已确立了的估计。当高斯提出其上述第二个原则时他一定有这样的想法:如果某一个误差分布的理论竟不能导出算术平均那这理论的正确性和有效性是可疑的他因而大胆地把这一条取为出发点结果取得了成功按当时的情况估计拉氏应该是有更大的可能作出这一发现的人。要是这样常用的正态分布可能就会冠以“拉普拉斯分布”的名称了。具有重大意义的创新性的发现在事后看也许会觉 得平淡无奇或理所当然——数理统计史上不乏这样的例子前面讲过的最小二乘法及正态误差理论的发现都多少有这种性质可是在发现之前那一层薄薄的纸就是不易捅破因而在科学研究上最推重的就是能“捅破这一层纸”的独创性的思维。早期有关线性模型的工作26数理统计与管理18卷 1期1999年1月最小二乘法的提出本是为了处理形如 x0ix1iΒ1…xkiΒkei的数据结合模型这个模型对未知量Β1…Βk来说是一个线性模型最小二乘法给了估计它们的方法但这种估计的性质如何则依赖于有关误差ei的知识。因此高斯的正态误差理论的提出促进了这个方面的研究。不过终19世纪这纯粹只与误差分析有关如波特凯维奇为1909年出版的德文《数学科学百科全书》.
/
本文档为【数统计学小史6误差分布 正态与偏态(上)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索