女士品茶——统计学外传
统计学作为二十一世纪的最为流行的应用数学分支,在大数据时代中扮演的角色越来越重要。机器学习、模式识别的主流方法大都依赖于数理统计,不论是何种模型,最终都能归结到误差函数最小化,假设检验等统计学结论。统计学的起源可以追溯到上一世纪,那么,在20世纪中,统计学的发展是怎样影响到科学革命的?就让我们来读读这本有趣的统计学科普读物女士品茶 吧!
概述
千万别被书名所误导,本书既不谈美女,也不讲品茶,这是本地地道道的统计学科普读物。本书以二十世纪统计学的发展历程为线索,描述了参与这场统计学革命中一些著名统计学家的创造性工作。本书并未涉及到过多的概率统计理论知识,因此阅读本书不会需要过多的数学背景,当然,你也不应该指望从这本书能获得足够的统计学知识,毕竟这不是统计学教材。本书的主要线索是统计学家创造性的工作,而在其中最为突出的当属皮尔逊、费歇尔、J·奈曼三人。
K·皮尔逊
统计学的在二十世纪最初的发展可以追溯到高尔顿、K·皮尔逊,R·韦尔登创办生物统计学期刊,顾名思义,该期刊旨在研究达尔文生物进化的理论,通过对不同物种统计数据采集,采用统计相关方法来验证进化论的正确性。在高尔顿死后,K·皮尔逊作为信托基金的管理者也作为生物统计学的总编辑,发表了大量的社论,以其深刻的洞见能力形成了统计学革命。其一系列的工作,对于统计学具有开创性的意义,如拟合度,数据分布等概念的提出。在K·皮尔逊的期刊中,还有一个人不得不提到,那就是戈赛特,戈赛特以t检验闻名,作为啤酒厂的研究员,受限于啤酒厂的规矩,不能公开发表论文,所以戈赛特的工作都以student为名发表,这就是如今我们所熟知的t检验的来历。
费歇尔
费歇尔是一位天才,但他与上面所说的K·皮尔逊格格不入。费歇尔从小才智出众,但由于受眼疾所影响,很长时间晚上只能依靠听书来进行学习,在本科期间费歇尔便解决了K·皮尔逊给出的一个难题,但是并不招皮尔逊待见,并且皮尔逊的期刊也很少发表费歇尔的文章。费歇尔的工作从一个统计农业统计站开始,在这里,费歇尔在极大似然法、方差分析等方面的原创性工作都是通过对农作物收成以及作物肥料的数据研究获得。费歇尔与K·皮尔逊的对于统计学的主要分歧在于,K·皮尔逊以数据说话,在K·皮尔逊眼中,测量值是有限的集合,可以通过数据收集,得到测量值真实分布估计。而在费歇尔看来,测量集是无限的,我们进行估计的只是测量集的一个子集,只能通过对分布的参数估计来获得真实分布。K·皮尔逊与费歇尔二人作为当时英国统计学的执牛耳者,在统计学方面的开创性工作为统计学的研究奠定了基础。
J·奈曼
J·奈曼所受的正规数学教育有限,但他确是三人中间对于统计学教育贡献最大,组建加州伯克利大学的统计系,奖掖后进,提携新人,鼓励女生从事统计学工作。J·奈曼的研究工作是以基本大学教材与勒贝革的论文开始的。奈曼受二战的影响,大学教育被中断,能得到的数学资料有限,图书馆仅有的资料是一些勒贝格的论文集。所以,天才即使在任何困境下,总能脱颖而出的。J·奈曼的工作包括假设检验以及其他许多方面。
其他
在二十世纪的统计学发展中,还有诸多数学家在里面扮演着重要的角色,在此就不再对书本中的内容赘述。二战对统计学的创伤从这本书中也能看出来,苏联数学家在统计学的研究上原本十分领先,但是由于斯大林的清洗以及后期冷战缺乏学术交流而日渐萎缩。在本书中并未出现中国人的影子,相反印度的一个统计学实验室颇有建树。这亦是中国现代科学引以为憾的一个体现。
结论
本书是一本趣味性的读物,读来轻松写意!但亦能看到在科学发展上的差异,在英国20实际就能建立农作物站,研究肥料,杀虫的科学方法,而在中国到目前为止还十分少见。我们的科学大都还停留在实验室阶段,并没有回归到实际中去。英国的啤酒厂、日本的制造业无不体现着统计科学的应用,然而这些尚未在中国的工业实践中形成共识。质量控制、优选法这些常见的科学手段并没有深入到企业家的心中,认识到其重要性的人还少之又少,这亦是本次推介此本书的目的之一。