0%

Statistics

statisticsfrom-wired.com_.jpg

在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据数据,以便给出正确消息的科学。

统计学的英文statistics最早源于现代拉丁文Statisticum Collegium(国会)、意大利文Statista(国民或政治家)以及德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。十九世纪,统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。

统计学的范畴

概率论与数理统计
抽样与抽样分布
统计数据的搜集、整理与显示
参数估计
非参数估计
假设检验
方差分析
时间序列分析
统计指数
聚类分析与判别分析
主成分分析与因子分析
相关分析与回归分析

延伸学科
有些科学广泛的应用统计的方法使得他们拥有各自的统计术语,这些学科包括:
农业科学
生物统计
商务统计
数据采矿(应用统计学以及图形从数据中获取知识)
经济统计学
电机统计
统计物理学
人口统计
心理统计学
教育统计学

统计软件gretl
社会统计(包括所有的社会科学)
文献统计分析
化学与程序分析(所有有关化学的数据分析与化工科学)
运动统计学,特别是棒球以及曲棍球

统计对于商业以及工业是一个基本的关键。他被用来了解与测量系统变异性,程序控制,对数据作出结论,并且完成数据取向的决策。在这些领域统计扮演了一个重要的角色。

统计学

该书的特点是绝对不会刻板的罗列公式,而是把统计学的意义通过具体的实例来展现,而且行文相当流畅,不会带给人“教科书式”的暮气沉沉的感觉。难能可贵的是,该书的示例分析相当深刻,而且富含逻辑和实证,感觉就象福尔摩斯探案一般,把为什么那些看似“公正”“权威”却又离结果相去甚远的预测的烫金,层层地剥落下来,最后指出其背后的失误之处。读这本书能让人产生这么一般感慨,原来统计学不是靠背公式的,学好统计靠的是对统计原理的深刻理解。

说说统计学、概率论和数理统计这些老梗 精选

说明:本博客与微信公众号《嘉数汇》部分同步更新,内容大部分原创。请扫码关注《嘉数汇》公众号。

“梗”这个字眼在当下综艺节目中出现得最多,意思是笑点。梗系讹字,正字应为“哏”。网上很多文章说梗这个字其实是台湾人以讹传讹,人云亦云传出来的。比如“老梗”在台湾综艺节目中就指被用了许多次的旧搞笑桥段,也就是老笑话。后来意思演变成作品中不断重覆出现的老桥段。用了太多次的老梗会被认为缺乏创意(或称为没梗了)。

今天我们就来说说统计学、概率论和数理统计这些老梗。为什么要说他们呢,因为这几个字眼大家肯定是已经无数次地碰到过了,但他们究竟代表了什么,以及他们之间的区别与联系,相信大家平时肯定是没怎么关注过,而是更多的混为一谈。

然而今天,随着大数据与数据科学的热火朝天,这几个词重新被大家给予了高度关注,特别是统计学。原因也很自然:分析思维是数据科学的核心思维方式,而分析思维就是关于计算与统计的思维。

统计思维生长的土壤就是概率论和数理统计。

1、统计学

首先说说统计学,关于这个词其实是个历史遗留问题。因为从统计学的发展历史来看,最早的统计学和国家经济学有密切的关系。统计学的英文是“statistic”,其实它是源于意大利文的“stato”,意思是“国家”、“情况”,也就是后来英语里的state(国家),在十七、十八世纪,统计学很多时候都是以经济学的姿态出现的。根据维基百科:

By the 18th century, the term “statistics” designated the systematic collection of demographic and economic data by states. For at least two millennia, thesedata were mainly tabulations of human and material resources that might betaxed or put to military use.

统计学最开始来源于经济学和政治学。17世纪的经济学家William Petty和他的《政治算术》一书揭开了统计学的起源(维基百科):

The birth of statistics is often dated to 1662, when John Graunt, along with William Petty, developed early human statistical and census methods that provided a framework for modern demography. He produced the first life table, giving probabilities of survival to each age. Hisbook Natural and Political Observations Made upon the Bills of Mortality usedanalysis of the mortality rolls to make the first statistically basedestimation of the population of London.

所以从一开始,统计学就跟经济学、政治学密不可分的。

而新中国成立初期,随着计划经济的施行,确切的了解国民经济运行情况是政府最关心的问题之一,所以统计学这个时候被理解为“经济统计”是再正常不过的了。所以从历史上看,统计学一开始是作为经济学的二级学科而存在的。

这也就成了现在“统计学”这门学科的乱象:即可以授经济学学位,又可以授理学学位。授经济学学位的“统计学”更偏重于跟国民经济核算相关的内容。从培养方式来讲,这和数理统计的培养方式会有很大不同。为了进行正常的国民经济核算,除了要掌握基本的统计知识,包括抽样理论等,还要掌握会计学以及一些经济学的知识。具体的,比如GDP、GNP、CPI、PPI是怎么计算出来的,以及投入产出表等,都是这类统计学的专业内容。不懂会计、经济学,很难搞明白这些东西。这类专业最对口的是会计、统计局、调查所这些地方,因为学科设计出来本来就是为了核算的。

然而,随着科学技术文化的飞速发展,传统的“统计学”已经远远无法满足需要了。因此,在过去一百年间“数理统计”这个词出现并不断发展,同时也促进了让统计学脱离经济学这个小范围,迈向了更大的应用空间。“数理统计”逐渐发展为一个跟数学密切相关,并且侧重于非“经济统计”的学科。

统计学发展的另一个源头就是概率论。

16世纪初,概率论的体系渐渐发展起来,而这要从一种和掷骰子有关的赌博活动说起。虽然这个活动并不是很光彩,而且有待考证,但是在欧洲兴起并兴盛的骰子赌博活动,引起了一批好奇的学者的关注。掷骰子得到的点数直接决定赌局的输赢,于是开始研究各种点数出现的机遇的大小,胜率的大小,最早开始数量研究并且给概率下定义的学者已经无从考证了,可是有一些著作的问世和问题的讨论对概率统计的发展产生了重大的影响,比如卡丹诺的《机遇博弈》、惠更斯的《机遇的规律》、伯努利的《推测数》、著名的分赌本问题、帕斯卡和费马之间的通信等等,在这期间,古典概型得到了极大的发展,概率、期望、二项分布、中心极限定理等概念被相继提出。而之后的几百年里,中心极限定理的渐渐完善的过程中,一系列的统计量相继被提出,这也构成了大样本方法的基础。

概率论是统计学的基础,统计学是概率论的发展,二者密不可分。可以认为统计学是概率论的应用,是强调统计推断,包括统计决断、估计、检验等问题的一门学科。

统计里更加关注的是数据与模型。模型就是变量与响应之间的关系,简单的比如线性回归模型,时间序列分析里的ARIMA GARCH模型,复杂的如SVM或者深度学习里的CNN、RNN等。这些模型的范围是什么?适用于怎样的数据类型?除此之外,统计学还要回答,在给出数据以后,这些数据能不能用上面的模型进行分析?这里就有各种假设检验,模型参数检验,数据分布的非参数检验,数据均匀性的均匀性检验。最后,统计学还要回答各类模型预测的效果怎么样,数据要怎么获取更省钱或者让模型效果更好,怎样更节约的使用数据,等等问题。

2、概率论

概率论是一门数学学科,是一套公理化的纯数学理论,他有严格的公理基础,里面的结论都是用严格的数学推导做出来的,如果可能的话大概全部可以转化为形式逻辑的符号语句。这样,相对来说,前面的统计学就更像一门经验科学了,它主要是对现实生活中的数据进行分析,找规律,然后预测未来走向。在找规律的过程中,有时候就可以用概率论的语言去描述,比如这一堆数据满足个什么分布,或者看上去像是某个随机过程,然后就可以用概率论的方法去处理。

数学里更加关注的是结构,映射,以及它们的性质与关系。比如在一个集合有了一个特殊的拓扑结构和代数结构以后,比如局部紧李群,能不能在上面定义一个测度?这个测度有怎样的性质?这个测度和数学里其他的东西有怎样的联系?这些都是数学家关心的问题。

3、数理统计

如果你是一个工科学生,你很可能学到的一门课程是“概率论与数理统计”,然而数学专业则往往将这两个关键词分开,“概率论”和“数理统计”是两门不同的课程。

数理统计就是通过对随机现象有限次的观测或试验所得数据进行归纳,找出这有限数据的内在数量规律性,并据此对整体相应现象的数量规律性做出推断或判断的一门学科。概括起来有如下几方面的特点:

一是随机性,就是说数理统计的研究对象应当具有随机性,确定性现象不是数理统计所要研究的内容。
二是有限性,就是说数理统计据以研究的随机现象数量表现的次数是有限的。
三是数量性,即数理统计以研究随机现象的数量规律性为主,而对随机现象质的研究为次。
四是采用的研究方法主要为归纳法
最后,数理统计通过对小样本的研究以达到对整体的推断都具有一定的概率可靠性。用样本推断总体误差的存在是客观的,但是数理统计不仅重在研究误差的大小,还指出误差发生的可能性的大小。

因此,从数理统计的学科特征来看,数理统计是应用数学的一种,并且是目前最为活跃的分支之一。由此,数理统计从学科划分来说,应属于数学学科,但是其重在应用,而不是纯数学理论或方法的研究,故其采用的方法也就重在归纳法,而不是数学的演绎法。

综上,数理统计的主要特点可以用一句话概括为:数理统计是一门对随机现象进行有限次的观测或试验的结果进行数量研究,并依之对总体的数量规律性做出具有一定可靠性推断的应用数学学科。

4、统计学、概率和数理统计的辨析

看到上面的这些说法,加上几个学科的快速发展和应用,很多时候大家往往都不加区分的将这些概念混淆起来,特别是在应用的时候,很多时候也都无伤大雅。但是,一旦我们深入研究,特别是看国内外相关文献的时候,还是要加以区分的。否则,拿起两本类似书名的书,很可能里面的内容是大相径庭的。

我们先来看看统计学和概率论。

简单来说,

概率论研究的是“是什么”的问题,统计学研究的是“怎么办”的问题。

统计学不必然用到概率论,比如用样本均值来表征总体某种特征的大致水平,这个和概率就没有关系。但是因为概率论研究的对象是随机现象,而统计学恰恰充满了无处不在的随机现象:因为要随机抽样。因此概率论就成为了精确刻画统计工具的不二法门。

概率方向更偏数学,统计更多应用。很多大学里的科研,概率和统计都不是一个组(更有甚者,有的大学统计单独成立一个学院,独立于数学学院)因为大家做的东西确实不太一样。

再举例来说,如今火热的金融数学,就属于概率方向的,大家本科的概率论只能算是最基础的课,其他像Stochastic Calculus,Random Model,Markov Chain,Martingale,测度论,以及一直比较火的时间序列分析等等,这些都是学概率方向研究的,不是数学系出身,你几乎很难入门。而统计则更多作为应用的科学,常见的分支有生物统计,医疗统计,经济统计等等。

现在统计学火热一方面是如今各行各业都需要数据分析,大数据更是被吹上了天;另一方面统计入门门槛相对一般数学系专业更低,简单的说,非数学系要求的数据分析,用个SPSS,SAS啥的也就够了,但凡你学过高数,概率论,捣鼓捣鼓也没那么难理解,非数学系了解常见分布,看得懂置信区间,p-value,再来些F-test,t-test就差不多了。当然,数学系的统计就没这么容易了,数学系的统计常见的会研究各种分布,Bayesian统计,神经网络,金融风险,时间序列分析等等,用的软件也肯定是R居多。

Larry Wasserman在他的统计学巨作All of Statistics的序言里有说过概率论和统计推断的区别,如下图所示。

它们之间的区别包括:

概率论是统计推断的基础,在给定数据生成过程下观测、研究数据的性质;
而统计推断则根据观测的数据,反向思考其数据生成过程。预测、分类、聚类、估计等,都是统计推断的特殊形式,强调对于数据生成过程的研究。
因此,统计和概率是方法论上的区别,一个是推理,一个是归纳

打个比方,概率论研究的是一个白箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的分布函数),然后计算下一个摸出来的球是红球的概率。

而统计学面对的是一个黑箱子,你只看得到每次摸出来的是红球还是白球,然后需要猜测这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红球40%,白球60%?(假设检验)

而概率论中的许多定理与结论,如大数定理、中心极限定理等保证了统计推断的合理性。做统计推断一般都需要对那个黑箱子做各种各样的假设,这些假设都是概率模型统计推断实际上就是在估计这些模型的参数。

概率论就好比是给你一个模型,你可以知道这个模型会产生什么样的数据;而统计则是给你一些数据,你来判断是由什么样的模型产生的。

再从小概率事件看看两者的关系:

概率论会说小概率事件必然发生。因为随着试验次数的增多,该事件会发生的期望终会为1。统计则倾向于忽略小概率事件或者认为小概率事件不会发生。例如最大似然估计,估计的就是一个以假设值代替真实值的过程,这个过程一个自然的思想便是认为小概率不会发生,所以我们有充足的理由认为估计是可接受的。

再来看看数理统计与统计学之间的差异,主要有以下几方面(吴喜之):

从其研究目的来看,两者都重在揭示总体现象的数量规律性,而统计学更声称要以对总体现象的定性认识为基础。
从其研究的途径来看,数理统计希望通过对总体部分个体的数量特征的研究,以达到对总体相应数量特征的认识;而统计学既希望通过对构成总体的全部个体的数量特征的研究,以达到对总体相应数量特征的认识,同时也希望能通过对构成总体的部分个体的数量特征的研究,以达到对总体相应数量特征的认识。
从其研究的手段来看,数理统计主要依赖于小样本特征值统计分布的数学原理来推断总体的相应特征值;而统计学或者说推断统计学主要依赖于大样本特征值统计分布的数学原理来推断总体的相应特征值。
从其研究的主要范围来看,数理统计侧重于对样本数据的定量分析;而统计学不仅重视样本数据的定量分析,而且重视对所获得的总体全部数据的定量分析,同时,重视数据收集方法、数据整理方法的研究。
从其利用样本数据对总体进行推断的数理机理而言,概率论是其共同的基础。特别是作为统计学基本方法之一的大量观察法,其数理基础正是概率论中的大数定律;统计学中用大样本可以方便地推断出总体特征的数理基础正是概率论中的中心极限定理,而无论是大数定律还是中心极限定理也都是数理统计的根基。
从上述数理统计与统计学的特点及其比较,可以清楚地看到,随着现代统计学的发展及其在社会政治经济生活中发挥作用越来越大的趋势,数理统计研究问题的理念及其方法已对统计学的发展产生重要的革命性影响,但是,数理统计与统计学还是两门差异较大的学科,不可能简单地加以混淆。

4、统计是数学吗?

最后再来说说统计是不是数学的问题。这个问题如果问上世纪末某统计大牛A,他会很坚定的说统计是数学。如果又问某著名大学统计系领导B,他会不屑的答曰,不算,因为统计是微积分。

我们在学习统计的时候,特别是在推导概率分布的时候会发现,统计上用微积分证明的地方太多。但是统计对于数学的其他方面,比如拓扑,数论等基本完全不涉及。因此,首先数学是比统计更加宽泛的学科。

第二,统计和概率论是平行的两个不同的理念。概率论是假设你已经知道了整体然后对一个事件的发生概率进行计算。而统计是指你不完全理解整体,你的目的就是为了理解整体的。但是整体的数量太大。所以你退而求其次,用抽样的方法来获得理解整体。但是抽样就意味着有误差,而误差有的时候会因为你抽样方法的选择或者随机事件的爆发而变的很大。这点在数学上很多人不能接受,数学更讲究精确。而且对于很多学数学的人来说,只有对或者错。例如抽象代数。所以数学上有一部分人不喜欢统计,会说统计是变魔术。

总的来说,一个可以接受的观点是:

概率论是纯数学,数理统计是应用数学,而统计学则是借鉴了概率论和数理统计的一门超级应用学科(数学)。

随着大数据和数据科学时代的到来,这几个学科将会有什么样的进一步发展,让我们拭目以待。

最后给大家留一个小问题:你能区别probabilistic、random和stochastic吗?

大数据揭秘《权力的游戏》里谁的戏份最多

作者:爱范儿

《权力的游戏》开播到第七季,这部鸿篇巨制已经进入白热化阶段。数以百计的出场人物、盘综错杂的利益关系、剪不断理还乱的情感纠葛……都让剧迷大呼过瘾。但问题也随之而来:

《权力的游戏》里谁的戏份最多?

由于剧集《权力的游戏》进度已经远远超过原著《冰与火之歌》,演员的戏份也并不完全忠实于原著,因此就算是原作者乔治·马丁大爷,恐怕也未必能够回答这个问题。

(《权力的游戏》人物图谱)

不过,在强调数据分析的时代,或许可以通过统计学来寻找答案。下面这份图表统计了《权力的游戏》中前五季(总共 50 集) 21 位主要人物的出场频次。

蓝、绿、黄、橙、紫五种颜色分别代表了电视剧中最主要的五大家族,而白色部分则是其他重要角色。线条的粗细代表了该名角色的登场频次。接下来,就通过这份表格,让我们一窥究竟!

(《权力的游戏》主要角色频率图)

史塔克家族,可能是史上最悲惨的主角

坐拥北境的史塔克家是《权力的游戏》中最早登场的人物,也是主要人物最多的家族,足足有 7 人——但狼家却死伤惨重。

在第一季里,「北境之王」奈德·史塔克(Ned Stark)是绝对的主角,几乎每一集都有登场,可惜的是,在第九集结束时,奈德惨遭斩首,他在《权力的游戏》中的戏份也就到此为止,在 21 名主要角色中排第 16 名。

(奈德·史塔克,图片来源:HBO)

史塔克家的坎坷命运还远没有结束,为了给父亲报仇,罗柏·史塔克(Robb Stark)举兵南上,可惜出师未捷,反而是遭到背叛,与母亲凯特琳(Catelyn Stark)一同惨死于「血色婚礼」当中。罗柏与凯特琳的戏份分别排名第 12 和第 18 名。

余下的 4 名史塔克家遗孤四散逃亡,成为推进《权力的游戏》剧情不可分割的一部分:

向三眼乌鸦拜师学艺的布兰·史塔克(Bran Stark)排第 15 名
成为无面者的艾丽娅·史塔克(Arya Stark)排第 7 名
历经坎坷回到北境的珊莎·史塔克(Sansa Stark)排第 4 名
死而复生的雪诺(Jon Snow)则成为整部剧戏份第二多的角色

(史塔克一家,图片来源:Screen Rant)

命运多舛的七国统治者

前七国统治者劳勃·拜拉席恩(Robert Baratheon)所在的鹿家与史塔克家同样命运多舛。

七国统治者劳勃的去世是这场权力纷争的导火索,为此天下大乱,劳勃本身也是全剧最重要却最没有存在感的角色,只出场了 8 次,可能比《海贼王》里哥尔·D·罗杰的出场次数还少,在 21 个主要角色中排名第 20 名。

排名垫底的是劳勃的幼弟蓝礼·拜拉席恩(Renly Baratheon),同样是出现了 8 次,就被亲哥史坦尼斯·拜拉席恩(Stannis Baratheon)用巫术给谋杀了……

(乔弗里·拜拉席恩,图片来源:YouTube)

继承皇位的暴君乔弗里·拜拉席恩(Joffrey Baratheon)可能是全剧最会作死的人,暴虐的统治引发了无数的惨剧,最终在婚宴上被「小指头」毒杀,登场 26 集,排在第 10 名。

鹿家活得最久的是野心家史坦尼斯·拜拉席恩,不仅谋杀了自己的亲弟弟,还主动发起了多次战争,在「黑水河战役」中,差点就打下了君临城,可惜功亏一篑。在北境攻打波顿家族时再次惨败,溃不成军,最终在逃亡的路上死于「美人」布蕾妮(Brienne of Tarth)的剑下。登场 24 集,全剧排第 9 名。

(史坦尼斯·拜拉席恩,图片来源:News Week)

一枝独秀的不仅有龙母,还有变色龙

看过两大家族的惨剧,我们再来看看《权力的游戏》整部剧中最特立独行的两个人——「龙母」丹妮莉丝·坦格利安(Daenerys Targaryen)和「变色龙」席恩·葛雷乔伊(Theon Greyjoy)。

丹妮莉丝是末代王朝坦格利安正统王室最后的幸存者,也是目前唯一一位能够使唤巨龙的角色。从第一季开始,丹妮莉丝就流亡海外,在经历了丧夫之痛后,带着三条真龙开始了她的复国之旅,是贯穿整部剧的核心角色之一,也是目前铁王座最有力、最正统的皇位继承人。丹妮莉丝总共出现了 41 集,在 21 人中排名第三。

(丹妮莉丝·坦格利安,图片来源:YouTube)

席恩·葛雷乔伊曾经是史塔克家的养子,然而在奈德死后,他却背叛了史塔克家,占领临冬城。后来,又遭到「小剥皮」拉姆斯·波顿(Ramsay Bolton)的侵略与虐待。席恩大起大落的人生在剧集中共演绎了 32 集,登场时间合计 107 分钟,是排第 11 名的登场人物。

(席恩·葛雷乔伊,图片来源:YouTube)

没想到,戏份最多的居然是……

狼家、鹿家、龙家都已经悉数登场,还有一个家族不得不提,那就是信奉「有债必还」的「狮子」兰尼斯特家族。实际上,兰尼斯特家族才是《权力的游戏》中的「真·主角」。

兰尼斯特家的四位核心成员(私生子乔佛里未计入),每一位的登场频次都排在前 10 名,换句话说,每个角色都对剧情产生了深远的影响。

泰温·兰尼斯特(Tywin Lannister),是维斯特洛大陆最有权势的人物之一,他一手把自己的女儿瑟曦捧上皇后之位,让自己的大儿子詹姆当上御林铁卫。然而,最后却被自己的小儿子提利昂射杀在马桶中。泰温在《权力的游戏》中共出场 27 集,排第 8 名。

(泰温·兰尼斯特,图片来源:YouTube)

詹姆·兰尼斯特(Jaime Lannister),是兰尼斯特家族的长子,大名鼎鼎的「弑君者」,也是《权力的游戏》第一集就登场的主要角色。詹姆的人物性格极其复杂,在剧集的前几季,他是史塔克家的头号敌人,然而被俘之后又过上了逃亡生涯,为此还失去了左手。回到君临城后,詹姆洗心革面,成为君临城里为数不多的正面人物。詹姆在前五季中共出场 35 集,排名第五。

(詹姆·兰尼斯特,图片来源:YouTube)

瑟曦·兰尼斯特(Cersei Lannister),七大王国的王后,詹姆的孪生姐姐,与自己的弟弟持续着不乱之恋。是目前《权力的游戏》中最具权势的女人,在第六季结尾登上了铁王座。瑟曦为了争夺权力穷其一生,在失去三个孩子之后,对权力更为迷恋。她在《权力的游戏》前五季中共出场 44 集,排名第六。

(瑟曦·兰尼斯特,图片来源:YouTube)

「小恶魔」提利昂·兰尼斯特(Tyrion Lannister)是兰尼斯特家族的小儿子,也是整部剧集中最关键的角色他曾经游走于各大势力之间,并多次在关键时刻起到决定性的作用。原著《冰与火之歌》中,提利昂视角的章节最多,而在电视剧中,他也是登场频次最高的人物——前五季共出场 46 集,戏份长达 254 分钟,毫无悬念是戏份最多的人。

(提利昂·兰尼斯特,图片来源:HBO)

通过数据图表的分析,一张《权力的游戏》角色图谱便跃然眼前。谁才是铁王座真正的主人?至少从目前的数据上看,最终的赢家很可能会在龙家的丹妮莉丝、狼家的雪诺、狮子家的提利昂三人中产生。

欢迎关注我的其它发布渠道