0%

Probability

Probability2.png

概率是对随机事件发生的可能性的度量,一般以一个在0到1之间的实数表示一个事件发生的可能性大小。

一句话明白:什么是统计?什么是概率?

有一次我“老婆”听我在讲课,讲的是《学习统计对你人生的重要意义是什么?》。讲完课后,我给她说,统计概率真的很重要,然后balaba。

她只淡淡的回了我一句,我竟无言对:

虽然我知道你说的很对,但是什么是统计概率呢?对我有什么帮助呢?
当我长篇大论的解释给她听时,她已经不耐烦了:我不是要听你这些晦涩难懂的名称,你应该用生活中的例子讲我听,毕竟我是小白。如果你跟我讲化妆品什么牌子好,我倒是能立马明白。(女人啊)

这句话彻底击中了我的痛点,想让没学过,没有任何基础的人明白什么是统计,什么是概率,确实不容易。难道没有办法了吗?

直到我反复查资料,然后根据我的生活经历,有一天这么跟她聊的时候,她立马明白了什么是统计,什么是概率。还说要好好学习这个“最赚钱的思维”工具呢。我是怎么和她聊的呢?

猴子:老婆,我给你讲个笑话吧。

老婆:如果不好笑,小心我的无影脚。

猴子:某次生物课考试,有一道题是看动物的脚,猜该动物的名称,一考生实在是不会做,愤怒的把试卷撕掉就往外走,老师看见了,抓住他大声说道:“你哪个班的,这么嚣张”。学生把裤腿一提,说道:“你猜啊,你猜啊!”

这个笑话虽然你很早听过,但是很多人却没看懂这个学生绝对是个统计高手。(忽悠,接着忽悠)。

统计就是给你黑盒子里面装着猫和狗,只让你看到他们的腿,然后让你猜哪个腿是猫的。

你可能会问,这怎么猜?

在统计里会总结过去的数据,然后对这些数据进行总结归纳。就像刚才的例子,我们要判断出哪个腿属于猫。需要收集所有猫的腿(也就是过去的数据),然后总结这些腿的特征(总结归纳)。当图片里的腿出现时,你可以根据之前的总结归纳来判断出这腿是不是猫的腿。

当然,你也不会无聊到判断哪只腿是猫,哪只腿是狗的(更多时候我还是喜欢看美女的腿,,窃喜)。举个更加实际的例子,在医院会对过去有糖尿病的所有病人进行归纳总结(建立模型),当有一个新的病人入院时,就可以用之前的归纳总结来判断该病人是否患糖尿病,然后就可以对症下药了。统计里常说的“分类”就是这个过程。

所以,统计是对过去数据进行“总结归纳”。可以用下图表示:

那什么是概率呢?

概率是用数值来表示事情发生的可能性大小。举个例子小马去创业了去找投资人王思聪要钱。王思聪可不是傻X。然后就派猴子我去调查小马过去的经历(看他有什么创业的条件),然后预测他可能成功的概率是多大。经过深入调查我发现小马他爸是马云(给定条件),得出小马创业概率成功率是99%(预测未来)。

如果我们用猫和狗这个例子来举例,就是给了你猫和狗的行为特征(给定条件),然后预测猫和狗明天撕逼的可能性多大。

所以,概率是给定条件,对“数据”进行预测,可以用下图来表示:

用简单的话来总结:

统计=回顾过去,进行归纳总结
概率=给定条件,对未来进行预测

用稍微专业一点的话来总结:
统计=样本(回顾过去的数据)归纳出总体(总结)
概率率=总体(给定条件)对样本进行预测

用“专家”的话来解释,就是:

Lary Wasserman 在 《All of Statistics》 的序言里有说过概率论和统计推断的区别:

1)The basic problem of statistical inference is the inverse of probability:Given the outcomes, what can we say about the process that generated the data?

2)The basic problem that we study in probability is: Given a data generating process, what are the properities of the outcomes?

有很多人,给出了这个图,其实理解起来还是比较费劲的。在有前面的理解基础上,再看这个图,你就更容易理解了。

下图翻译:

统计学:根据手中信息,猜猜桶里有啥?(样本归纳总结出总体)

概率论:根据桶中信息,猜猜手里有啥?(总体对样本进行预测)

参考资料:

1)https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/

2)《学习统计概率的重要意义是什么》音频课程无法上传,可以在我的微信公众号:猴子聊知识,中回复“意义”获取。

Probability Theory

cover_1080x600.jpg

研究随机性或不确定性等现象的数学。

概率论

概率论(英语:Probability theory)是集中研究概率及随机现象的数学分支,是研究随机性或不确定性等现象的数学。概率论主要研究对象为随机事件、随机变量以及随机过程。对于随机事件是不可能准确预测其结果的[1],然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及轮盘等,会呈现出一定的、可以被用于研究及预测的规律[2],两个用来描述这些规律的最具代表性的数学结论分别是大数定律中心极限定理

作为统计学的数学基础,概率论对诸多涉及大量数据定量分析的人类活动极为重要[3],概率论的方法同样适用于其他方面,例如是对只知道系统部分状态的复杂系统的描述——统计力学,而二十世纪物理学的重大发现是以量子力学所描述的原子尺度上物理现象的概率本质[4]。

probability01.JPG

生活例子

人们对概率总是有一点触摸不清的感觉,而事实上也有很多看似奇异的结果:

1; 六合彩:在六合彩(49选6)中,一共有13,983,816种可能性(参阅组合数学),

如果每周都买一组不相同的号,一年有52周,则在实验越多次(一直买直到中奖算一次)之后,平均中奖所花的时间会越接近 {\displaystyle {\frac {13983816}{52}}=268919} {\frac {13983816}{52}}=268919。 事实上,即使每周买相同的号,获得头奖的概率也是相同的。 但假设每周实际中奖的组合都不重复,268919年的算术推论是正确的,这说明概率和其他数学理论可能导出不同的结论。

2; 六合彩:仍然是六合彩。买5, 17, 19, 24, 33, 49中奖概率高还是买1,2,3,4,5,6的中奖概率高?

古典概率论说:一样。
但实际上机械或彩球制造上都有些微小的差异,所以每组概率不一定完全相同,但必须累积多期开奖结果后才看得出来。

3; 生日悖论:在一个足球场上有23个人(2×11个运动员和1个裁判员),

不可思议的是,在这23人当中至少有两个人的生日是在同一天的概率要大于50%。 如果这23人都没有相同的生日也不违反概率,只是小于50%。

4; 轮盘游戏:在游戏中玩家可能认为,在连续出现多次红色后,出现黑色的概率会越来越大。

这种判断也是错误的,即出现黑色的概率每次是相等的,因为球本身并没有“记忆”, 它不会意识到以前都发生了什么,其概率始终是 {\displaystyle {\frac {18}{37}}} {\frac {18}{37}}。
但轮盘的前后期开奖数字形成时间序列(可能存在自回归模型)。

5; 赢取电视节目里的名车:在参赛者面前有三扇关闭的门,其中只有一扇后面有名车,而其余的后面是山羊。

游戏规则是,参赛者先选取一扇门,但在他打开之前,主持人在其余两扇门中打开了一扇有山羊的门, 并询问参赛者是否改变主意选择另一扇门,以使赢得名车的概率变大。

正确的分析结果是,假如不管开始哪一扇门被选,主持人都打开其余两扇门中有山羊的那一扇并询问参赛者是否改变主意, 则改变主意会使赢得汽车的概率增加一倍;(“标准”的三门问题情况。)

假如主持人只在有名车那扇门被选中时劝诱参赛者打开其它门,则改变主意必输。(资讯不对称)

历史

作为数学统计基础的概率论的创始人分别是法国数学家帕斯卡和费马,其可追溯到公元17世纪。当时的法国宫廷贵族里盛行着掷骰子游戏,游戏规则是玩家连续掷4次骰子,如果其中没有6点出现,玩家赢,如果出现一次6点,则庄家(相当于现在的赌场)赢。按照这一游戏规则,从长期来看,庄家扮演赢家的角色,而玩家大部分时间是输家,因为庄家总是要靠此维生的,而当时人们也接受了这种现象。

后来为了使游戏更刺激,游戏规则发生了些许变化,玩家这回用2个骰子连续掷24次,不同时出现2个6点,玩家赢,否则庄家赢。当时人们普遍认为,2次出现6点的概率是一次出现6点的概率的1 / 6,因此6倍于前一种规则的次数,也既是24次赢或输的概率与以前是相等的。然而事实却并非如此,从长期来看,这回庄家处于输家的状态,于是他们去请教当时的数学家帕斯卡,求助其对这种现象作出解释。

其他对概率论的发展作出重要贡献的人还有荷兰物理、数学家惠更斯,瑞士物理、数学家伯努利,法国数学家棣莫弗,法国数学、天文学家拉普拉斯,德国数学家高斯,法国物理、数学家泊松,意大利数学、医学家卡尔达诺以及苏联数学家柯尔莫哥洛夫。

事件

单位事件、事件空间、随机事件

event01.JPG

collection01.JPG

traditionalprobability.JPG

statistics.JPG

modelprobability.JPG

bayestheory.JPG

大数定律

在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其平均就越趋近期望值。

大数定律很重要,因为它“保证”了一些随机事件的均值的长期稳定性。人们发现,在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性。比如,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然之中包含着必然。

如果统计数据很少,就很容易出现特别不均匀的情况。这个现象被诺奖得主丹尼尔·卡尼曼戏称为“小数定律”。卡尼曼说,如果我们不理解小数定律,就不能真正理解大数定律。

大数定律是我们从统计数字中推测真相的理论基础。大数定律说如果统计样本足够大,那么事物出现的频率就能无限接近他的理论概率——也就是他的“本性”。而小数定律说如果样本不够大,那么他就表现为各种极端情况,而这些情况可以跟他的本性一点关系都没有。

· 一个只有二十人的乡村中学某年突然有两人考上清华,跟一个有两千人的中学每年都有两百人考上清华,完全没有可比性。

如果统计样本不够大,就什么也说明不了。

正因为如此,我们才不能只凭自己的经验,哪怕加上家人和朋友的经验,去对事物做出判断。我们的经验非常有限。别看个例,看大规模统计。有的人听说两三个负面新闻就敢写文章把社会批得一文不值,这样的人非常无知。

中心极限定理

中心极限定理是概率论中的一组定理。中心极限定理说明,大量相互独立的随机变量,其均值的分布以正态分布为极限。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。


本图描绘了多次抛掷硬币实验中出现正面的平均比率,每次实验均抛掷了大量硬币。

基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

《冰与火之歌》书迷遍布全球。该小说凭借其丰富的人物设置受到广大书迷青睐。然而,在马丁( Martin )笔下,无论好人、坏人,主角、配角都难逃命运的捉弄。除不计其数的无名小卒外,马丁的世界里有916位有名字的角色,其中三分之一都已以各种方式结束了自己在小说中的生命。本文中,我们将进一步探究小说人物的死亡模式,建立贝叶斯生存模型来预测各角色的死亡概率。

本文数据来自冰与火之歌维基( A Wiki of Ice and Fire )。依据该数据我们创建了截至目前书中出现的916名角色的数据集。用人物首次出现的章节,性别,是否为贵族,所属势力,死亡的章节(若已故)作为解释变量来预测这些角色在未来两本书中的存活情况。

方法论

采用Weibull 分布外推在7本书中的各个角色的生存概率。Weibull分布提供了一种建立危险函数( hazard function )模型的方法。而危险函数主要测量人物在特定“书龄”上的死亡概率。Weibull分布主要依赖与两个参数,k和lambda,这两个参数决定了Weibull分布的形状。

在参数估计之前我们选取均匀分布作为先验概率。对于尚存角色,分析k和lambda如何描述人物的存活状况;对于已故人物,分析参数如何预测人物死亡时间。

对守夜人( Night’s Watch ),生存概率的后验分布如图1。


图1:lambda的分布比较紧密(在0.27附近),K的分布比较宽松。

接下来,本文通过生存曲线分析人物的生存情况。为与生存曲线相联系,计算k和lambda的均值以及90%的置信区间。进一步,绘制原始数据和基于后验均值的生存曲线以及置信区间。

个人分析:雪诺( Jon Snow )

采用贝叶斯生存分析方法可以预测个性化人物(例如雪诺)的生存情况。在卷五:魔龙的狂舞( A Dancewith Dragons )结尾,守夜人生存的置信区间为0.36到0.56。Jon能活下来的估计并不乐观。即使Jon可以顺利活过第5本书,他在接下来的两本书中存活的概率将降到0.3到0.51。

图2:置信区间紧紧围绕在真实数据周围,均值为合理预测。

值得注意的的是Jon并非守夜人的普通一员。他受过良好的教育,拥有精良的武器和战斗技能。接下来,将样本选为守夜人中家族地位显赫,教育良好的贵族。守夜人中只有11人为贵族。所以置信区间(如图3所示)非常分散,最优近似( Best Estimate )显示贵族背景并不能提高守夜人的生存率。

图3:当只有贵族角色时,生存曲线的置信区间显著加宽,概率置信区间下限非常接近0。

家族因素

接下来,我们分家族研究人物的生存情况。这里包括9个主要家族,守夜人,野人( the Wildlings ),和其他( a “None” category,指无法归入某类势力的人物)。

图4 :Arryn (蓝),Lannister (金),None (绿)及Stark (灰)的生存概率。

图5:Tyrell (绿),Tully (蓝),Baratheon (橘)及Night’sWatch (灰)生存概率。

图6:Martell (橘),Targaryen (栗色),Greyjoy (黄)及Wildling (紫色)生存概率。

图4、5、6的置信区间表明艾琳家族( Houses Arryn )、提利尔家族( Houses Tyrell )以及马泰尔家族( Houses Martell )有较高的生存率。主要原因是其远离书中主要冲突,不过这也意味着这些家族信息较少,我们只有至多5个死亡成员样本,所以生存曲线并没有包含足够的样本点。信息量的稀疏体现为较宽的置信区间。相反,北境诸侯( in the north )、史塔克家族( the Starks )、守夜人和野人这些家族(或势力)有较低的生存曲线和较窄的置信区间。他们在情节主线中占据主要篇幅,许多重要人物都是他们的一员。

男女(性别因素)

书中塑造了丰富的女性角色,但依旧以男性人物为主(男女比例为769:157)。女性生存概率的置信区间较宽,但是其生存状态显著好于男性。如图7。

图7:维斯特洛(Westeros)中女性存活概率高于男性。

地位(阶层)

小说中贵族和贫民人数差距很大,其生存曲线也展现出不同态势。如图8所示,平民倾向于在出场阶段迅速死亡,若能安全度过“介绍期”则将存活较长时间,甚至生存概率会高于部分贵族。

图8:贵族在介绍期存活的概率较大,但生存概率的下降速度要大于平民。

个性角色分析

利用本文提及的方法,可以结合性别,家族,地位等复合因素提供针对个体角色的粗糙预测模型。在书中给一个非常受欢迎的角色是艾莉亚( Arya ),许多读者关心她在书中的命运。史塔克家族的贵族女性中还包括一些值得注意的角色如珊莎( Sansa )和布雷妮( Brienne,宣誓效忠于史塔克家族,虽然她后来才被介绍)。另外,皇后瑟曦( Cersei )和可怜的弥赛拉( Myrcella )也十分令人着迷。为了得到生存曲线的准确区间估计,我们将贵族女子和平民女子的数据加以综合。

图9:各组置信区间都比较宽松。与史塔克家族相比,兰尼斯特( Lannister )家族的贵族女性死亡可能性更高。虽然信息不明确,但艾莉亚会比瑟曦活得久一些。

此外我们还关心两个小角色,野人公主瓦迩( Val )和神秘的魁蜥( Quaithe )。她们并不是故事一开始就出现,所以分析相对比较复杂。瓦迩在章节2.1中被引入,她在整个时序中存活的概率在0.1到0.53之间。魁蜥在章节1.2中首次出现,她的生存概率为0.58到0.85,明显高于瓦迩。

图10:代表一些小角色的生存曲线,魁蜥和瓦迩有不同的生存曲线。

有足够的数据能够区分大多数男性角色的家族、性别和地位,以绘制他们的生存曲线。图11显示,兰尼斯特兄弟的生存曲线居中,在第七本书的生存概率为0.35到0.79。达里奥( Daario )生存曲线的置信区间较宽,但考虑到他是在章节2.5中才出现,所以存活概率较大。曼斯( Mance )的存活概率最不容乐观。曼斯在章节2.2故事中登场,他的存活概率为0.19到0.56。

图11:不同地位、联盟的男性角色的生存曲线。

有一些角色,我们期望看到他们一命呜呼,但是图12显示他们还要活很久。希恩( Theon)似乎会痛苦的活着直到到结局。瓦尔德·弗雷( Walder Frey )在章节0.4中初次登场,存活的可能性为0.44到0.72之间。目前为止,霍斯特·徒利( Hoster Tully )可能是唯一一个死于衰老的人,所以弗雷将有可能活到结局。

图12:不同地位、联盟的男性的生存曲线。

总结

孰生孰死在故事中充满变数,但从现有数据中,我们可以观察到不同组别下人物生死的模式。对于一些特定角色,尤其是男性角色,我们可以对他们在未来的故事中的遭遇做简单预测。但对于数据较少的、非主要家族的女性来说,预测的准确性则有待商榷。

本文内容翻译并编辑自 Bayesian Survival Analysis in A Song of Ice and Fire,by Erin Pierce and Ben Kahle. 原文链接:http://www.reddit.com/r/statistics/comments/31oz8n/bayesian_survival_analysis_in_a_song_of_ice_and/.compact翻译:新妍 校对:Jude via:数据工匠

为什么明星富商都迷信大师

为什么明星富商都迷信大师呢?最近大象公会解释了这个问题,它说,迷信程度和不确定程度相关,不确定性越高,就越容易迷信。

体育界是迷信重灾区,很多顶尖体育明星都有自己的怪癖。C罗比赛前先穿右脚的袜子,并坚持用右脚先迈入球场;费德勒遇上重大比赛必须穿红T恤、戴黑头箍,因为竞技体育有很大的不确定性嘛,想要赢,除了实力之外,还要一点运气。演艺明星和商人热衷看风水,拜大师,也是这个道理。

再比如,龙王是中国农民普遍的崇拜对象,但黄土高原和华北平原的农民更崇拜龙王,而沿海地区龙王庙就少得多。因为西北地区下雨没准儿,所以才更需要拜一拜。

经常看香港电影的朋友会发现,香港人很迷信,为什么呢?香港前身是渔村,渔民恰恰是高风险职业啊。后来商人变成香港的主要阶层,这也是个高风险的职业。再加上香港独特的地理位置,之前一直是中英两国暗中较劲儿的地方,政治环境摇摆不定,当你越觉得无法掌控命运,就越需要能带来确定感的东西,迷信恰好填补了这个心理缺口。

你看,迷信其实是确定感的精神寄托。

最简单概率论的五个智慧

2015-12-05万维钢

我认为人人都应该学一些概率知识,它现在是公民必备知识。

现在的世界比过去复杂得多,其中有大量不确定性,是否理解概率,直接决定一个人的开化程度。

1.随机:有些事情是无缘无故地发生的

这个思想对我们的世界观有颠覆的意义。

古人没有这个思想,认为一切事物都是有因果的,甚至可能都是有目的的。人们曾经认为世界像一个钟表一样精确地运行。但真实世界不是钟表,它充满不可控的偶然。

更严格地说,有些事情的发生,跟他之前发生的任何事情,都可以没有因果关系。不论我们做什么都不能让它一定发生,也不能让它一定不发生。

一个人考了好大学,人们会说这是他努力的结果;一个人事业成功,人们会说这是他努力工作的结果。可是如果一个人买彩票中了大奖,这又是为什么呢?

答案是没有任何原因,这完全是一个随机事件。总会有人买彩票中奖,而这一期彩票中奖,跟他是不是好人,他在之前各期买过多少彩票,他是否关注中奖号码的走势,没有任何关系。

若一个人总是买彩票,他中奖的概率会比别人大点吧?的确,他一生之中中一次奖的概率比那些只是偶然买一次彩票的人大。但是当他跟上千万个人一起面对一次开奖的时候,他不具备任何优势。他之前所有的努力,对他在这次开奖中的运气没有任何帮助。一个此前没有买过任何彩票的人,完全有可能,而且有同样大的可能,在某一次开奖中把最高奖金拿走。

中奖,既不是他个人努力的结果,也不是“上天”对他有所“垂青”;不中,也不等于任何人与他做对。这就是“随机”,你没有任何办法左右结果。

理解随机性,我们就知道很多事情发生就发生了,没有太大可供解读的意义。我们不能从这件事获得什么教训,不值得较真,甚至不值得采取行动。

· 再完美的交通工具也不可能百分百安全,我们会因为极小的事故概率不坐飞机吗?我们只需要确定事故概率比其他旅行方式小就可以了。甚至连这都不需要,只需要确定这个小概率事件我们能够容忍就可以了。

2.赌徒谬误

假如你在赌场玩老虎机,一上来运气不太好,连输好几把。这时候你是否有种强烈的感觉,你很快该赢了?

买股票、期货、彩票都是一样。连续好几把上来就亏损的情况下,是不是觉得下一把挣钱的概率很大?

这完全是一种错觉。赌博完全是独立的随机事件,这意味着下一把的结果和以前所有的结果都没有任何联系,已经发生了的事情不会影响将来。

“大数定律”说,如果进行足够多的抽奖,那么各种不同结果出现的频率就会等于他们的概率。

人们常常错误地理解为,随机就意味着均匀。如果过去一段时间内发生的事情不均匀,人们就错误的以为未来的事情会尽量往“抹平”的方向走。如果连输几把,那么下一把就应该会赢。

但大数定律的工作机制不是和过去搞平衡,它的真实意思是说如果未来进行非常多次的抽奖,你输非常多次、赢非常多次,以至于他们此前的一点点差异就会变得微不足道。

· 有个笑话说一个人乘坐飞机时总带着一颗炸弹,他认为这样就不会被恐怖分子炸飞机了,因为一架飞机上有两颗炸弹的可能性非常小。

· 战场上士兵有个说法,如果战斗中炸弹在你身边爆炸,你应该迅速跳进那个弹坑,因为两颗炸弹不大可能打到同一个地方。

这都是不理解独立随机事件导致的。

3.在没有规律的地方发现规律

理解了随机性和独立随机事件,我们可以得到一个结论:独立随机事件的发生是没有规律和不可预测的,这是一个非常重要的智慧。

彩票分析师,相信中奖号码存在走势,相信其中的规律,所以近期多次出现的组合可能会继续出现,或者按照这个趋势可以预测下一个号码。

但这里根本没有规律,是完全随机的现象,即便存在缺陷,也需要大量的开奖后才能发现,而且缺陷的结果也很简单,无非是某个特定号码出现的可能性略大一些,完全谈不上什么复杂规律。

明明没有规律,这些彩票分析师是怎么看出规律来的呢?也许他们不是故意骗人,而很可能他们真的相信自己找到了彩票的规律。

发现规律是人的本能。

春天过后是夏天,乌云压顶常下雨,大自然中很多事情的确是有规律的。我们的本能工作得如此之好,以至于我们在明明没有规律的地方也能找出规律来。人脑很擅长理解规律,但是很不擅长理解随机性。

在没有规律的地方发现规律是很容易的事情,只要你愿意忽略所有不符合你这个规律的数据。而且如果数据够多,我们可以找到任何我们想要的规律。

· 有人拿圣经做字符串游戏,声称这是圣经对后世的预言。问题是,这些预言可以完美的解释已经发生的事情,但在预测未发生的事情时就不好使了。关键是圣经中有很多很多字符,如果仔细寻找,尤其是借助计算机的话,总能找到任何想要的东西。

· 把圣经换成毛选也一样,你会发现毛选也早就预言了中国后世发生的所有大事。

未来是不可被精确预测的,这个世界也并不像钟表那样运行。

4.小数定律

现在我们知道,数据足够多的话,人们可以找到任何自己想要的重要规律,只要他不在乎这些规律的严格性和自洽性。那么在数据足够少的情况下又会如何?

如果数据足够少,有些规律会自己跳出来,你甚至不相信都不行。

人们抱着游戏或者认真的态度总结了世界杯足球赛的各种“定律”。比如——

· “巴西队的礼物”:只要巴西夺冠,下一届的冠军就将是主办大赛的东道主,除非巴西队自己将礼物收回。这一定律在2006年被破解。
· “1982轴心定律”:世界杯夺冠球队以1982年世界杯为中心呈对称分布,这个定律在2006年被破解。

还有一些未被破解的定律,比如——

· 凡是获得联合会杯或美洲杯,就别想在下一届世界杯夺冠。
· 中国队的“王治郅定律”:只要王治郅参加季后赛,八一队必然得总冠军,以及“0:2”落后无人翻盘定律。

如果仔细研究这些定律,会发现不易破解的定律其实都有一定的道理。王治郅和八一队都很强,0:2落后的确很难翻盘,而获得世界杯冠军是个非常不容易的事情,更别说同时获得联合会杯、美洲杯和世界杯。但不容易不等于不会发生,他们终究会被破解。

那些看似没有道理的神奇定律(正因为没道理,所以显得神奇),则大多数已经被破解。之所以神奇,是因为纯属巧合。世界杯总共才进行了80多年,20多届。只要数据足够少,我们总能发现一些没有破解的规律。

如果数据少,随机现象可以看上去很不随机。甚至非常整齐,感觉好像真有规律一样。

问题的关键是,随机分布不等于均匀分布。要想均匀分布,必须要样本总数非常大的时候才有效。一旦不均匀,人们就认为其中必有缘故(阴谋论),而事实却是这可能只是偶然事件。

· iPod最早推出“随机播放”功能的时候,用户发现有些歌曲会被重复播放,他们据此认为播放根本不随机。苹果公司只好放弃真正的随机算法,用乔布斯本人的话说,就是改进以后的算法使播放“更不随机以至于让人感觉更随机”。

如果统计数据很少,就很容易出现特别不均匀的情况。这个现象被诺奖得主丹尼尔·卡尼曼戏称为“小数定律”。卡尼曼说,如果我们不理解小数定律,就不能真正理解大数定律。

大数定律是我们从统计数字中推测真相的理论基础。大数定律说如果统计样本足够大,那么事物出现的频率就能无限接近他的理论概率——也就是他的“本性”。而小数定律说如果样本不够大,那么他就表现为各种极端情况,而这些情况可以跟他的本性一点关系都没有。

· 一个只有二十人的乡村中学某年突然有两人考上清华,跟一个有两千人的中学每年都有两百人考上清华,完全没有可比性。

如果统计样本不够大,就什么也说明不了。

正因为如此,我们才不能只凭自己的经验,哪怕加上家人和朋友的经验,去对事物做出判断。我们的经验非常有限。别看个例,看大规模统计。有的人听说两三个负面新闻就敢写文章把社会批得一文不值,这样的人非常无知。

本文由作者 万维钢 授权罗辑思维发布,选自《万万没想到——用理工科思维理解世界》,电子工业出版社出版。

罗胖日:
有的时候,样本量大也说明不了问题。
比如,中国的污染很重,犯罪率很高,槽点很多,能说明这个国家没前途吗?
也许恰恰是因为这个国家蒸蒸日上。
认知没有什么终极正确,只有逐步升级。
认知的升级,本质上来源于认知尺度的扩展。
1.时间尺度——多读历史。
2.空间尺度——多观世界。
3.观念尺度——聆听高人。
认知没有正误之别。但确实有高下之分。
因为所在尺度层次有异。

比黑天鹅更险:破解大概率危机

这条音频的内容是,面对危机的时候,如何避免疏忽大意,用更好的方法来应对和解决问题。

我们生活在一个非常不确定的时代,有关这种不确定,有两种理解方法:一种就是人们常说的黑天鹅,也就是那些突然爆发的危机和灾难,或者是急剧发生的变化;还有一种不确定性是说,表面上看起来是很突然的,实际上却是可以追根溯源的。前不久,在“中信大咖读书会”上,“秦朔朋友圈”的发起人秦朔,分享了一本新书,叫做《灰犀牛:如何应对大概率危机》。书里用“灰犀牛”来比喻那些大概率而且影响巨大的潜在危机,并且提供了一些解决问题的指南。

这本书的作者米歇尔·渥克有媒体背景,对公共事件很敏锐,她从两次危机里得到了启发,写了这本书。一次是2001年的阿根廷的债务危机,米歇尔·渥克发现,阿根廷当时发生危机的时候,很早就有专家指出,很多企业的债务问题必须及时处理。比如可能企业要损失30%,才有可能保住整个经济体的太平。但是,这个问题没人当回事儿,一直被拖着,等到危机爆发的时候,企业的损失就不是30%了,而是70%。到了2010年,希腊也发生了危机,但是希腊在危机爆发以后,跟很多非官方债权人更早地达成了一些一致性看法,保证能够比较好的解决这样的问题。

所以这本书的一个重要的思想,就是所有灾难的发生,不是因为发生之前的征兆太隐蔽,而是因为人们的疏忽大意,以及应对措施不利。简单来说,就是没有很好的避让系统,一旦这个问题不加以解决,重大的危机最终一定会到来。

在书里,作者给这样的危机进行了一个分类。

第一种类型,就是不愿意面对真相,主要特点就是,很多人都意识到了问题,但阻力很大。同时人们往往倾向于否认这个问题的存在,因为解决的成本太高了。比如气候变化、一个国家的预算赤字,都属于这种危机。那怎么去应对呢?作者说,要把危险看成是机遇,同时要建立一个很好的成本和利润的分摊机制。

第二种类型是已经到来的危机,一般非常迅速,危机来得很快,也是很多积蓄已久的问题的爆发。作者举的例子有叙利亚问题、自然灾害等等,当年的非典也属于这一类的问题。对于这种已经到来的危机,作者认为应对策略应该是利用问题的紧迫,激发人们采取行动。

第三种类型是反复出现的危机,比如金融危机、流行病、地震、网络威胁等等。这种危机的特征就是你很熟悉,但是你没想到这种很熟悉的东西,会变成一个很有冲击性的巨型危机。这时候就要运用核查表和事前的演练,包括沙盘,形成一个习惯性的机制和自动报警系统。

第四种危机叫做“元一犀牛式危机”,重点指的是一些结构性问题导致的危机,像性别歧视、社会不平等,都属于这类问题。要解决这些问题,方法是优先处理,或者把它们和其他的危机联合在一起来进行处理。

第五种危机往往是一个影响其他问题的危机,如果再加上其他的因素,就会变成一个多头怪兽。比如饮用水资源的问题、物价过高。这种危机怎么解决呢?书里说,对于多种问题交叉存在的危机,一定要优先处理其中的关键性的东西,同时要进行一些系统性的处置。

第六种危机的特点是,很难找到一个解决方案,一般都有根深蒂固的障碍,阻碍人们的判断,比如以色列和巴勒斯坦的冲突。想要解决这样的危机,就要重新定义问题的类别,解决表象的问题。

第七种是革新的颠覆力量带来的危机。比如数码时代让柯达遇到了颠覆性的危机。这种危机往往是不可避免的一种衰退,如果想解决这样的问题,成本远远大于收益。像这样的危机,我们就要坦然地接受现实,接受代表未来的一些新鲜的事物,新鲜的方向。

第八种就是无法定义类别的危机了,这种危机的危险以及解决方案都非常不确定。比如人工智能、数字化。解决这种危机,要先检验已有的情况,找到最类似的危机是怎么出现的,然后保持灵活的态度和警惕性。

了解了这些之后,对于不同的危机,要用不同的方法去处理。而且你要学会正确定义危机的类型,因为不同的类型对于不同的人、不同的公司,含义可能是不一样的。有些危机对一些人是灾难,但是对另外一些人可能是机遇。如果你有能力改变,但一直不采取行动,那么这个危机就跟你有密切的关系。

此外,作者也告诉我们,我们很难一次就找到解决的方法,我们犯的每一个错误,都有可能对解决问题有帮助。也就是说,我们要珍惜很多的错误和危机,把它变成一种正面的机遇。

以上观点,供你参考。

本文源自:公众号“中信奇点课堂”(秦朔教你如何应对大概率危机)、《灰犀牛:如何应对大概率危机》

概率权:“算”出来的富人思维

2017-03-30 罗振宇 罗辑思维

这篇文章是《罗辑思维》第五季第11期的内容。

改变的是节目的形式,不变的是对知识的分享和认知的升级。>>>戳此和罗胖一起终身学习

最近我看到一篇很有趣的文章——《被抛弃的概率权》,作者叫老喻,是一位加拿大华人,他在文中提出了一个叫“概率权”的概念,很有意思。

1

我们先来看一道选择题。

假设你现在面对两个按钮:

如果你按下第一个按钮,直接给你一百万美元;

如果按下第二个按钮,你有一半的机会拿到一亿美元,当然还有一半机会什么都没有。

这两个按钮只能选一个,你选哪个?

我拿这道题在办公室里同事当中测试了一下,大部分人都选择直接拿一百万美元走人。因为这本来就是飞来横财,拿了入袋为安。

而另一个选项一亿美元,万一按下去,什么都拿不到呢?我的小心脏啊,根本承受不了这个损失。

这么选的人,风险偏好比较小。

当然,也有人选择按第二个按钮的,这种人风险偏好比较大。他们的理由也很简单,反正是飞来横财,那不如赌一把。

那我就继续追问:你这么选的话,如果正好落在那不幸的50%上,什么都拿不到,你会特别懊悔和心疼吗?

他们想想说,好像也有点,连一百万美元那只煮熟的鸭子也飞了啊。

2

那正确答案是什么呢?

当然是选有50%的机会拿到一亿美元。但是,我给出的理由不一样。

一个熟知现代社会规则的人,会这么处理:

第二个按钮,如果按下去有50%的机会拿到一亿美元,那么按照概率,这个按钮的选择权价值就是5000万美元。

我承受不了这个损失,那好,我把这价值5000万的机会卖给一个有能力去赌的人,比如说用2000万美元跟他成交。那对于买的人来说,用2000万美元买一个价值5000万美元的概率权,在账面上是非常划算的。

而你现在有2000万美元了,是不是比选第一个100万美元强得多?

好,你可能会说,我找不到愿意赌那么大的人。

那我们优化一下上面的方案——找一个比你有钱的人,你说:“我把这个选择权卖给你,但是首付100万美元,如果你中了一个亿,我要求再分成一半,你觉得怎么样?”

对你来说,100万美元他作为首付给你,已经落袋为安了,剩下就让他去赌个运气,反正也比第一个选择强。

而对买家来说呢,他是拿100万美元的成本去赌5000万美元的一半概率,这个买卖他也非常划算,他会干的。

接着往下想,这个方案还有没有更近一步优化的空间呢?

还有,当然那就更复杂了。

比如,把这个选择权切碎了发行彩票,这样就更是稳赚不赔,当然这个普通人就干不了了,得有政府授权。

3

听到这里,你可能会觉得有点奇怪:

开始的时候,我面对的选择,明明一个是确定的,一个是不确定的。可是这不确定的最后怎么就变得确定了呢?而且收益要高得多呢?

对啊,这个例子里面,藏了这个世界一个绝大的秘密,就是——穷人思维和富人思维的区别。请注意,我这里说的是穷人思维和富人思维,而不是指穷人和富人。

我们人生在世,时时刻刻都面对各种各样的选择。每一个选择背后,都有成和败的概率。

穷人思维,就倾向于拿到确定的东西,他不要概率权。

而富人思维正好相反,每次选择的时候都愿意根据成功的概率来下注,不管每一次的成败、输赢,他一直都坚持这么下注。

请注意,珍视概率权,不是让你去赌,而是跳出自己的直觉本能,用概率的思维去思考自己的每一个选择。

如果概率权算得过账来,那就勇敢去下注,比如说用100万美元的价格去试试50%的机会拿到一亿美元的概率权。

从直觉上来看,虽然有风险,但是在概率思维看来,这已经是划算得不能再划算的买卖了。

4

穷人不珍视概率权,不是不去赌,他们反而更容易去赌一些极小概率的事情。比如花钱买彩票,两块钱两块钱地买,想博一个发财梦。

但是明白彩票原理的人都知道,这成功的可能性几乎为零。

而组织销售彩票的人,他是按照概率思维来设计这个机制和游戏的,他们反而是稳赚不赔的。所以你看,就彩票这件事来说,是穷人在补贴富人。

举个例子,你看富人是怎么想的。

扎克伯格,Facebook的老板,他当年刚创立Facebook公司4个月,就有人出价1000万美元要收购他的公司,两年后,雅虎公司出价10亿美元收购。

其间当然还有很多次机会,谷歌、新闻集团等等都曾经有过收购意向,每次出价对于当时的扎克伯格来说,都是一次大发横财、从此可以花天酒地的机会,但是每一次扎克伯格都拒绝了。

你是马上就拿到10个亿,还是以百分之几的可能性,也就是概率,在数年之后拿到1000个亿?这是一个选择,你看,扎克伯格面对的这个选择,跟我们今天刚开始举的那两个按钮的例子是不是很像?

几年之后,另一家创业公司Snapchat用类似的方式拒绝了扎克伯格的30亿美元收购的邀请。

这就是硅谷的精神之一,它可不仅仅是发财梦,它是一种财富观,是一种雄心壮志,是一种对概率权的把握。

5

我创业几年,说实话刚开始也是不太理解那些风险投资人的逻辑。

一个创业项目,看起来不是很靠谱,没有任何确定性,投资人居然就敢成百万、上千万、上亿的钱白给创业者花,而且还只占很少的股份。按照直觉思维来看,这些投资人不是疯了吗?

但其实,这是因为人家风险投资人看世界,和我们普通人的角度不一样——

他们是看概率权的。

一个创业公司,刚开始可能没有盈利,但是投资人已经把这个行业的前途,这个创业者、创业团队的素质和未来的市场风险等等都用概率思维给算过了,给出了一个估值。

这个估值虽然是纸面财富,但是它包含了一系列概率的算计,它是真实的市场定价。风险投资人他就这么一直下注,一直下注,下了很多次之后,只要有一次大赚,就全部回来了。

所以,风险投资不是外面看起来的那样,是赌博,是猜钢镚,它是有一个精密算法的财富游戏。

6

那怎么摆脱穷人思维,把握概率权呢?

我刚才提到的那篇文章中就说到,我们普通人最缺乏的,其实不是钱,而是有一个老爸随时随地告诉我,你很牛。

那为什么书香门第或者财富世家会出一大串的牛人,除了基因、资源这方面的原因,可能还有以下几个原因:

(1)你从小就有足够高的参照点,不会被小利益勾走,更能承受风险(其实是低概率的),从而捕获高回报。

就像最开始的例子,如果你家里已经有了1000万美元,你对那白来的100万美元就没有那么饥渴,你受到的诱惑就没有那么大。

(2)身边一群人的示范效应,你老爸、叔叔、伯伯会不断告诉你要往前看,你行的,你是很牛的,你的出息绝不仅仅是现在这些。

(3)在这样的环境里长大,你内心的理想、激情有更大的机会被点燃。

可惜,我们绝大多数人不会出生在书香门第或者是财富世家,那怎么办?

对,这就是这个世界留给每一个人的一道后门。

你可以通过学习,通过认知升级,通过改变自己的大脑,通过克服自己与生俱来的本能,认识概率权,掌握概率权。

要知道,这是我们脑子里发生的事情,虽然它千难万难,但是毕竟我们不需要任何额外的资源,没有任何人能够阻止它发生。

临界知识:复利效应和概率论

这条音频说的是两个重要的临界知识,复利效应和概率论。

临界知识,是知识管理达人、得到说书人成甲在他的新书《好好学习》里提出来的概念,指的是更广泛、更普遍地指导我们行动的基本规律。掌握并且应用临界知识,能让我们做事和学习的效果事半功倍。这本书里列出了好多具体的临界知识,我们精选了两个转述给你。

第一个临界知识是复利效应。复利效应被爱因斯坦称为世界第八大奇迹。很多人都听过这个故事,国王要奖赏国际象棋的发明人,问他想要什么,他对国王说:陛下,请您在棋盘的第一个格里赏我一粒麦子,第二个格两粒,第三个格四粒,以后每一个格比前一个格加一倍。国王觉得这个要求很容易满足,一算才知道,这一棋盘的麦子,数量是1844亿亿粒,就是把全印度的甚至全世界的麦粒都拿来也满足不了这个要求。

这就是复利的神奇之处,刚开始的时候,复利效应是很微小的,但是发展到一定阶段就会产生惊人的效果。但是复利只是一个数学模型吗?没那么简单。书里说,复利的本质是:做事情A会导致结果B,而结果B又会加强事情A,不断循环。凡是符合这个规律的事情,都可以看做复利效应。比如说网站的访问量越多,在搜索引擎排名就越靠前,然后访问量就更多。同时,复利还会导致二八法则,比如做网页,会有20%的网站经常被人浏览,剩下的80%几乎没有人用。

那怎么才能进入前20%呢?我们先分析一下影响复利效果的因素,一个是利率,一个是执行次数。利率就是做了事情A导致结果B之后,B对A有多大的强化作用。执行次数比较好理解,就是重复这个行为的次数。理解了这两个因素,想充分利用复利效应的话,首先要找到“A导致B,B加强A”的事情,然后提高这件事情的利率,最后不断重复。只有这样做,才能进入复利模型带来的加速成长。

比如,做微信公众号这件事就符合复利模型。每推送一篇文章,就会有一部分读者分享出去,这样就能带来更多阅读量,而分享的根本原因是文章写得好。所以如果你想把公众号做好,关键就在于保持文章质量和推送频率。

需要注意的是,复利效应在前期是不明显的,所以刚开始的时候,可能你花了很多精力写出来的文章跟别人随便写出来的文章,阅读量差别不大。但是你坚持下去,保证文章质量和推送次数,那么一定会达到临界点。

说完了复利效应,我们再来说说第二个临界知识,概率论。概率论的思考方式是这样的:过去每一件事情的结果,只是众多可能的结果之一,我们不能仅仅用结果来判断之前决策的好坏。所以,那些成功人士的成功经验,也没有办法完全复制。

虽然不能精准地预测未来,但我们还是有方法判断大概率事件的。这就需要用到一个决策工具:决策树。画决策树有三步:第一步,写出你想要实现的目标。第二步,在目标的右侧写出实现这个目标的所有方案。第三步,评估每个方案的结果,以及这些结果实现的概率。

举个例子,假设你想提高收入,这是一个目标。接下来,你想到了三个提高收入的办法:一个是创业,一个是兼职,第三个是在原公司努力工作,等待升职加薪。该选哪一个呢?接下来就要评估这三个方案实现的可能性。具体的评估过程就不细说了,因为每个人的状况不一样,要结合实际评估,最后选择最合适的方案。

当然,在评估可能性的时候,一定要想办法减少主观判断的偏差,一个重要的方法就是外部视角。比如在评估自己创业成功率的时候,不要先从自己的优势入手开始评估,这样很容易高估自己。如果从外部视角入手,把社会整体的创业成功率作为基础概率,然后进行调整,这样得出的结论更可靠。

概率论对我们还有一点启发,就是“为大概率坚持,为小概率备份”。只要我们选择有利的大概率事件,持续投入,结果一定比东一榔头西一棒槌地做事情要好。就拿找工作举例子,如果你做了充足的准备,应聘的成功概率也只有64%,可你坚持两次,找到工作的概率就是87%;如果坚持三次,这个概率就高达95%了。另外,要为小概率事件做好备份,避免小概率事件对我们造成无法挽回的损失,比如重要文件要多备份,以免丢失。

总结一下,这条音频介绍了两个临界知识,一个是复利效应,另一个是概率论。想了解更多的话,可以去读一读这本书《好好学习》。

本文源自:《好好学习:个人知识管理精进指南》

查理芒格:相信概率不相信运气

这条音频给你说说,查理·芒格针对投资需不需要多元化、如何选择人生目标等话题,发表的最新观点。

前几天,美国著名投资家、沃伦·巴菲特的合伙人查理·芒格主持了每日期刊公司的2017年年会。查理·芒格是这家报刊杂志出版公司的董事会主席。和往年一样,芒格在年会上的很多回答都很精彩,下面给你说说。

首先,如何选择人生目标是很多人都关心的问题,对于这个问题,芒格给的建议是:以他的人生经验来看,只有做自己感兴趣的事情才能成功。要是自己不喜欢的事情还要做到很好,那对人性的要求也未免太高了。除了兴趣外,还要注意选择自己有过人之处的领域,比如身高不高就别非得打篮球了,也不要觉得世界会按照你认为的方式去运转。

另外,大多数人都希望自己成为一个博学的人,但芒格说,像他这样同时跨多个学科的做法其实对很多人并不适用。对大多数人来说,正确的方式应该是专注,找到社会认可的领域,然后做出彩。当然,不能生活在山洞里,要突破自己的局限性,拿出一些时间来关注专业之外的big ideas。所谓big ideas,其实就是说别在小问题上浪费时间。你眼前的问题,只要放宽视野,很可能就能得到解决。

会上有人问芒格,有过被自己否定掉的想法吗?芒格的回答是“有” ,自己总在产生想法,所以也总在忙着否定掉愚蠢的想法。其实很多人最主要的问题都在于:总是用陈旧的想法取代更新和更好的想法。德国有句话叫:“总是老得太快,聪明得太晚”。如果能养成接受新观点的习惯,会是人生非常大的优势。年轻人明明有很多东西要去学,不要被一些见解固化了思维。如果成功摆脱了不好的想法,那就给自己一点鼓励,毕竟,接受新生事物都会付出代价。

既然是提问芒格,投资一定是一个避不开的话题。这次会上,芒格针对投资给了这么两个值得思考的回答。

一个是:会上有人问芒格,年龄和阅历有没有让自己的合伙人巴菲特成为更好的投资者?芒格并不是直接回答的有或者没有,他给的回答是:如果你所在的领域可以通过不断学习来磨练技能,那么你当然会越做越好。巴菲特也是不断地在学习中改变一些旧观念。比如之前他坚持不投资或极少投资科技公司。但他的公司——伯克希尔·哈撒韦2月公布的2016年第四季度财报显示,公司大幅增持了航空股和苹果股票。芒格解释投资航空股的原因是:“以前,我们说「铁路不好,公司太多,还有卡车竞争」。我们曾经说对了。铁路在近80年里,都不是一门好生意,结果最后,铁路公司合并到只有四家,然后就变成了一门相对好的生意。类似的事情,将会在航空行业中发生。”

第二个投资问题是:投资需不需要多元化?芒格认为,投资多元化是教给什么都不懂的人的,而且这种投资方式只能得到平均收益。那对于懂行的人来说就没有必要。比如他自己的帐户里主要就是三只股票,而这三只股票里面有一个失败的可能性都几乎为零,就更别说三个同时失败了。

另外,芒格说了他对中国的看法。他说自己家里有两个人的塑像,就是富兰克林和李光耀。李光耀在当时的各种不利条件下创造了现代的新加坡,而邓小平当年也在学习新加坡模式,所以李光耀对现代中国也有贡献。现在,中国有一些公司已经做强,产品的销售价格也不高,员工也都很能干。中国能解决十几亿人口的生存是个伟大的成就,而且不是通过向欧美借钱,是靠自己攒钱,延迟享受。当然,芒格也指出了他眼中中国人问题,那就是中国人相信运气。他认为应该相信概率而不是运气,好赌其实是一种缺陷。

最后,芒格对刚进入美国的中国投资者说:如果我是中国人,就会投资中国而不是美国,因为中国的果实挂得更低,有些公司已经站稳脚跟了。怀里明明有个大馅饼,还盯着天上的那个,这就不对了。而且以目前的价位来讲,他们投资中国也比投资美国更好。

以上就是查理·芒格这次分享的主要内容,供你参考。

本文源自:公众号“笔记侠”(巴菲特合伙人芒格:别老得太快,聪明得太晚)

为什么说概率有时不靠谱

说起概率我们都不陌生,但它的真正含义你却未必搞得懂。比如说,天气预报说,明天降雨的概率是30%,这是什么意思呢?难不成我们可以把生活倒带重来,反复地把明天过上100次,其中大约有30次会下雨吗?又比如,体检结果表明,某人换上肝癌的可能性是70%,这又是什么意思呢?得了就得了,没得就没得,70%的可能性患病,这到底是得了还是没得呢?

你可能会说:这大概是气象局和医生在描述对事情发生的信心吧。比如气象局想说的是,对于明天会下雨这件事,数据带给我们的信心不足;而医生想说的是,根据体检结果,我们对这人得了肝癌还是挺有把握的。

但再想想你就会觉得不对,作为权威的气象局或者医生,既然都已经给出一个具体的数字了,肯定是有原因的呀?没错,对于个人的健康啊或者具体某一天的天气啊这类的,只能通过过去有限的测量来推测它们发生的概率,这种分析概率的方法叫做贝叶斯分析。

最近,科普达人卓老板卓克,在“卓老板聊科技”专栏里,就跟大家详细介绍了这种方法,它不仅对预测生活中的各种事情有重要的意义,有时还十分出人意料,我来给您讲讲。

什么叫做通过过去的测量来推测事情发生的概率呢?比如,如果人得了肝癌,在一些身体指标上就会有异常。而贝叶斯分析,就会通过各种测量本身的概率,比如如果这人指标有异常了,仪器测出来的概率是多少,测不出来的概率又是多少,仪器误测出异常的概率又是多少,等等这些间接的知识,来综合分析一个人患病的概率。

这种称为贝叶斯分析的方法,数学形式非常复杂,但我给您举个例子,会有助于您的理解。比如如果人得了肝癌,有一项指标会呈阳性,通过测量这项指标,就知道这人是不是有肝癌了。但是即使是正常人,医学上也有0.1%的可能性被误测成阳性,而真的肝癌患者,这项指标也有1%的可能性误测成阴性。那么,如果现在有一个人做筛查的结果是阳性,你觉得他患有肝癌的可能性是多少?

你可能会觉得,这测量准确率都99.9%了,误测几乎可以忽略不计了吧?所以你觉得这人肯定有肝癌了对不对?但我们用贝叶斯分析算一下,实际上,肝癌在人群中的发病率大约是每10000个人中有4个,如果这10000人全都去做筛查,那么其中的9996个正常人会有9到10个人因为误测而体现出阳性,咱们就算10个吧;而那4个真的有肝癌的人,由于人数太少,误测忽略不计,就算4人全测出阳性吧。所以在10000个人中,总共还会有14个人会被查出阳性,而其中10个人是因为误测导致的。这么算下来,一个查出是阳性的人,真正是肝癌患者的可能性是4除以14,还不到30%。

你看,这筛查的正确性都到了99%以上了,通过体检判断有没有得病的概率却还不到三成。同样的例子还有艾滋病,如果一个人的艾滋病检测结果呈阳性,考虑到仪器误测和艾滋病的人群发病率,那么通过贝叶斯分析,这人真正患有艾滋病的可能性大约是50%,可能有也可能没有。

你可能会说,再也不相信那些吹的天花乱坠的技术了,说好了筛查准确率那么高,结果筛查的结果对于确诊疾病一点用都没有,这还要医学技术干什么?没错,这就是贝叶斯分析告诉我们的。再拿肝癌做例子吧,由于发生肝癌实在是小概率事件,所以当我们对一大群人做肝癌筛查时,虽说准确率有99%,但仍然会有相当一部分人因为误测而被诊断为肝癌,这一部分人在人群中的数目甚至比真正肝癌患者的数目还要高。

你肯定要问了,那该怎样纠正测量带来的这么高的误诊呢?刚刚我们也说了,造成这么不靠谱的误诊的原因,是我们无差别地给一大群人做筛查,而不论测量准确率有多高,因为正常人的数目远大于实际的患者,所以误测造成的干扰就非常大了。

解决的办法也很简单,就是是锁定可疑的样本,比如10000人中检查出现问题的那14个人,再独立重复检测一次,因为正常人连续两次体检都出现误测的概率极低,这时筛选出真正患者的准确率就很高了,这也是为什么许多疾病的检测,往往还要送交独立机构多次检查的原因。

你看,我们平时都觉得很奇怪,说很多像医院这样的权威机构,按理说它们给出的数据肯定没问题,不会错,为什么还总是出现偏差呢?知道了贝叶斯分析这种方法后,你就会发现,概率有时候是不靠谱的,或者说,概率是有局限性的。只有利用更科学的统计分析方法,才能最大程度地避免误判带来的影响。

本文源自:“得到”App订阅专栏“卓老板聊科技”

人的一切都是偶然

作者:葛优

我一直到十八九岁都不知道自己将来会是什么样。我爸演戏的时候,我经常躲在一边看。那时,我觉得自己可能是一辈子的忠实观众吧。

“文革”结束了,艺术院校招生,我忽然好像知道自己想干什么了。考艺术院校时,主考官让我演一个动作:从后面捂女孩的眼睛,我太紧张了,捂住她的眼睛,手就下不来了。那女孩只好把情人见面的戏变成了抓流氓的戏。

我最大的特点是两个字,一是蔫,一是缩。我不像我爸,他脾气火暴,敢当着一千多人的面上台指挥。我打死也不敢。只要有什么活动让我出席,我就本能地往后缩。如果出席的人有十几个,我就本能地坐在最边上。我要是紧张了,就容易出汗,手心脑门出汗。出席活动,快到大厅门口时,我最紧张,好像一开门就有机枪扫射似的。

老那么惯着自己,也不行。都老大不小了,有人叫老师了,还那么羞答答的,不行。我也假装放松过,就想象自己在拍戏,效果似乎也不错,可总觉得太假了。我告诉别人,其实我不紧张。有人说:“谁都能看出来,你满脑门子汗,说话磕磕绊绊,不叫紧张叫什么?”我索性老老实实说自己紧张,也不想老装个大尾巴狼。这么一想,我反倒踏实下来。

我从小在北影大院长大,从小看过太多著名的演员,比如于洋、赵子岳、张平等。街坊邻居都是全国闻名的大演员,有时我刚看完他们主演的电影,回家就看见他们骑着自行车,筐里装着刚抢购回来的大白菜,好像刚从银幕上下来。

如果时光倒流,我愿意回到刚成名的那个阶段。李敖写了一本书叫《上山下山》,我很喜欢这个书名。人生用这四个字就穷尽了。刚成名的时候是上山,上山时一切都是未知,你不知道自己会到什么地方,能到什么地方,你在上升的曲线上。人最美好的是追求的过程。你看世界上流传的最经典的爱情故事,都是没有结局的,如罗密欧与朱丽叶、梁山伯与祝英台。什么是结果?死亡才是真正的结果。也许等我再老些,就能接受日本人的美学观了———下山也是一种美,但现在我觉得没走到头的时候是最好的。

人的一生都是偶然。演《霸王别姬》我没得奖,演完《活着》,天时地利人和都该我得了,就得了。如果当时有什么别的戏出彩,也就没我了。

20世纪90年代,人们不把那些高大全的人物当回事了,都想看到活生生的人。我有平民色彩,不虚伪。那时,中国人开始需要大批量的幽默,不想进电影院受教育、上课。我代表那时人们的心态,比较放松,比较乐观,也比较普通。谁也别想教育谁,大家都是平等的。那时经济发展,过去很多牢笼式的观念被打破。大家忽然发现,不是只有那些长得好看的、说得好听的人才重要,其实我们每个人都很重要。连葛优都能上屏幕,谁不能呢?

比起一些偶像明星,我觉得特坦然。我不怕年华老去,不用和狗仔队打游击,不用为了曝光率没事找事。我一是不想当老百姓的对立面,二是我也当不上,三是当上的代价太大,活着该有多累!

我最想做的事情是一个人待着。有朋友一拿起书,看两行字就晕了,我不至于那样,每天至少要看十几个剧本吧。我觉得还不够静,还不够让我拿起一本书就放不下,周围总有好多事干扰我。

我也爱热闹。比如喝点儿酒、聊聊,没有什么利益关系的。我是最不怕听人说的,只要对方能侃,我就可以一直听他说下去,所以朋友爱找我喝酒。我最爱扮演的角色就是观众。每次喝酒,我说话很少,更多是看朋友耍贫。

我总是矛盾着,又想热闹又想静,是不是有点儿矫情?

罗胖曰:

在工业时代活人,是把自己当产品生产——
各种折弯、裁剪、煅烧、打磨,好把自己装到一个牛逼的装置里。
在未来的互联网时代活人,是把自己当庄稼种植——
各种体察、明悟、顺势、激发,找到本性并挥洒出来,这本身就很牛逼。

欢迎关注我的其它发布渠道