好吧我不擅长讲故事..但我还是试着讲一下。这些故事是我的统计老师讲给我听的

P.S. 1 在我的故事里,显著性水平被称为α,“检验的势”被称为“检验力”,power..
P.S. 2 要彻底理解这三个概念,故事真的不够,建议在有了更多了解之后,看这篇文章《Scientific method: Statistical errors : Nature News & Comment》,或者果壳的翻译版《统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子

故事1
  公司A全国的某个岗位X有1000人应聘,这1000人当中,有400是真的符合公司要求的,有600个是能力不达标来碰运气的。这间公司对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加这个测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后350人通过测试,入职
  但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试
  这些人工作一年后,根据他们的表现,公司发现,其中320人是真的符合公司要求的,30人是碰运气给碰进来的。也就是如下图的情况

  有30个(8.57%>5%)浑水摸鱼的,看来这测试不太行啊..

故事2
  公司B全国的某个岗位Y有1000人应聘,这1000人当中,有800是真的符合公司要求的,有200个是能力不达标来碰运气的。这间公司也对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后650人通过测试,入职
  但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试
  这些人工作一年后,根据他们的表现,公司发现,其中640人是真的符合公司要求的,10人是碰运气给碰进来的,也就是如下图的情况

  650人里只有10人(1.54%<5%)是浑水摸鱼的,这个测试还不错~

  为什么要说这两个坑爹的故事?(哪有公司这么招人的= =)因为这和研究者在进行“通过样本推断总体”一类的研究时的情况类似,不过两家公司代表的可能是不同的研究领域。而用故事最后的比例对比5%来判断故事中的测试是否“有用”,是很容易犯的一个错误
  所谓显著性水平α,就是你允许最多有多大比例庸才(H0)通过你的测试——你允许最多有多大比例“H0”被你误以为是H1。这是预先设置好的,在研究前就存在的。为了防止浑水摸鱼的人靠运气入职公司,你的测验不能太简单
  所谓检验力power,就是你的测试能够让多大比例人才(H1)通过——你有多大能力发现”H1是H1″。检验力分两种,一种是事前检验力,即在正式进行研究前,你预先设定一个检验力标准,为了获得这么大的检验力(以防人才没有被你招进来),你需要对研究进行一些设计(公司需要设计一份“好”的测试,例如不要太难);另一种是回溯性检验力,即在研究进行之后,根据结果计算自己在研究中实际拥有的检验力。故事里的两个其实都是回溯性检验力
  如何权衡上面两者,就看所在领域,及研究者自身了(公司的偏好、决策,以及对于损失人才和浪费资源在庸才两种不同类型的风险承担能力)
  而p,我的理解则是实际上你让庸才之中的多大比例庸才(H0)招了进来,而是入职者当中的庸才比例。故事里两个p值都是.05,但是入职者当中的庸才比例却不是.05。这是最容易混淆的两点。放到研究里,假设p=.030,意思是说你的研究有3%的可能是在“H0”这个库里面被发现而错误地归入H1;而不是指3%的可能在“包含H0和H1的所有现象”这个库里被发现。后一个比例的大小,相当于故事里入职庸才在所有入职人士中的比例,这个比例取决于在应聘者(你想要检验的假设的总体)当中,有多少是人才(H1),有多少是庸才(H0)

来源:知乎 www.zhihu.com

作者:憶记

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 26 个回答,查看全部。
延伸阅读:
谈深度数据分析师的统计学基础?
数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?

分享到