Sufficient statistic method

其实充分统计量这个方法不算新,但是以前一直用得不多,被主流的方法甩出好几条街,现在重新发现他的价值,所以又重新被拿出来用。

不想看二手资料的同学可以移步 Sufficient Statistics for Welfare Analysis: A Bridge Between Structural and Reduced-Form Methods. Raj Chetty对这一方法的一个很好综述。

一句话总结:充分统计量方法的引入解决了传统方法要么做不了,要么做不好的困局。让人不禁感慨,原来水(坑)还可以这么灌(挖)!

===
传统的实证方法大体上可以分两大类:structural form和reduced form(不知道怎么翻译,结构模型和简化模型?(following @SlowMover))。我们想要研究变量x是否是变量y的因(cause),简化型(reduced form)通过一系列的统计方法,试图直接用数据去识别这一因果关系。只要识别(identification)清晰,简化型就可以通过数据来推测我们想要知道的因果关系的数量特征(quantitative behaviour)。而简单明了的识别正是简化型的一大优势。

但是,简化型并不提供反事实(counterfactual)的推断。简化型所估计出来的\widehat{Effect}并不能成为政策建议的依据。因为简化模型“过度”依赖事实数据(factual data),而如果改变政策的同时改变了数据生成的方式,那么简化型所得到的\widehat{Effect}与真实值就毫无关系了。不巧的是,社会科学所用到的数据往往与人的行为有关,而这些行为又会根据政策(以及其他外部因素)的改变而改变。一旦行为改变了,数据生成的方式也就改变了。那么在政策或其他外部因素变化之后,简化型所得到的结论是不是仍然适用,就需要打一个问号了。

结构模型(structural form)通过建立引起因果关系的数据生成具体方式(i.e.机制)的模型来解决简化型中的问题。由于在模型中明确地指明了一些重要的外部因素(如政策)是如何影响通过某些参数来影响参与人决策的,我们就可以通过估计这些参数来考虑这些外部因素改变对数据生成方式的影响。那么,通过改变这些外部因素并结合现有数据所估计出来的参数,结构模型可以提供一系列反事实推断,对政策的制定有重要的意义。

结构模型听上去美如画,但在实证方面却往往不是那么一回事。结构模型由于其参数多,识别的难度也大大加大。相比于简化型清晰的识别,结构模型往往需要大量质量奇佳的数据进行识别,而现实中的数据往往质量没那么好,所以结构模型要么只能识别一部分,要么只能做一些十分简单的模型(盗用一个Chetty的例子,如果研究商品税收对总体福利的影响,如果我们允许消费者之间效用函数各不相同(i,e, u(x) = u^i(x) ),那么结构模型在理论上是无法完全识别的;同时,如果消费者的选择是离散的,那么结构模型在识别上也会出现很大的困难),而这些简单的模型往往无法满足我们的需求。我所知的文献中现有结构模型往往依附于一些大型的随机试验项目(例如墨西哥的PROGRESA和印度一个NGO Seva Mandir的项目)以获得高质量数据。

那么问题来了,(挖掘机技术到底哪家强?)如果我们想做一些政策研究,或者只是想让我们的研究有一定的external validity(咋翻译?),陷入到简化型做不了,结构型做不好的境界,那么怎么办?

事实上,这个问题可以归结到参数的识别上,不严格地说,假设结构模型所想识别的参数为\theta
,那么简化型所估计的参数事实上为\theta
的一个变换\psi = \psi(\theta),并且\dim(\psi)<\dim(\theta),即简化模型中参数较少(所以识别简单)。由于\theta
(而不是\psi)的值决定了政策变化是如何改变数据生成过程的,为了得到反事实推断,我们需要识别\theta
,但由于多个\theta
对应同一个\psi,所以简化型无法提供反事实推断,但\theta
本身一般很难识别,导致了我们的两难局面。

充分统计量方法(sufficient statistic)是指在某些情况下,为了获得反事实推断,我们不需要识别\theta
,而只需要识别\theta
的一个降维变换,\phi=\phi(\theta); \dim(\phi)<\dim(\theta)。这里的\phi就是一个\theta的充分统计量:虽然多个\theta
对应同一个\phi,但是这些不同的\theta
不会影响数据生成方式,即\phi是“充分”的。因此,为了得到反事实推断,我们只需要识别\phi即可。

充分统计量方法的思路在很多传统结构模型中或多或少都有应用到。比如在面板回归中,我们常常将无法识别的常数项一起丢进各种fix effects里面,也就是虽然我们无法单独识别这些n维常数项C1,C2,C3,…,但是我们可以识别他的一个一维变换 C1+C2+C3+…。充分统计量将这种思路拔高到另一个层次,将一系列无法识别的真正有意义的参数(而不仅仅是我们不太关注的常数项)“合并”到一两个可以识别的统计量上,并且由于这些统计量已经考虑了数据生成方式对政策变化的反应,我们可以通过这些统计量的估计值进行反事实推断,做出许多颇有意义的政策建议。

不出意外的,充分统计量方法最先出现在公共经济学和福利经济学这些政策性较强的研究中,强调理论模型的复杂,识别的清晰和policy-invariance(对政策变化的普适性?)。现在这一方法已经慢慢扩展到贸易、劳动、产业组织、行为等等一系列应用经济学领域。根据“大牛挖坑,小牛灌水”的普遍规律,充分统计量方法还将在各大实证领域继续发光发热。
===

个人感觉格兰杰因果跑题了

来源:知乎 www.zhihu.com

作者:Junyi Hou

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 4 个回答,查看全部。
延伸阅读:
会计学的博士是研究什么的?
完成医学研究硕士学习的女留学生,最好应该在国外读博,还是国内读博?

分享到