我不是很确定双向和单向的理解是否有道理,估计是那人的个人理解吧,即使是正确的好像也没什么用。还是尝试重新解释下PCA和factor analysis吧,数据是随机变量的抽样:
1. PCA的目标是简化数据,特别是当很大时,希望用
来代替
,其中每一个
都是
的线性组合:
PCA得到的主成分(principal component),可以看做是Correlation的推广。Covariance描述两个变量之间的协变关系,principal component描述多个变量之间的协变关系。熟知
表示在随机波动时,
和
这两个随机变量“共进退”。那么相应地,例如第一主成分
中前三个分量系数都是
后面都是0,这可以解释成
这三个随机变量在波动时“共进退”,第一主成分描述了这三个变量的“高阶”的“相关性”。
2. Factor analysis(FA)的目标是解释之间的相关性。FA的理论是,
之所以会互相相关,原因是他们都来源于同一组隐含变量
,每一个
都是
的线性组合。一般都会假设这些
是零均值、单位方差和互不相关的。
详细解释一下:要是和
的主成分“完全不同”,即在
和
中对任意
,
和
至少有一个是0,那么
和
就独立。反之,它们的系数(那些
)越相似,它们的相关性就越强。
总之,PCA和FA都在寻找的简洁表示,大致可以理解为:PCA在对随机变量做归纳总结,将
个变量总结为
个强相关(这里的“相关”是1.中所谓“高阶”的“相关性”)的变量;而FA则是在挖掘
背后的结构,将它们各自分解成一组共同的隐含变量不同的线性组合,从而解释它们相关性的来源。
顺便提一下,有个东西叫Probabilistic PCA,在某些条件下做Probabilistic PCA和做FA等价,有兴趣可以自己探索。
— 完 —
本文作者:Jack Diamond
【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)
此问题还有 1 个回答,查看全部。
延伸阅读:
如何有效地进行数据挖掘和分析?
数据分析和挖掘有哪些公开的数据来源?
No Comment