PCA 影响机器学习的可解释性吧？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1111 天前的主题，其中的信息可能已经有所发展或是发生改变。

比如样本有多个属性(变量)：年龄，性别，年收入，年消费额，年投资额……如果直接做回归预测，比如预测样本第二年的消费额。出来的结果是有可解释性的。因为所有属性都在。

但是如果应用了 PCA 降维以后，原有属性都淹没在新的属性当中了吧？可是新属性的含义有不明。所以是不是影响机器学习结论的可解释性？

如果是，有什么可以增加解释性的的解决方法么？

属性

消费额

PCa

机器学习

4 条回复

ypw

2022-02-07 09:45:44 +08:00

pca 可以提供每个属性的权重，并不是新属性含义不明。

事实上 pca 只是一个线性变换：

```py
np.dot(X, pca.components_.T)
```

参考链接： https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

GrayXu

2022-02-07 11:43:45 +08:00

> 可是新属性的含义有不明

这句话是错误的。

huzhikuizainali

2022-02-07 14:50:40 +08:00

@GrayXu 比如原来 x1 ，x2……xm 代表不同的属性。PCA 以后变成 z1 ，z2……zk （ k<m ）这是 z 和 x 怎么对应呢？有这方面的中文介绍么？

bstjanced555

2022-02-10 15:02:55 +08:00

或许 pca 可以看作是原始特征在另一空间的投影？这个空间是为了提取 x1...xm 与目标结果 y 对应的某些联合特征，也就相当于 1 楼说的属性权重