CRM试用热线:400-600-7912
>>>

复杂数据挖掘前的统计降维方法

3.2.3.2进行复杂数据抱掘前的统计降维方法——因子分 析方法

由于数据的结构有时候会非常复杂,不便于直接用来进行 数据挖掘。这时’7?纟要对复杂数据进行统计降维分析,从而简化 数据结构。因子分析是一类降维的相关分析技术,用来考察一 组变量之间的协方差或者相关系数结构,并用以解释这些变觉 与因子之间的关联。目前的因子分析包括探索性因子分析与验 证性因子分析。探索性因子分析是在事先不知道影响因素的基 础上,完全依据资料数据,利用统计软件,根据一定的原则进 行因子分析,最后得到因子的过程。确定性因子分析是充分利 用先验信息,在已知因子的情况下检验所搜集的数据资料是否 按照事先预定的结构方式产生作用。本书所讨论的是探索性因 子分析,通过对数据资料的因子分析实现降维,从而为进一步 的数据挖掘做准备。

根据因子分析的对象不同,我们将对变量进行的因子分析 称为R型因子分析,对样本进行的因子分析称为Q型因子分析。 下面将对R型因子分析的建模方法和步骤进行简单介绍。iiCov(F, 5)=0,即F和e互不相关;

iii不相关且方差皆为1,〜,…,o不相关且方差 不同。

其中.x=    是由P个指标所构成的P维随机变

ill, F= (Fi,…,FpV是不可观测的向ith称为;^的公共因子, 可以理解为高维空间中的互相垂直的m个坐标轴;a,j称为因子 载荷,是第i个变位在第_/个公共因子上的负荷。

第二,因子载荷矩阵的估计。要建立某实际分析问题的因 子模型,关键是要根据样本数据矩阵估计因子载荷矩阵,这里 果用较为普遍的主成分法。