从这个定义1,我们可以知道主成分是原来[p]个原始变量进行特殊线性组合构成的. 那么, 我们如何来求主成分呢? 一般地, 我们有: 定理 2 设[X=X1,X2,…,XPT] 为[P]维随机向量。且[D(X)=Σ], [Σ] 的特征值为 [λ1≥λ2?…≥λp>0,] [α1,α2,…,αp]为相应的单位正交特征向量, 则[X]的第[i]主成分为[Fi=αTiX i=1,2,…,p] 从这个定义2,我们了解到要求[X]的第[i]主成分,必须首先求出[X]方差的第[i]大特征值和相应的单位正交特征向量。 2.3 主成分分析的分析步骤[3] 设研究某一事物涉及[到p]个变量,每个变量都有[n]个数据。那么我们就可以得到一个[n×p]阶的矩阵,将其记为 [X=xijnm=x11…x1p???xn1…xnp]=[X1,X2,...,Xp] 1)对矩阵[X]进行标准化处理 [xij=xij-xjσj],[i=1,2,...,n;j=1,2,...,p], 其中[xj=1ni=1nxij],[σj=1ni=1nxij-xij2] , 得到标准化矩阵仍记为 [X=xijnm=x11…x1m???xn1…xnm] [Xi=x1i,xni,...xniT,i=1,2,...,p] 2) 求标准化后矩阵的相关系数矩阵: [R=r11…r1n???rp1…rpn]=[1nXTX] 其中,[rij=1ni=1nxijxik=1nXiTXk],[j,k=1,2,...,p] 3) 求相关系数矩阵[R]的特征值[λi]和相应的特征向量[αi] 4) 确定要选取的主成分个数,我们称[λkk=1pλk]为第[k]个主成分的贡献率,记为[ρk],称[k=1mλkk=1pλk]为前[m]个主成分的累积贡献率。当前[m]个主成分累积贡献率超过[83%]时,取前[m]个主成分代替原来的[p]个指标。 5) 求各主成分载荷[βi=λiαi]以及主成分载荷矩阵,再计算各主成分的得分函数[Fi=αiXi,i=1,2,...,m] 6) 把各变量的原始数据标准化后代入各主成分方程中,求得综合评价值[F=ρ1F1+ρ2F2+...+ρmFm]进行分析评价。 3 应用主成分分析法分析考生成绩[4-5] 3.1 选取主成分和构造综合评价函数 以贵阳某中学的一个班在高三模拟考试中的数学选择题的得分情况的数据为例.运用主成分分析法对考生数学学习情况进行分析。该班一共有50名考生。高中数 学选择题共12题,每题5分,将数学选择题每个题目分别用[X1]、[X2]、[…]、[X12]。来表示,用[xij]表示第i个考生在数学选择题第j 题上的得分,则这样就得到了一个[X=(xij)50×12]的矩阵,因此我们可以借助matlab主成分分析程序对这个矩阵进行主成分分析,得到下列结 果: 根据主成分分析的相关理论,在选取主成分时,只需要将特征值从小到大排列,选取前[m]个累计贡献率超过83%的主成分即可,通过上面表 格和图形的显示的累计贡献率可知,我们只需要选取5个主成分,从上面累积贡献率情况可知我们选取的这5个主成分是可以反映全部指标的基本信息,所以可以用 这5个新变量来代替原来的12个变量。根据前面讲到的定理2我们可以得到选择题的5个主成分公式,如下所示: [F1=0.1932X1+0.1359X2+0.3402X3+0.2662X4+0.1254X5+0.2944X6 +0.2828X7+0.2454X8+0.5176X9+0.4098X10+0.2061X11+0.1915X12] [F2=0.5196X1+0.5343X2+0.4956X3+0.2918X4-0.3985X5-0.4281X6 +0.3391X7-0.1558X8-0.1008X9+0.3771X10-0.3291X11-0.1933X12] [F3=-0.0117X1-0.1687X2+0.1733X3-0.2693X4-0.3008X5+0.0588X6 +0.3456X7+0.5041X8-0.2919X9-0.2080X10-0.1174X11+0.5090X12] [F4=-0.0802X1-0.0883X2+0.3429X3-0.0951X4-0.4928X5+0.5271X6 +0.0005X7-0.1161X8+0.1591X9-0.1941X10-0.2019X11-0.2702X12][F5=0.0993X1+0.1617X2+0.2707X3-0.0251X4+0.1000X5+0.1639X6 -0.3226X7-0.4542X8+0.0146X9+0.0011X10-0.4819X11+0.5571X12] 根据主成分分析的分析步骤的第6步可得到选择题综合评价函数: [F=0.1894X1+0.1578X2+0.3443X3+0.0904X4-0.1792X5+0.0873X6 +0.1840X7+0.0356X8+0.1024X9+0.1524X10-0.1397X11+0.1210X12] 3.2 选择题主成分分析 3.2.1 各题目重要性比较 通过图1,我们可以知道变量[X1]、[X2]、[X3]、[X7]、[X8]、 [X9]、[X12]所对应的题目要高于平均重要性,而变量[X4]、[X5]、[X6]、[X8]、[X11]所对应的题目重要性要低于平均重要性(0.0955)。 |