假定有n个样本,每个样本p个变量来描述研究对象,构成一个n×p阶的样本数据矩阵,
X=[■(x_11&⋯&x_1p@⋮&⋱&⋮@x_n1&⋯&x_np )]
记原变量指标为X_1, X_2,⋯,X_p,设它们经过降维处理后的新指标,即新变量为C_1, C_2,⋯,C_m(m<=p),则
{█(C_1=a_11 x_1 〖+a〗_12 x_2+⋯〖+a〗_1p x_p@C_2=a_21 x_1 〖+a〗_22 x_2+⋯〖+a〗_2p x_p@█(⋯@ C)_m=a_m1 x_1 〖+a〗_m2 x_2+⋯〖+a〗_mp x_p )┤
其中各主成分线性系数必须满足以下条件:
(1)C_i与 C_j(i≠j;i,j=1,2,⋯,m)线性无关;
(2)V(C_1)≥V(C_2) ≥⋯≥V(C_p)
(3)∑_(j=1)^p▒a_ij^2 =1 (j,i=1,2, ⋯,p)
新变量C_1, C_2,⋯, C_m代替原来p个变量,分别称为原变量指标X_1, X_2,⋯,X_p的第1、第2、⋯、第n主成分,且要求C_i所包含的指标信息量占原始指标信息量的80%及以上,即主成分的累计贡献率达到80%以上,且C_i对应的特征值大于1。