一种二次主成分分析模型解决病情确诊的实现-EDA365

在用统计分析方法研究这个多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

主成分分析（Principal Component Analysis，PCA），将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

人们到医院就诊时，通常要化验指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量，主要包括锌（Zn）、铜（Cu）、铁（Fe）、钙（Ca）、镁（Mg）、钾（K）及钠（Na）。表1是确诊病例的化验结果，其中1~30号病例是已经确诊为肾炎病人的化验结果，31~60号病例是已经确定为健康人的结果[2]。在论文中列出的数据是原始数据中1~10号病例及31~40号病例的数据，运用主成分计算时以所有数据为初始数据。

1 主成分分析模型

主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var（F1）越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov（F1， F2）=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

2 模型应用

2.1 问题分析解决

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

一种二次主成分分析模型解决病情确诊的实现

相关推荐