2 基于贝叶斯判别(Bayes)的模型 贝叶斯(Bayes)判别首先会利用一个先验概率来描述对研究现象已有的认识,然后通过样本来修正先验概率,得到后验概率,最后基于后验概率进行分类与判别。贝叶斯判别方法具体如下: 设有k个p维总体G1,G2,…,Gk,概率密度函数分别为f1(x),f2(x),…,fk(x)。假设样本品x来自总体Gi的先验概率为pi(i=1,2,…,k),则有p1+p2+…+pk=1。根据贝叶斯理论,样品x来自总体Gi的后验概率(即x是已知时,样品x来自总体Gi的概率)为: P(Gi|x)=,i=1,2,…,k 在不考虑误判代价的情况下,有以下的判别规则: x∈Gi,若=P(Gj|x) 若考虑误判代价,表示根据某种判别规则可能判归Gi(i=1,2,…,k)的全体样品的集合,用c(j|i)(i,j=1,2,…,k)表示将来自Gi的样品x误判给Gj的代价,则有c(j|i)=0。将来自Gi的样品x误判给Gj的条件概率为: P(j|i)=P(x∈Rj|x∈Gi)=fi(x)dx 可得任一判别规则的平均误判代价为: ECM(R1,R2,…,Rk)=E(c(j|i))=pic(j|i)P(j|i) 使得平均误判达到最小的判别规则为: x∈Gi,若c(j|i)fj(x)pi=pic(h|i)fj(x) 以上判别规则可以这样理解:若样品判归Gi的平均误判代价比判归其他总体平均误判代价都要小,这样就将样品归于Gi组。 3 实证数据分析 本实验的数据来自对广东省17个地市(不含深圳)城镇、农村两个层面消费群体的烟草消费调研,较真实地了解广东省卷烟消费者对卷烟的品牌、包装、口味、价格、购买动机等影响卷烟消费行为的因素以及相关市场情况。经过数据收集、数据录入、数据预处理、卷烟品牌分类、基于支持向量机的多类分类分析等步骤进行实证数据分析。 4 实验结果 支持向量机的多类分类依靠几个二分类模型才能实现,在本次试验的多类分类模型设计中,共需要训练6个SVM,整个支持向量机的分类结构,已经在图1中阐述。 低档与非低档分类中,准确分类的精度达到了96%。普通与非普通分类中,准确分类的精度达到了86%。高档与非高档分类中准确分类的精度达到了88%。低档与高档分类中准确分类的精度达到了96%。低档与高档分类中,只选取训练集中的低档品牌消费者和普通档品牌消费者各作为一类,分类的精度达到了95%。普通与高档分类中,只选取训练集中的普通品牌消费者和高档品牌消费者各作为一类,分类的精度达到了88%。 从上面所有的支持向量机训练期分类结果可以发现,所有支持向量机训练期的精度都较高。一方面,作为机器学习的算法可能存在过拟合的现象;另一方面,也说明了作为消费者而言,不同档次的消费者的差异可区分度较大。根据模型设计,支持向量机在分类总体完成后,预测期内对模型的预测效果进行检验。不同参数与模型的比较结果如表1所示。 |