根据历史数据和经验设定相应的高低分位数阀值?琢1和?琢2。当然阀值是依靠经验给出来的,并没有理论上的必然的理由。一个模型的表现,有很大一部分决定于参数选取是否合理,是否表现了市场的真实状况。因此,我们选取参数时会结合相关的行业经验从历史经验的角度来观察。借助阀值就可以帮助我们清晰地判别商品所处的种类。 具体过程如下:①收集市场中的烟草商品,对其价格求分布函数F(X);②根据历史数据和经验确定商品状态的高低阀值?琢1和?琢2;③根据求得的价格走势强度和所设定的阀值确定此时的商品状态: 当F(X?燮x)<?琢1时,则可定义为低档商品; 当1-F(X?燮x)<?琢2时,则可定义为高档商品; 当a1?燮F(X?燮x)<?琢1时,则可定义为普通商品。 这样我们就可对商品市场有个清晰的研判,然后根据不同的商品属性进行消费者行为的划分。 本文分别针对低档商品、普通商品、高档商品训练得到相应的支持向量机,这样在判断出当时所处的市场状态后,就可采用相应的消费行为模式识别。 1.2 支持向量机的操作过程 本论文选取一对一的多类分类方法结合二叉树分类来解决烟草消费者行为分析的分类问题。 在支持向量机模型的操作过程中,要重点讨论的是核函数与惩罚函数。 常用的核函数包括以下三种: ①多项式核函数: K(x,xi)=(x·xi+1)d其中d是多项式的阶次。 ②Gaussian 核函数: K(x,xi)=exp-其中?滓是核宽度参数。 ③Sigmoid 函数: K(x,xi)=tanh(v(x·xi)+c) 其中,v为一阶常数,c为偏置顶。 除去上面三种核函数以外,特殊场合还可以编写特殊的核函数。在解决烟草用户行为分析的案例中,对核函数的选择是一个重要的问题。解决方法为将各个核函数遍历一遍后,选择能最优拟合样本数据的核函数。 现实世界中的消费者行为,受到复杂的个人性格、成长环境、年龄、社会阶层等各个方面的影响。是个高维度,高噪音,不确定的系统。所以整个数据集中的各类数据受到的干扰很大,可能导致各类数据不能完全地被超平面分开。 为了衡量SVM网络的分类精度的高低,根据一般的原则,本位采用测定分类正确率作为评定指标:e=正确分类值数量/测试样本总数。并选取不同的核函数进行比较。 另外,本次试验也将选取贝叶斯判别方法与SVM的分类精度进行比较,从而更好的观察支持向量机的分类效果。 |