1 总体思路 基于数据挖掘技术的企业竞争情报系统是一个基于网络技术的集成企业现有信息的资源、设备资源、现代管理机制及员工知识于一体的有机整体[1]。通过硬件软件的辅助,引入数据挖掘技术等,最终实现一个基于Intranet的计算机辅助系统。本文在竞争情报系统中引入数据挖掘技术,同时添入一个竞争情报预处理系统,该系统对数据采集器收集到的数据进行合并、过滤、自动分类,文本预处理等,从而为竞争情报分析系统更有效率的数据处理提供保障。基于数据挖掘技术的企业竞争情报系统由情报数据收集系统、情报数据预处理系统、竞争情报分析系统和竞争情报服务系统构成。 2 各子系统功能及构建 2.1 情报数据采集系统 企业的情报信息通常分为:企业外部信息,包括Internet信息、报刊杂志、政府文件等;企业内部信息,如企业生产报告、市场报告、结构化数据、人际网络消息等;内外交叉信息。根据信息分类,通过网络蜘蛛自动抓取Internet信息;通过人工方式对纸质信息、企业内部文件等进行采集;企业提供的结构化数据直接存入数据库。 2.2 情报数据预处理系统 本系统的主要功能是将竞争情报系统数据仓库中的信息进行合并、过滤、提取、自动分类,进行初步的筛选、处理,从而为竞争情报分析系统更有效率的数据处理提供保障。 在将搜集处理之后的中文文本数据转换为适合数据挖掘的中文文本信息时,需要对中文文本进行分词和特征词的过滤。这样可以使机器识别出文本集中的中文词组,有益于文本的特征表示,并将隐含有较高文本信息量的特征词保留下来。 在对文本数据进行挖掘前,通常会先为文本内容找到一种合理的表示方法[2],本文采用向量空间模型(VSM模型)。在计算权值时采用TF.IDF方法,由于各个词条的量纲不尽相同或数值范围相差较大,因此,还需要进行规一化处理。如果仅使用TF.IDF来计算特征词的权重,忽略了特征词在文本中所处位置和特征词长度这两个重要的信息。那么此方法计算的权重并不能准确反映特征词在文章中的重要程度。因此本文在确定每个特征词的权值时采用改进的TF.IDF公式,考虑特征词的位置、长度、包含信息。 2.3 竞争情报分析系统 数据经过预处理,为数据挖掘的实现准备了良好的数据环境,开展数据挖掘的条件就己经成熟。 本文在进行数据挖掘时,首先应用投影寻踪技术对文本进行特征降维,将高维文本投影到二维空间,再对已经投影到低维空间的文本集采用简单K-means法聚类,从而实现对采集的企业信息数据的聚类。 在投影寻踪模型中一般是将高维空间投影到一维至三维空间中去。因为投影到一维至三维上才可以得到较为直观的实验结果。究竟将文本向量投影到几维空间才较为恰当,是值得我们考虑的一个问题。因为不仅需要考虑文本聚类效果,还需要考虑算法的时间、空间复杂度。一般情况下,利用投影寻踪模型都是将m维的向量空间投影到一个一维的向量上去,即线性投影。但是,高维的文本向量投影到一个一维空间后,太多的文本特征信息将丢失,影响聚类效果。因此,本课题选择了将多维的文本向量利用投影寻踪模型投影到二维平面,以期保留更多的文本信息,实现更好的聚类效果。 将多维文本向量投影到二维平面上的步骤如下: 第一步:计算特征词矩阵。每一个文本doci生成一个m维特征向量Wi(wil,wi2,…wim),(i=l,2,…,n)。n个文本构成一个向量空间:W=[W1,W2,…Wm]T=(wik)n×m。 第二步:利用投影寻踪模型将m维的向量空间投影到二维空间。令x=(x1,x2,…xm),y=(y1,y2,…ym)均为m维单位向量(即||x||=1,||y||=1),表示的是向量空间模型被投影到的两个方向。则dxi、dyi分别是文本doci在方向x、y上的投影特征值,cosa表示这两个方向的夹的锐角或直角,由这两条单位向量可确定的一个平面A。这样完成了m维的向量空间到一个平面上的投影。将文本doci在两个方向的投影特征值(dxi、dyi)看成是文本在这个投影平面A上投影点的坐标值,先通过坐标值来判断投影点间的距离,再据此对文本聚类。由于两个投影方向不一定是直角坐标,所以在求投影点间欧式距离时应将其转化为直角坐标系中去求。 第三步:构造投影指标函数。投影寻踪指标构造可以使用K-L信息散度、Friedman-Tukey投影指标、Friedman投影指标等方法。由于聚类分析是对文本集进行合理分类,使类内相关度大而类间相关度小。为此,构造目标函数既要考虑文本的类内相关度,又要考虑文本类间相关度,本文选用了Friedman-Tukey投影指标法,将目标函数Q(a)定义为类间距离s(a)与类内密度d(a)的乘积,即:Q(a)=s(a)*d(a)。 聚类目标是使得Q(a)最大,类间距离采用文本集的投影特征值方差计算。 第四步:优化投影平面。投影寻踪的关键问题是寻找最优的投影平面A,使得目标函数Q(a)取得最大值,于是,寻找最优投影平面的问题转化为下面公式所示的优化问题,可用遗传算法进行求解。 由于标准遗传算法的交叉、变异、选择等操作一般都是在概率意义下随机进行的,虽保证了种群的群体进化性,但一定程度上不可避免的出现退化现象。为提高遗传算法的全局收敛性和整体算法性能,本课题采用一种改进的遗传算法-基于实数编码的加速免疫遗传算法。 第五步:综合评价分析。根据最优投影平面,计算反映各评价指标综合信息的投影特征值dxi、dyi,(i=1,…,n),用它们表示文本的特征,根据差异水平对文本集综合分析,得出聚类结果。通过上面介绍的投影寻踪技术将高维的文本向量空间模型降低到一个二维平面,文本投影点有了较好的聚类效果。但是机器却不能识别文本到底被聚成了几类。因此需要在二维的投影空间上继续使用相关聚类算法将文本进行聚类。由于通过降维处理后,可以在这最优投影平面上识别出文本集中到底包含了几个文本类,再采用简单的K-means划分法对文本聚类即可。 2.4 情报服务系统 将处理后的情报信息向用户展示,并提供了多种服务。分类情报实时浏览是情报服务最基本的功能;海量的情报信息需要提供全文检索服务的接口,通过用户提交的关键字和相关信息及时反馈给用户最相关的检索结果;提供一个情报用户和竞争情报人员的互动平台。通过情报分析子系统中情报分类分析技术,可以将情报按构成要素分为所需的几类,服务子系统将为用户提供分层次、分权限、分级别的情报。 3 结束语 本文根据构建企业竞争情报系统的指导原则,针对现有的企业竞争情报系统存在着分析功能不全面、适用范围较小、更新不方便等缺陷,在系统中使用数据挖掘技术,充分实现其分析功能,为企业决策服务。这是一种新的尝试与探索,尽管有一定的理论基础,但仍然有待进一步的深化与验证,进行不断的补充与完善。 参考文献 [1]陈小芳.基于数据挖掘的企业竞争情报系统应用研究[D].合肥工业大学,2008. [2]胥桂仙.文本挖掘中的特征表示及聚类方法[D].长春:吉林工学院计算机科学与工程学院,21302.[25]. |