当前位置: > 论文中心 > 计算机论文 >

基于微博分类的用户兴趣识别(2)

时间:2013-09-13 14:23 点击:
为最大限度符合之前提出的构建类别体系原则,将类别设置为10个,并搜集得到一定规模和质量的微博训练语料。设定类别分别为:体育、娱乐、汽车、财经、时事/军事、科技、健康/养生、旅游/摄影/美食、星座/时尚/语录
 
  为最大限度符合之前提出的构建类别体系原则,将类别设置为10个,并搜集得到一定规模和质量的微博训练语料。设定类别分别为:体育、娱乐、汽车、财经、时事/军事、科技、健康/养生、旅游/摄影/美食、星座/时尚/语录、校园/教育/职场,具体如表1所示。
 
  2.3文本分类特征
 
  微博分类属于短文本分类,属于有指导学习,本文采用支持向量机[12]作为分类模型,其主要任务是提取有效的特征。由于微博较短,且用户输入又多属不规范,因而为构建特征带来很大挑战。在此采取词语层次特征与主题层次特征相组合的策略,以构建训练分类器的特征,对策略解析如下。
 
  词语层次的特征:以微博中的单词作为特征,采取文档频率与卡方统计相结合的特征选择方式,抽取出类别区分度较明显的词语作为特征。
 
  主题层次特征:基于大规模微博数据训练主题模型[13],对微博数据的主题进行推断,以各微博在主题上的分布作为特征。使用这种策略的优势在于可将训练数据中的微博与用户微博映射到相同的主题空间内。
 
  最终,将主题层次的特征与词语层次的特征相组合,构成特征空间用于分类。
 
  2.4用户兴趣识别
 
  设主题类别体系为C={c1,…,cM},给定某个用户u,抽取其发布的微博文本集合W={w1,…,wn},文本数目为n,使用训练得到的短文本分类器进行预测,得到n条微博文本对应的预测类别列表L={l1,…,ln},其中li∈C。
 
  在预测类别列表上定义一个计数函数count(x,L)表示类别x在L中出现的次数,其中,x∈C。按照count(x,L)由高到低排序,选择排序靠前的类别表示用户兴趣。
 
  3实验
 
  3.1实验数据
 
  (1)微博分类训练数据。从新浪微博的某些官方微博和具有明显类别信息的、人气较高的微博上抽取文本作为训练语料。训练和测试语料的微博文本数目如表2所示。
 
  3.2评价方法
 
  (1)评价分类效果
 
  本文对短文本分类效果的评价则采用准确率(precision)、召回率(recall)以及F测度来进行衡量与表征。
 
  假设针对某一类别C的分类结果,如表3所示。
 
  (2)评价自动生成标签效果
 
  用户兴趣识别方法是通过用户生成一系列类别标签,选择前3个类别反映其兴趣。采集了40位微博测试用户的数据,两名标注者观察每名曾经发过及转发过的微博并标注每名用户的兴趣类别。将系统自动获得的类别与人工标注结果相比较,采用P@N指标进行评价。表4给出了两位标注者的标注一致性。两位标注者对结果的标注一致性处在0.40至0.75的范围内,可以接受。
 
  表4两位标注者评定结果的一致性
 
  Tab.4Thekappavaluesbetween2labelers使用所有微博使用转发微博Cohen'skappa0.41240.4828
 
  3.3结果与分析
 
  3.3.1微博文本分类效果
 
  分别考察词语层次特征以及主题层次特征对分类效果的影响。仅使用词语特征构建的分类器(记为Word),使用主题-文档分布作为特征的分类器(记为Topic),将词语与主题相结合作为特征的分类器(记为Word-Topic)。表5、表6和表7分别展示了3个分类器的分类结果。
 
  从实验结果可以看到,单独使用主题作为特征的分类器Topic的表现不如基于词作为特征的分类器Word。这说明仅使用主题作为特征尽管可以降低特征维度,避免特征稀疏问题,但可能由于主题过于宽泛而影响其区分力。将词特征与主题特征结合后的分类器取得了最佳效果,较WORD提高了接近2%。
 
  3个分类器在“旅游/摄影/美食”、“星座/时尚/语录”和“校园/教育/职场”3个类别上表现稍差,原因大致是这3个类别中的每一类实际涵盖的话题既多且杂,且存在部分账户发布大量的商业信息。虽然选取的构建微博训练语料的微博用户发布的所有微博已经倾向于归属同一个类别,但是不可避免地仍会引入一些噪声。

   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312