0引言
微博,如Twitter和新浪微博,近几年取得迅速的发展。在微博平台上,用户可以通过发布一段不超过指定长度(通常为140个字)的短文本来表达观点,并分享信息。用户还可以通过关注感兴趣的微博账户,自动地接收到其所关注账户发布的信息。由于这种信息发布方式的便捷性,聚焦关注的自主性和广泛连接的社会性,微博这一社会媒体越发受到互联网用户的喜爱,成为用户获取最新信息、知晓社会动态的重要途径。
与此同时,大量信息的涌现也导致了严重的信息过载问题。每位用户一天之内就可能接收到几百甚至几千条微博,根本不会有足够的时间去处理这些信息。另外,网络用户发表的微博涉及到各种各样的主题,从时事新闻直到生活琐事。显然,并不是所有信息都会贴合用户的兴趣。因此,提出有效的方法实现用户兴趣识别,协助用户更好地组织与过滤信息,则成为当前微博研究领域具有高度必要性的研究课题。
本文试图通过对用户的微博进行主题分类来自动地识别用户的兴趣。具体地,讨论了如何根据分类体系以较小的代价获取大量的训练语料,以及如何利用微博的局部内容信息和微博平台全局信息提取特征进行分类。基于微博分类的结果,对用户的微博进行主题分类,从而识别出用户兴趣所在。实验表明,微博分类可以达到86%的F值,基于微博分类的方法可以准确地发现用户最感兴趣的主题,同时借助用户转发的微博更有利于发现用户兴趣。
1相关工作
本文研究的微博用户兴趣识别与微博的内容分析,微博用户的兴趣分析等有着较为紧密的联系。Zhao等[1]利用主题模型对Twitter与传统在线媒体内容进行比较后发现,在Twitter上,人们倾向于谈论与家庭、生活相关的话题。Hong等[2]研究了在微博环境中如何使用数据集训练主题模型。通过使用三种不同策略来训练模型:将单条微博当成一篇文档的MSG策略、将同一作者所有微博聚合起来的USER策略,将涉及相同Hashtag的微博聚合在一起的TERM策略。实验表明,MSG和TERM策略训练得到的模型具有更高的主题分布相似度,而USER策略在微博分类等任务中则具有更好的表现。Abel等人通过提取微博中的Hashtag、实体等与当前主流媒体如CNN、CBC、NewYorkTimes相链接,拓展丰富微博的语义[3]。
Ramage等[4]利用Labeled-LDA对Twitter的内容和用户建模,并用于微博排序、用户推荐等任务,均表现了不错的性能。文献[5]进一步利用传统媒体中的新闻、微博中的Hashtag等,提出了基于Twitter的用户建模框架,并应用于推荐任务中。而且还通过为用户构造长期和特定时间段的模型,观察用户兴趣的变化。文献[6]中,提出了基于Twitter的用户模型应用TUMS。给定一个Twiiter用户,收集该用户发布的所有微博,丰富语义,返回用户建模结果,并对其可视化。Michelson和Genc等将微博内容与维基百科资源相结合,并进行研究。文献[7]将用户发布的微博中提及的实体经过消歧等处理后映射到维基百科的某个类别节点上,经过投票策略可得到用户最感兴趣的维基百科类别节点。文献[8]的目的在于对单条微博进行分类。具体做法是,同样提取微博中的实体,得到每个实体对应的维基百科类别节点。而节点是具有层次的,因而通过一个基于路径的算法得到每条微博的归属类别。
此外,还有部分研究工作针对微博用户标签生成。Wu等基于TextRank抽取用户微博的关键词作为用户标签[9]。Lappas等[10]利用社会支持网络(SocialEndorsementNetworks)来挖掘Twitter用户的标签。Yamaguchi等[11]利用Twiter用户的分组名称来给用户添加标签。第4期宋巍,等:基于微博分类的用户兴趣识别智能计算机与应用第3卷
2基于微博分类的用户建模方法
2.1系统框架
本文提出基于微博分类的用户建模方法,利用主题类别体系表示用户兴趣。在训练阶段,基于从典型主题微博获取的数据提取特征、训练分类模型;在预测阶段,对用户发布的微博进行分类,并输出排序靠前的类别,并以其表示用户兴趣。
2.2分类体系
首先需要构建分类类别体系。希望能够尽可能覆盖常见的微博文本类型,类别之间的重合度较低且能够较容易地寻找到相应类别的微博训练语料。
微博文本中存在很多的噪声,而普通用户发布的微博通常涵盖众多类别。因此,从较为正式的官方微博,例如“新浪体育”,或者具有明显类别信息的微博用户,如“星座爱情”来抽取微博作为训练语料。 |