3.3.2用户兴趣识别效果
使用训练得到的微博分类器对测试用户的微博进行分类,通过投票策略,输出最感兴趣的3个类别作为其结果兴趣。考察了2类用户相关的微博:一是用户自己发布的所有微博;二是用户转发的微博。表8给出了两种情况下,用户兴趣识别的结果。从实验结果可以看出,基于微博分类的用户识别效果令人满意。使用转发微博略优于使用所有微博,可见转发微博更能体现用户兴趣。
4结束语
本文提出了基于微博分类的用户兴趣识别方法,选取典型微博账户的数据以及抽取有效特征用于训练微博分类器,通过对用户微博进行分类识别用户兴趣。实验表明,所提出的方法可对微博进行有效分类,其中结合微博局部词汇与全局主题特征的方法获得了最佳表现,F值达到86%。在此基础上,识别得到的用户兴趣与人工标注结果比较获得了满意的效果,其中对用户转发的微博进行分类,并取得了最好的性能指标。
参考文献:
[1]ZHAOWSYNEXin,JIANGJing,WENGJianshu,etal.ComparingTwitterandtraditionalmediausingtopicmodels[J].EuropeanColloquiumonIRResearch–ECIR,2011:338-349.
[2]HONGL,DAVISONBD.EmpiricalstudyoftopicmodelinginTwitter[C]∥ProceedingsoftheSIGKDDWorkshoponSMA.2010.
[3]ABELF,GAOQI,JANG.SematicEnrichmentofTwitterPostsforUserProfileConstructionontheSocialWeb.ESWC,2011.
[4]RAMAGED,DUMAISSTLIEBLINGOL.Liebling.CharacterizingMicroblogswithTopicModels[C]∥.InternationalConferenceonWeblogsandSocialMedia-ICWSM,2010.
[5]ABELF,GAOQI,JANG.AnalyzingUserModelingonTwitterForPersonalizedNewsRecommendations.UMAP,2011.
[6]ABELF,GAOQI,JANG.TUMS:Twitter-basedUserModelingService.ESWC,2011.
[7]MatthewMichelson,SofusA.Macskassy.Discoveringusers'topicsofinterestontwitter:afirstlook[C]∥.AND'10ProceedingsofthefourthworkshoponAnalyticsfornoisyunstructuredtextdata,2010:73-80.
[8]GENCY,SAKAMOTOY,NICKERSONJV.DiscoveringContext:ClassifyingTweetsthroughaSemanticTransformbasedonWikipedia.HCII,2011.
[9]WUWei,ZHANGBin,OSTENDORFM.AutomaticGenerationofPersonalizedAnnotationTagsforTwitterUsers.ACL,2010:689-692.
[10]LAPPAST,PUNERAK,SARLOST.MiningTagsUsingSocialEndorsementNetworks.SIGIR,2011:195-204.
[11]YAMAGUCHIY,AMAGASATKITAGAWAH.Tag-basedUserTopicDiscoveryUsingTwitterLists.AdvancesinSocialNetworkAnalysisandMining-ASONAM,2011.
[12]SUYKENSIAK,VANDEWALLEJ.LeastSquaresSupportVectorMachineClassifiers[J].NeuralProcessingLetters,1999,9(3):293-300.
[13]DMB,AYN.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003.
|