1.帖子的传递链反映了用户之间影响的传递。比如,如果帖子Cy回复的是帖子Cx,那么Cy被认为受到了Cx的影响。类似的,如果人物Y回复了人物X的帖子,那么认为人物Y受到了X的影响。因此,影响力是通过帖子链传播的。
数据挖掘交友
2.帖子中的关键词反映了人物的观点。在帖子链中关键词传递的多少反映了影响的程度。
基于上述两个假设,影响力模型被定义为:关键词在帖子传递链中传递的程度即为影响力传递的程度。
其中,Wx和Wy是帖子Cx和帖子Cy中所使用的关键词集合。ix,y是帖子X对帖子Y的影响力。影响力的传递计算:
在此模型基础之上,Naohiro Matsumura等人研究了挖掘和分析BBS上观点领袖(Opinion Leader)及其角色的方法。IDM模型的着眼点是用户间的交互模式,通过分析帖子或者用户间的影响力传递来发现焦点人物或者热点话题。 数据挖掘论坛
Kleinberg的思路是把BBS上的帖子看成是一种文本流,类似于网络流量建模中的排队论,他用无穷状态自动机的状态转移去模拟文本流中 burst的到来,最后在Email和科技文献中验证了模型的健壮性和效率。Kleinberg对文本流随机到达的假设做了扩展,对原算法有所改进。
数据挖掘交友
值得一提的是,国外比较流行的新闻组(newsgroup)其实跟国内的BBS论坛结构很类似,因此这方面的研究也有借鉴的价值。有研究人员探 讨了在USENET新闻组上利用统计和语言学方法获取词法、语意和对话三个层面信息的方法。也有研究人员基于新闻组上的回复关系形成的图结构,分析用户的 群体观点对立特征,并且验证其结果比单纯的文本分类效果好。
微软的研究人员对新闻组的结构进行了深入的研究,他们发现新闻组上的cross-post形成的网络是一个小世界网络,提出基于cross- post模型的聚类算法优于语意聚类方法。同时微软的Netscan项目对USENET新闻组的结构给出了可视化的分析结果,内容见网址http: //netscan.research.microsoft.com/。
国内的研究 数据挖掘论坛
国内针对BBS的研究很多是从社会学、舆论引导、心理学、语言学的角度出发。从技术角度出发研究BBS的较少,其中有的介绍如何实现一个BBS 或者如何解决一个BBS搭建上的技术问题,其中一些具有一定价值,如提出一个针对Telnet协议下的BBS搜索引擎。针对BBS上的话题研究仅有复旦大 学计算机系的媒体计算与Web智能实验室出过两篇相关的论文:一个提出BBS热点话题发现的一种方法,另外一个在其基础上提出了几种优化方案。
展望