BBS 数据挖掘研究及其地位与核心问题

  1.帖子的传递链反映了用户之间影响的传递。比如,如果帖子Cy回复的是帖子Cx,那么Cy被认为受到了Cx的影响。类似的,如果人物Y回复了人物X的帖子,那么认为人物Y受到了X的影响。因此,影响力是通过帖子链传播的。

数据挖掘交友

  2.帖子中的关键词反映了人物的观点。在帖子链中关键词传递的多少反映了影响的程度。

  基于上述两个假设,影响力模型被定义为:关键词在帖子传递链中传递的程度即为影响力传递的程度。

  其中,Wx和Wy是帖子Cx和帖子Cy中所使用的关键词集合。ix,y是帖子X对帖子Y的影响力。影响力的传递计算:

  在此模型基础之上,Naohiro Matsumura等人研究了挖掘和分析BBS上观点领袖(Opinion Leader)及其角色的方法。IDM模型的着眼点是用户间的交互模式,通过分析帖子或者用户间的影响力传递来发现焦点人物或者热点话题。 数据挖掘论坛

  Kleinberg的思路是把BBS上的帖子看成是一种文本流,类似于网络流量建模中的排队论,他用无穷状态自动机的状态转移去模拟文本流中 burst的到来,最后在Email和科技文献中验证了模型的健壮性和效率。Kleinberg对文本流随机到达的假设做了扩展,对原算法有所改进。

数据挖掘交友

  值得一提的是,国外比较流行的新闻组(newsgroup)其实跟国内的BBS论坛结构很类似,因此这方面的研究也有借鉴的价值。有研究人员探 讨了在USENET新闻组上利用统计和语言学方法获取词法、语意和对话三个层面信息的方法。也有研究人员基于新闻组上的回复关系形成的图结构,分析用户的 群体观点对立特征,并且验证其结果比单纯的文本分类效果好。

  微软的研究人员对新闻组的结构进行了深入的研究,他们发现新闻组上的cross-post形成的网络是一个小世界网络,提出基于cross- post模型的聚类算法优于语意聚类方法。同时微软的Netscan项目对USENET新闻组的结构给出了可视化的分析结果,内容见网址http: //netscan.research.microsoft.com/。

  国内的研究 数据挖掘论坛

  国内针对BBS的研究很多是从社会学、舆论引导、心理学、语言学的角度出发。从技术角度出发研究BBS的较少,其中有的介绍如何实现一个BBS 或者如何解决一个BBS搭建上的技术问题,其中一些具有一定价值,如提出一个针对Telnet协议下的BBS搜索引擎。针对BBS上的话题研究仅有复旦大 学计算机系的媒体计算与Web智能实验室出过两篇相关的论文:一个提出BBS热点话题发现的一种方法,另外一个在其基础上提出了几种优化方案。

  展望

上一页 1 23 4 下一页
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:焦点应用:语义分析
下一篇:TRS启动"中国首届文本挖掘智能大赛"
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 文本聚类程序实例
  • BBS 数据挖掘研究及其地位与核心问题
  • 一种新的基于统计的自动文本分类方法
  • Text Categorization
  • Is Data Mining Misguided?
  • 焦点应用:语义分析
  • 句子相似度计算在FAQ中的应用
  • 文本挖掘抢占商业智能掘金制高点
  • 基于文本概念和kNN 的跨语种文本过滤
  • More data isn’t always a good thing in
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • More data isn’t always a good thing in
  • Text Categorization
  • Finding Advertising Keywords on Web Page
  • Communities from Seed Sets
  • To Randomize or Not To Randomize: Space
  • Overview of Text Summarization History
  • Porter Stemming Algorithm
  • Sequential Minimal Optimization
  • 句子相似度计算在FAQ中的应用
  • 弱指导的统计隐含语义分析及其在跨语言信息
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静