BBS 数据挖掘研究及其地位与核心问题

  总的说来,国外对BBS挖掘的研究工作起步不久,国内才刚刚起步,有待改进的地方还很多。

  1. 没有扩展到跨BBS的情况。目前的研究基本(除了微软对新闻组上cross-post的研究包括多个Channel)都是针对一个BBS上的某个版面。显然这只是问题的简化。如果把研究范围扩展到多个BBS,将面临以下几个问题:

数据挖掘工具

  第一, 同一论坛的不同版面可能讨论同一话题,这样不同版面对此话题的计算评估怎么跨版面地合并?这无疑给话题的分类、同主题的合并提高了难度,现有的针对单个论坛的单个版面的算法能胜任么? 数据挖掘研究院

  第二, 同一个论坛上的用户有惟一的ID标识,但是不同论坛上的用户怎么惟一标示呢?怎么计算跨论坛的用户对同一个话题的关联呢。尤其是分析发帖-回复结构的算法依赖于对用户的识别、计数,跨论坛时怎么处理呢?

  第三, 不同论坛间会出现大量雷同帖子的转帖现象,记录论坛间帖子的转帖链对评估各论坛的传播影响力,分析话题的传播模式大有裨益。但是跨论坛转帖链的记录对帖子的主题识别提出了较高要求。现有的算法能否胜任?

  第四, 不同的BBS由于各自地域、用户群体的差异导致帖子内容的词汇风格、发帖、回帖习惯等方面大相径庭,比如封闭的小论坛上容易出现熟人间的聊天,话题漂移现象显著,而大论坛上这种情况就少得多。面对这样的差异性,统计学习类的算法怎么适应?

  然而,很多应用需求都要求解决跨多论坛问题,比如新闻传播与舆论导向方面的应用、在BBS上的大范围的市场营销手段等,仅仅一个论坛的一个版面的数据是远远不够的。但目前这方面的工作还是空白。
   2. IDM模型的计算影响力因子的方法明显存在缺陷。它用帖子中的term 扩散来判断影响力的扩散,将受到term提取的精度、同义词的影响。帖子相关的一些其他边缘信息,比如帖子的正文长度、回帖时间间隔、同一个用户对同一话 题的累积回帖次数等都应当可以作为有益的补充,但是IDM却没有考虑这些边缘信息。 数据挖掘实验室

  3. BBS挖掘的两个核心问题:话题发现与追踪、论坛结构分析并不是孤立的,两者是可以互为补充的。IDM模型已经事实上蕴含了这样的思想,因为term的提取可以看作是对话题的分析。但是,这两者结合还有多少改进算法的空间呢?有待进一步尝试。 数据挖掘研究院

  4. TDT、Web挖掘中已有的算法在应用到BBS挖掘中时有哪些BBS特有的因素(比如帖子标题、BBS特有的语言特征等)可以考虑,用以改进算法?社科理论中的相关理论有哪些是对BBS适用的?这些都有待验证。

上一页 1 2 34 下一页
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:焦点应用:语义分析
下一篇:TRS启动"中国首届文本挖掘智能大赛"
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 文本聚类程序实例
  • BBS 数据挖掘研究及其地位与核心问题
  • 一种新的基于统计的自动文本分类方法
  • Text Categorization
  • Is Data Mining Misguided?
  • 焦点应用:语义分析
  • 句子相似度计算在FAQ中的应用
  • 文本挖掘抢占商业智能掘金制高点
  • 基于文本概念和kNN 的跨语种文本过滤
  • More data isn’t always a good thing in
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • More data isn’t always a good thing in
  • Text Categorization
  • Finding Advertising Keywords on Web Page
  • Communities from Seed Sets
  • To Randomize or Not To Randomize: Space
  • Overview of Text Summarization History
  • Porter Stemming Algorithm
  • Sequential Minimal Optimization
  • 句子相似度计算在FAQ中的应用
  • 弱指导的统计隐含语义分析及其在跨语言信息
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静