总的说来,国外对BBS挖掘的研究工作起步不久,国内才刚刚起步,有待改进的地方还很多。
1. 没有扩展到跨BBS的情况。目前的研究基本(除了微软对新闻组上cross-post的研究包括多个Channel)都是针对一个BBS上的某个版面。显然这只是问题的简化。如果把研究范围扩展到多个BBS,将面临以下几个问题:
数据挖掘工具
第一, 同一论坛的不同版面可能讨论同一话题,这样不同版面对此话题的计算评估怎么跨版面地合并?这无疑给话题的分类、同主题的合并提高了难度,现有的针对单个论坛的单个版面的算法能胜任么? 数据挖掘研究院
第二, 同一个论坛上的用户有惟一的ID标识,但是不同论坛上的用户怎么惟一标示呢?怎么计算跨论坛的用户对同一个话题的关联呢。尤其是分析发帖-回复结构的算法依赖于对用户的识别、计数,跨论坛时怎么处理呢?
第三, 不同论坛间会出现大量雷同帖子的转帖现象,记录论坛间帖子的转帖链对评估各论坛的传播影响力,分析话题的传播模式大有裨益。但是跨论坛转帖链的记录对帖子的主题识别提出了较高要求。现有的算法能否胜任?
第四, 不同的BBS由于各自地域、用户群体的差异导致帖子内容的词汇风格、发帖、回帖习惯等方面大相径庭,比如封闭的小论坛上容易出现熟人间的聊天,话题漂移现象显著,而大论坛上这种情况就少得多。面对这样的差异性,统计学习类的算法怎么适应?
然而,很多应用需求都要求解决跨多论坛问题,比如新闻传播与舆论导向方面的应用、在BBS上的大范围的市场营销手段等,仅仅一个论坛的一个版面的数据是远远不够的。但目前这方面的工作还是空白。
2. IDM模型的计算影响力因子的方法明显存在缺陷。它用帖子中的term 扩散来判断影响力的扩散,将受到term提取的精度、同义词的影响。帖子相关的一些其他边缘信息,比如帖子的正文长度、回帖时间间隔、同一个用户对同一话 题的累积回帖次数等都应当可以作为有益的补充,但是IDM却没有考虑这些边缘信息。 数据挖掘实验室
3. BBS挖掘的两个核心问题:话题发现与追踪、论坛结构分析并不是孤立的,两者是可以互为补充的。IDM模型已经事实上蕴含了这样的思想,因为term的提取可以看作是对话题的分析。但是,这两者结合还有多少改进算法的空间呢?有待进一步尝试。 数据挖掘研究院
4. TDT、Web挖掘中已有的算法在应用到BBS挖掘中时有哪些BBS特有的因素(比如帖子标题、BBS特有的语言特征等)可以考虑,用以改进算法?社科理论中的相关理论有哪些是对BBS适用的?这些都有待验证。