文本数据挖掘系统原型方案研究 数据挖掘实验室
1 引言 数据挖掘工具
文本数据挖掘是近几年才引起大家的关注并发展起来的一个数据挖掘领域的新兴分支,与机器 学习、统计、模式识别等前缘理论方法密切相关。面对这样的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力,成为数据 库研究的一个新领域。文本数据挖掘是通过自动提取文本信息在大量文本数据中发现未知的知识的过程,与自然语言密切相关,其关键是把提取的信息组合起来发现 未知知识。文本数据挖掘不同于Web搜索,Web搜索是人们事先己知要查找什么,而文本数据挖掘是发现未知知识,事先可能并不存在。文本数据挖掘也不同于 常规意义上的数据挖掘,常规数据挖掘是在数据库中发现感兴趣的模式,而文本数据挖掘是从自然语言文本中发现模式。 数据挖掘论坛
数据挖掘工具
2 文本数据挖掘技术发展研究 数据挖掘工具
数据挖掘论坛
文本数据挖掘可分为基于单文档的数据挖掘和基于文档集的数据挖掘阁。单文档数据挖掘对文 档的分析不涉及其它文档,主要挖掘方向有文本自动摘要、文档知识总结发现、信息提取。信息提取又包括名字提取、短语提取和关系提取等,涉及到较深的语言学 的知识。文档集数据挖掘对大规模的文档数据进行模式抽取,既可以文本自动摘要、文档总结,又可以进行文本分类、文本聚类、相似性分析、个性化文本过滤和信 息检索。文本数据挖掘目前主要运用特征信息提取、聚类分析方法对文本进行分类,主要应用在信息学和图书信息检索方面提高信息检索效率,有少部分运用语言学 的语法结构知识来分析文本内容,但进展缓慢不大。 数据挖掘工具
传统数据挖掘所处理的数据是结构化的,如关系的、事务的数据库和数据仓库的数据,其特征 项数目相对较少且结构单一;而文本数据没有结构,转换为特征矢量后特征项数目达到几万甚至十几万个。随着信息技术的发展,需要处理的文本信息也日益增加, 传统的信息检索和处理技术已经不能满足大数据量文本处理的需要。文本数据挖掘既融合了很多传统数据挖掘的技术,如挖掘算法思想、挖掘流程构架等,又有自己 独特的处理方法,表现在数据抽取、清洗及巨量数据挖掘算法的改进等方面。
文本可分为纯文本和超文本,超文本不仅有纯文本的性质,还含有各种标记和链接引入的结构 对象(如声音、图片甚至应用程序等)。对纯文本和超文本中纯文本部分都可以进行内容挖掘。文本内容挖掘又可分为有背景知识挖掘和无背景知识挖掘。有背景知 识挖掘是通过分析文本的语法特征和少量语义特征来进行挖掘,使用的背景知识主要是自然语言知识,如主谓宾及修饰性词句语法分析、通过辅助词进行语义分析 等,主要挖掘结果是文本的语法结构性和语义性特征。无背景知识挖掘则主要是通过统计方法提取文本特征数据,再对这些提取出的数据进行挖掘,挖掘的数据主要 是文本的描述性特征,挖掘的结果根据业务需求千差万别,如可以通过比较提取出的特征数据的相似程度对文本进行分类,可以在文件检索中提供给检索者相关特征 词的文件,还可以对文本进行自动文档摘要处理等。
数据挖掘工具
文本数据挖掘与目前数据挖掘热点Web数据挖掘也有较大的差别。Web数据挖掘属于点击 流数据挖掘,主要关注网页的链接,如Google用“PageRank”来度量网页重要(兴趣)程度,还对网页使用者的个人信息、使用习性等进行挖掘,以 更好的检索信息、改进Web内容结构等,从理论上讲还包括文本数据挖掘,但在目前应用中还对文本数据内容本身关注较少。文本数据挖掘主要关注于文本内容本 身,先对文本信息进行结构化处理,再利用挖掘算法发现文本中的未知知识或找出文本之间的关联信息等。文本数据挖掘也与Web搜索不同,Web搜索是查找事 先已知的内容,而文本数据挖掘则是发现文本中的相关知识,这些相关知识是事先未知的。