RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

一种新的基于统计的自动文本分类方法

来源: 作者:unkonwn 时间:2004-12-05 点击:

1引言
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对信息进行组织和整理。为了减轻这种负担,人们开始研究使用计算机对文本进行自动分类。自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。自动文本分类是人工智能技术和信息获取(Information Retrieval)技术相结合的研究领域,是进行基于内容的自动信息管理的核心技术。国外在自动文本分类以及相关的信息检索、信息抽取等领域进行了较为深入的研究。八十年代,自动文本分类以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机自动文本分类的依据。进入九十年代,基于统计的自动文本分类方法日益受到重视,它在准确率和稳定性方面具有明显的优势。基于统计方法的自动文本分类模型如图1所示,系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征形式化待分类的输入样本,然后输入到分类器进行类别判定,最终得到输入样本的类别。
输入文本 训练样本特征选择分类器 输出类别 形式化
图1 基于统计方法的自动文本分类模型
用简单而准确的方法将文档表示成计算机能够处理的形式是进行文本分类的基础。最经典文本形式化表示方法是60年代末Salton等人提出向量空间模型(VSM:Vector Space Model),它成功地被用于著名的SMART文本检索系统。向量空间模型将文本表示成特征项和特征项权重组成的向量,使用余弦函数进行距离度量。此外还有语义网络、框架模型等表示方法。 数据挖掘研究院
在基于统计方法的自动文本分类中,不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,并且分布较为均匀,因此区分度较小;而低频特征项由于对文档向量的贡献较小,因此重要性较低。去除区分度较小的噪音特征项可以提高分类准确率,去除重要性较低的低频特征项可以加快运行速度。常用的特征选择方法有文档频次、互信息、信息增益、统计量,CMU的Yiming对这些方法进行了比较[1]。 2χ
在分类器构造上,早期多使用基于知识工程的规则方法,卡耐基集团基于此方法为路透社开发的Construe系统[2]较早地进入了实用阶段,它每天对路透社成千上万的稿件进行自动分类。现在主要使用基于统计的方法,如朴素贝叶斯(Naïve Bayes)、K近邻(K-Nearest Neighbours)、支持向量机(Support Vector Machine)等。
在系统评价上,英文文档自动分类建立了Reuters、OHSUMED、Newsgroups等标准的分类语料,其中Reuters语料库的21578版本[3]使用最为广泛。TREC测试也提供了标准的语料库[4]。除了经典的训练-测试(Train-and-Test)方法,目前使用较多的是k分交叉评价(k-fold cross-validation)方法,目的是充分利用初始样本进行训练。它将初始样本集合分成k份{T1, T2,…, Tk},Ttrain=T-Ti,Ttest=Ti,i=1, 2,…, k,最后将k次测试的平均值作为最终结果。最严格也是最精确的交叉评价方法是LOO(Leave one out)方法,假设有m个样本,每次使用一个样本作为测试样本,其余的样本都作为训练样本,最后将m次测试的平均值作为最终结果。自动文本分类系统的两个常用评价指标是准确率(precision = l/m)和召回率(recall= l/n),其中l为分类正确的文本数,m为确定了类别的文本数,n为待分类的总文本数。综合考虑准确率和召回率,可以得到新的评估指标F1测试值,也称为综合分类率,计算公式如下: recallprecisionrecallprecisionF+××=21


当m=n时,准确率=召回率=综合分类率。
国内从九十年代中期开始自动文本分类领域的研究[5-7],复旦大学和中科院计算所对TREC测试中的分类任务进行了长时间的跟踪和研究,北京大学和清华大学较早在搜索引擎“天网”和“网络指南针”上研究网页分类技术。但由于条件的限制,中文自动文本分类一直缺乏标准的测试语料,因此很难对研究结果进行严格的评价。
本文针对中文文本特征提取和分类器设计中的问题,提出了多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布,提高分类效果。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题。

数据挖掘研究院

  数据挖掘研究院

资料全文下载 数据挖掘研究院

 

数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?