RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

Web文本分类中的几种阈值策略分析与比较

来源: 作者:unkonwn 时间:2004-11-26 点击:

随着web信息量的激增,人们需要自动的文本分类技术来实现对web信息资源的规划及利用。目前,文本分类是信息检索和数据挖掘领域的热门话题,它通过训练一定的文本集合得到类别与未知文本的映射规则,即计算出文本与类别的相关度,再采取一定的阈值策略决定文本的类别归属。不同的分类算法以及阈值策略都会对分类的结果产生一定的影响。但是,目前文本分类的研究热点主要集中在KNN、贝叶斯、支持向量机等分类算法上,人们往往忽视了分类中阈值策略的重要性。阈值的确定是文本分类中的一个重要的步骤,文献[1]提出了4种阈值策略:位置截尾法(RCut)、比例截尾法(PCut)、最优截尾法(SCut)以及改进型截尾法(RTCut),并且针对英文文本比较了上述四种阈值策略的优劣。实验结果表明:RTCut的效果最佳;PCut具有一定的复杂度,不适合在线文本处理;SCut具有一定的不稳定性;而Rcut性能最差。
与英文网页不同的是,中文网页使用汉字,词与词之间没有间隔,不像英语单词之间存在空格符,所以需要在文本分类之前对中文文本进行切词处理,并且切词的准确与否将很大程度的影响分类的效果。所以,本文采用了一个中文网页数据集,对RTCut、RCut、PCut、SCut这四种阈值策略在中文网页上的性能进行评测。
首先介绍一下文本分类中常用的阈值策略,然后依据分类器的性能,讨论一下各个策略的优劣。 数据挖掘研究院
2.1位置截尾法(RCut)
RCut方法将文本与每个类别的相似度排序,然后将文本指定给前t个类别。参数t即可以由用户指定,也可以通过预定初始值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值。这种策略考虑到了分类器全局的性能,当t=1时,多用这种方法来将文本指定到单一类别当中[2]。
2.2比例截尾法(PCut)
   PCut通过将所有测试文本与某一类别的相似度按照由高到低的顺序排序,然后将前kj个
文本确定为该类别,这里
          
(2)
 是类别数量, 代表类别 , 是类别 的先验概率,可以通过公式(2)计算得到。
   PCut考虑到了全局的分类性能,主要以x为参数,它的值可以通过分类的准确程度来调整,这种确定方法类似于RCut中t值的确定方法。目前,一些分类器,如:贝叶斯、DTree、kNN和LLSF等方法采用了PCut阈值策略[3]。
2.3最优截尾法(SCut)
   SCut针对某一类别,计算所有测试文本与该类别的相似度。根据最优化该类别分类器的性能来调整相应的阈值,然后将确定的阈值应用到新的待分类文本上。RCut和PCut阈值策略是平均所有分类器的性能,采用t或x作为参数;而SCut只优化某一类别的性能,并不保证所有类别分类结果达到最优。SCut多被用于Ripper、FOIL、Winnow、EG、kNN、LLSF和Rocchio等分类算法[4]。

数据挖掘研究院


2.4改进型截尾法(RTCut)
   文献[1]中提出了一种新的阈值策略,即改进型截尾法,这种方法修改了RCut和SCut的不足,并将二者结合起来确定类别的阈值,使查全率和查准率达到一定的平衡。在RTCut中,需要预先确定每个类的最优截尾阈值,新的阈值通过公式(3)计算:
(3) 
这里, 是待分类文本, 是RCut中类别c的排列位置, 是类别c的最优截尾阈值,而 是类别c的新阈值。

资料全文下载

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?