一是基于规则的方法,一般由知识库和推理机两大基础部分组成。知识库储存了从专家那里获得的关于某领域的专门知识,推理机具有推理的能力,即根据知识推导出结论,而不仅仅是简单搜索现成的答案。由于需要由知识工程师手工编制大量的推理规则,因此其开发费用是相当昂贵的。 数据挖掘研究院
二是基于数据的机器学习方法,研究从观测样本出发,寻找规律(即利用一些做好标识的训练数据自动地构造分类器),利用这些对未来样本进行预测。现有机器学习的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于大数定律的结论。由于基于相对简单的机制,以及实际环境中所表现出来的良好性能,而为大部分文本自动分类系统所采用。 数据挖掘研究院
另外,按照有无训练集,自动分类方法还可以分为归类和聚类:在文本分类过程中,文本的类别可以是预先给定的,也可以是不确定的。前者对应自动分类中的自动归类,后者对应自动分类中的自动聚类。自动归类是分析被分类对象的特征,并与各种类别中对象所具有的共同特征(或一定的分类标准、分类参数)进行比较,然后将对象化归为特征最接近的一类(或最符合标准参数的一类),并赋予相应的分类号。实际上,手工分类一般根据历史的经验先定了类,于是一般分类的问题就蜕化成了归类的问题。自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则或需要(如类别数目的规定,或同类对象的相似或接近程度),将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。 数据挖掘实验室
2.如何对现有的分类及自动分类系统进行评价?
随着信息时代的来临,特别是因特网对人们生活的全面介入,信息爆炸的现实使人们越来越注重对自动分类的研究,目前,已经提出了许多理论上较为优秀的分类算法,例如支持向量机、向量空间模型、BAYES方法和决策树方法等,并已经有许多模型系统被开发出来。 数据挖掘实验室
表1和表2是国内个已经开发的部分系统。
表1:国外近年来开发的自动分类系统
|
序号 |
时间 |
完成机构 |
完成人员 |
技术特点 |
|
1 |
1994年 |
At&T实验室 |
David D. Lewis等 |
基于非确定性的自动分类技术 |
|
2 |
1996年 |
At&T实验室 |
William W. Cohen等 |
电子邮件的自动分类 |
|
3 |
1997年 |
德国Dortmund大学计算机系 |
Torsten Joachims等 |
基于向量空间模型的自动分类 |
|
4 |
1997年 |
美国Stanford大学计算机系 |
Daphne Koller等 |
基于很少语料词汇的层次自动分类 |
|
5 |
1998年 |
美国Carnegie mellon大学计算机系 |
Yiming Yang等 |
采用决策树等聚类算法的在线自动分类 |
|
6 |
1999年 |
美国Just Research公司 |
Andrew McCallum等 |
运用信息熵理论、Bayes理论等实现多类号的自动分类 |
|
7 |
1999年 |
美国Massachusetts大学计算机系 |
Jamie Callan等 |
针对文本库的自动分类系统 |
|
8 |
1999年 |
美国IBM和Oracle公司 |
为推广电子商务研制基于文本内容的电子邮件自动分类 |
|
|
9 |
1999年 |
Microsoft公司 |
为其浏览器开发基于内容属性分类的插件 |
表2 国内一些自动分类系统
Table 1-1 Some assistant and automatic classification systems

