RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎
当前位置 :| 首页>人工智能>信息检索>

如何实现中文文献的自动聚合分类

来源: 作者:unkonwn 时间:2004-12-13 点击:
1.自动分类方法大致可以分为两种:

  一是基于规则的方法,一般由知识库和推理机两大基础部分组成。知识库储存了从专家那里获得的关于某领域的专门知识,推理机具有推理的能力,即根据知识推导出结论,而不仅仅是简单搜索现成的答案。由于需要由知识工程师手工编制大量的推理规则,因此其开发费用是相当昂贵的。 数据挖掘研究院

  二是基于数据的机器学习方法,研究从观测样本出发,寻找规律(即利用一些做好标识的训练数据自动地构造分类器),利用这些对未来样本进行预测。现有机器学习的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于大数定律的结论。由于基于相对简单的机制,以及实际环境中所表现出来的良好性能,而为大部分文本自动分类系统所采用。 数据挖掘研究院

  另外,按照有无训练集,自动分类方法还可以分为归类和聚类:在文本分类过程中,文本的类别可以是预先给定的,也可以是不确定的。前者对应自动分类中的自动归类,后者对应自动分类中的自动聚类。自动归类是分析被分类对象的特征,并与各种类别中对象所具有的共同特征(或一定的分类标准、分类参数)进行比较,然后将对象化归为特征最接近的一类(或最符合标准参数的一类),并赋予相应的分类号。实际上,手工分类一般根据历史的经验先定了类,于是一般分类的问题就蜕化成了归类的问题。自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则或需要(如类别数目的规定,或同类对象的相似或接近程度),将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。 数据挖掘实验室

2.如何对现有的分类及自动分类系统进行评价?

数据挖掘研究院

  随着信息时代的来临,特别是因特网对人们生活的全面介入,信息爆炸的现实使人们越来越注重对自动分类的研究,目前,已经提出了许多理论上较为优秀的分类算法,例如支持向量机、向量空间模型、BAYES方法和决策树方法等,并已经有许多模型系统被开发出来。 数据挖掘实验室

1和表2是国内个已经开发的部分系统。

数据挖掘研究院

1:国外近年来开发的自动分类系统

序号

时间

完成机构

数据挖掘研究院

完成人员 数据挖掘实验室

技术特点 数据挖掘研究院

1 数据挖掘研究院

1994 数据挖掘研究院

At&T实验室 数据挖掘研究院

David D. Lewis

基于非确定性的自动分类技术

2 数据挖掘研究院

1996

数据挖掘研究院

At&T实验室 数据挖掘实验室

William W. Cohen 数据挖掘研究院

电子邮件的自动分类

数据挖掘研究院

3 数据挖掘研究院

1997 数据挖掘研究院

德国Dortmund大学计算机系 数据挖掘实验室

Torsten Joachims

数据挖掘实验室

基于向量空间模型的自动分类

4 数据挖掘研究院

1997

美国Stanford大学计算机系 数据挖掘研究院

Daphne Koller

基于很少语料词汇的层次自动分类 数据挖掘研究院

5

数据挖掘研究院

1998

数据挖掘研究院

美国Carnegie mellon大学计算机系 数据挖掘研究院

Yiming Yang

数据挖掘研究院

采用决策树等聚类算法的在线自动分类

6 数据挖掘研究院

1999

数据挖掘研究院

美国Just Research公司 数据挖掘研究院

Andrew McCallum

运用信息熵理论、Bayes理论等实现多类号的自动分类 数据挖掘实验室

7 数据挖掘实验室

1999 数据挖掘研究院

美国Massachusetts大学计算机系 数据挖掘研究院

Jamie Callan

针对文本库的自动分类系统

数据挖掘研究院

8

数据挖掘研究院

1999年 数据挖掘研究院

美国IBM和Oracle公司 数据挖掘研究院

  数据挖掘实验室

为推广电子商务研制基于文本内容的电子邮件自动分类

9 数据挖掘研究院

1999年

数据挖掘实验室

Microsoft公司

  数据挖掘研究院

为其浏览器开发基于内容属性分类的插件

数据挖掘研究院

  数据挖掘实验室

2 国内一些自动分类系统

数据挖掘研究院

Table 1-1 Some assistant and automatic classification systems

数据挖掘研究院

完成时间 数据挖掘研究院

研制人 数据挖掘研究院

单位

类型

主要技术特点 数据挖掘研究院

1986

朱兰娟,王永成 数据挖掘实验室

上海交通大学计算机系 数据挖掘实验室

自动归类系统 数据挖掘研究院

类主题词表,检索类主题词累计其类归属度,据Bayes最小损失原则确定分类

数据挖掘研究院

1995

苏新宁等

数据挖掘研究院

南京大学

自动归类系统

主题词与类号关系表,确定权重系数,分类前控词典,停用词表 数据挖掘研究院

1995 数据挖掘研究院

吴军 数据挖掘研究院

清华大学电子工程系

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?