粗糙集理论及其应用

1引言
在自然科学,社会科学和工程技术的很多领域中,都不同程度地涉及到对不确定因素和对不完备(imperfect)信息的处理.从实际系统中采集到的数据常常包含着噪声,不够精确甚至不完整.采用纯数学上的假设来消除或回避这种不确定性,效果往往不理想,反之,如果正视它,对这些信息进行合适地处理,常常有助于相关实际系统问题的解决.多年来,研究人员一直在努力寻找科学地处理不完整性和不确定性的有效途径.模糊集和基于概率方法的证据理论是处理不确定信息的两种方法,已应用于一些实际领域.但这些方法有时需要一些数据的附加信息或先验知识,如模糊隶属函数,基本概率指派函数和有关统计概率分布等,而这些信息有时并不容易得到.1982年,波兰学者Z.Pawlak提
出了粗糙集理论,它是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent),不完整(incomplete)等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律.粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分.粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念.粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画.该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的,由于这个理论未能包含处理不精确或不确定原始数据的机制,所以这个理论与概率论,模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性.本文简要介绍了粗糙集理论的基本概念和实际应用.


2粗糙集的理论
2.1粗糙集理论的产生和发展
在本世纪70年代,波兰学者Z.Pawlak和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究.粗糙集理论就是在这些研究的基础上产生的.1982年,Z.Pawlak发表了经典论文RoughSets,宣告了粗糙集理论的诞生.此后,粗糙集理论引起了许多数学家,逻辑学家和计算机研究人员的兴趣,他们在粗糙集的理论和应用方面作了大量的研究工作.1991年Z.Pawlak的专著和1992年应用专集的出版,对这一段时期理论和实践工作的成果作了较好的总结,同时促进了粗糙集在各个领域的应用.此后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展.越来越多的科技人员开始了解并准备从事该领域的研究.目前,粗糙集已成为人工智能领域中一个较新的学术热点,在机器学习,知识获取,决策分析,过程控制等许多领域得到了广泛的应用.
2.2粗糙集理论所处理的问题
粗糙集能有效地处理下列问题:
·不确定或不精确知识的表达;
·经验学习并从经验中获取知识;
·不一致信息的分析;
·根据不确定,不完整的知识进行推理;
·在保留信息的前提下进行数据化简;
·近似模式分类;
·识别并评估数据之间的依赖关系

数据挖掘工具


2.3粗糙集理论的一些基本概念
2.3.1知识的含义
"知识"这个概念在不同的范畴内有多种不同的含义.在粗糙集理论中,"知识"被认为是一种分类能力.人们的行为是基于分辨现实的或抽象的对象的能力,如在远古时代,人们为了生存必须能分辨出什么可以食用,什么不可以食用;医生给病人诊断,必须辨别出患者得的是哪一种病.这些根据事物的特征差别将其分门别类的能力均可以看作是某种"知识".
2.3.2不可分辨关系与基本集
分类过程中,相差不大的个体被归于同一类,它们的关系就是不可分辨关系(indiscernabilityrelation).假定只用两种黑白颜色把空间中的物体分割两类,{黑色物体},{白色物体},那么同为黑色的两个物体就是不可分辨的,因为描述它们特征属性的信息相同,都是黑色.如果再引入方,圆的属性,又可以将物体进一步分割为四类:{黑色方物体},{黑色圆物体},{白色方物体},{白色圆物体}.这时,如果两个同为黑色方物体,则它们还是不可分辨的.不可分辨关系也称为一个等效关系(equivalencerelationship),两个白色圆物体间的不可分辨关系可以理解为它们在白,圆两种属性下存在等效关系.
基本集(elementaryset)定义为由论域中相互间不可分辨的对象组成的集合,是组成论域知识的颗粒.不可分辨关系这一概念在粗糙集理论中十分重要,它深刻地揭示出知识的颗粒状结构,是定义其它概念的基础.知识可认为是一族等效关系,它将论域分割成一系列的等效类.
2.3.3集合的下逼近,上逼近及边界区
粗糙集理论延拓了经典的集合论,把用于分类的知识嵌入集合内,作为集合组成的一部分.一个对象a是否属于集合X需根据现有的知识来判断,可分为三种情况:(1)对象a肯定属于集合X;(2)对象a肯定不属于集X;(3)对象a可能属于也可能不属于集合X.集合的划分密切依赖于我们所掌握的关于论域的知识,是相对的而不是绝对的.给定一个有限的非空集合U称为论域,I为U中的一族等效关系,即关于U的知识,则二元对K=(U,I)称为一个近似空间(approximationspace).设x为U中的一个对象,X为U的一个子集,I(x)表示所有与x不可分辨的对象所组成的集合,换句话说,是由x决定的
等效类,即I(x)中的每个对象都与x有相同的特征属性(attribute).
集合X关于I的下逼近(Lowerapproximation)定义为:
I*(X)={x∈U:I(x)I*(X)实际上由那些根据现有知识判断肯定属于X的对象所组成的最大的集合,有时也称
为X的正区(positiveregion),记作POS(X).类似地,由根据现有知识判断肯定不属于X的
对象组成的集合称为X的负区(negativeregion),记作NEG(X).
集合X关于I的上逼近(Upperapproximation)定义为
I3(X)={x∈U:I(x)∩X≠5}(2)
I3(X)是由所有与X相交非空的等效类I(x)的并集,是那些可能属于X的对象组成的最小 数据挖掘工具
集合.显然,I3(X)+NEG(X)=论域U.
集合X的边界区(Boundaryregion)定义为
BND(X)=I
3(X)-I3(X)(3)
BND(X)为集合X的上逼近与下逼近之差.如果BND(X)是空集,则称X关于I是清晰的
(crisp);反之如果BND(X)不是空集,则称集合X为关于I的粗糙集(roughset).
下逼近,上逼近及边界区等概念称为可分辨区(discernibilityregions),刻划了一个边界含
糊(vague)集合的逼近特性.粗糙程度可按按下式的计算
A1
=
I3(X)
I
3(X),(4)
式中#表示集合#的基数或势(cardinality),对有限集合表示集合中所包含的元素的个数.
显然0≤A
1(X)≤1,如果A
1(X)=1,则称集合X相对于I是清晰(crisp)的,如果A
1(X)0}(7)
BND(X)={x∈U:0 (x)<1}(8)
从上面的定义中,可以看出粗糙集理论中"含糊"(vague)和"不确定"(uncertainty)这两个
概念之间的关系:"含糊"用来描述集合,指集合的边界不清楚;而"不确定"描述的是集合中的
元素,指某个元素是否属于某集合是不确定的.
2.4实例
下面用一个具体的实例说明粗糙集的概念.在粗糙集中使用信息表(informationtable)描
述论域中的数据集合.根据学科领域的不同,它们可能代表医疗,金融,军事,过程控制等方面
的数据.信息表的形式和大家所熟悉的关系数据库中的关系数据模型很相似,是一张二维表
1期韩祯祥等:粗糙集理论及其应用39
1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.
格,如表一所示.表格的数据描述了一些人的教育程度以及是否找到了较好工作,旨在说明两
者之间的关系.其中王治,马丽,赵凯等称为对象(objects),一行描述一个对象.表中的列描
述对象的属性.粗糙集理论中有两种属性:条件属性(conditionattribute)和决策属性(decision
attribute).本例中"教育程度"为条件属性;"是否找到了好工作"为决策属性.
表1教育程度与是否找到好工作的关系
姓名教育程度是否找到了好工作
王治高中否
马丽高中是
李得小学否
刘保大学是
赵凯博士是
设O表示找到了好工作的人的集合,则
O={马丽,刘保,赵凯},设I表示属性"教育
程度"所构成的一个等效关系,根据教育程度
的不同,该论域被分割为四个等效类:{王治,
马丽},{李得},{刘保},{赵凯}.王治和马丽在
同一个等效类中,他们都为高中文化程度,是
不可分辨的.则:
集合O的下逼近(即正区)为I3(O)=POS(O)={刘保,赵凯}
集合O的负区为NEG(O)={李得}

数据挖掘研究院


集合O的边界区为BND(O)={王治,马丽}
集合O的上逼近为I3(O)=POS(O)+BND(O)={刘保,赵凯,王治,马
丽}
根据表1,可以归纳出下面几条规则,揭示了教育程度与是否能找到好工作之间的关系.
RULE1:IF(教育程度=大学)OR(教育程度=博士)THEN(可以找到好工作)
RULE2:IF(教育程度=小学)THEN(找不到好工作)
RULE3:IF(教育程度=高中)THEN(可能找到好工作)
从这个简单的例子中,我们还可以体会到粗糙集理论在数据分析,寻找规律方面的作用.
3粗糙集理论的特点
3.1粗糙集是一种软计算方法
软计算(softcomputing)的概念是由模糊集创始人Zadeh[9]提出的.软计算中的主要工具
包括粗糙集,模糊逻辑(FL),神经网络(NN),_________概率推理(PR),信度网络(BeliefNetworks),遗
传算法(GA)与其它进化优化算法,混沌(Chaos)理论等.
传统的计算方法即所谓的硬计算(hardcomputing),使用精确,固定和不变的算法来表达
和解决问题.而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易
于处理,鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调.
3.2粗糙集理论的特点
粗糙集方法的简单实用性是令人惊奇的,它能在创立后的不长时间内得到迅速应用是因
为具有以下特点[6~8]:
(1)它能处理各种数据,包括不完整(incomplete)的数据以及拥有众多变量的数据;
(3)它能处理数据的不精确性和模棱两可(ambiguity),包括确定性和非确定性的情况;
(4)它能求得知识的最小表达(reduct)和知识的各种不同颗粒(granularity)层次;
(5)它能从数据中揭示出概念简单,易于操作的模式(pattern);
(6)它能产生精确而又易于检查和证实的规则,特别适于智能控制中规则的自动生成.
40信息与控制27卷
1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.
4粗糙集理论的应用
粗糙集理论是一门实用性很强的学科,从诞生到现在虽然只有十几年的时间,但已经在不
少领域取得了丰硕的成果,如近似推理,数字逻辑分析和化简,建立预测模型,决策支持,控制
算法获取,机器学习算法和模式识别等等.下面介绍一下粗糙集应用的几个主要领域.
4.1人工神经网络训练样本集化简
人工神经网络具有并行处理,高度容错和泛化能力强的特点,适合应用在预测,复杂对象
建模和控制等场合.但是当神经网络规模较大,样本较多时,训练时间过于漫长,这个固有缺点
是制约神经网络进一步实用化的一个主要因素.虽然各种提高训练速度的算法不断出现,问题 数据挖掘实验室
远未彻底解决.化简训练样本集,消除冗余数据是另一条提高训练速度的途径.
文[10]正是沿着这条思路,应用粗糙集化简神经网络训练样本数据集,在保留重要信息的
前提下消除了多余(superfluous)的数据.仿真实验表明训练速度提高了4.77倍,获得了较好
的效果.
4.2控制算法获取
实际系统中有很多复杂对象难于建立严格的数学模型,这样传统的基于数学模型的控制
方法就难以奏效.模糊控制模拟人的模糊推理和决策过程,将操作人员的控制经验总结为一系
列语言控制规则,具有鲁棒性和简单性的特点,在工业控制等领域发展较快.但是有些复杂对
象的控制规则难以人工提取,这样就在一定程度上限制了模糊控制的应用.
粗糙集能够自动抽取控制规则的特点为解决这一难题提供了新的手段.一种新的控制策
略—模糊-粗糙控制(fuzzy2roughcontrol)正悄然兴起,成为一个有吸引力的发展方向.应用
这种控制方法,文[11]研究了"小车—倒立摆系统"这一经典控制问题,文[12]研究了过程控制
(水泥窑炉),均取得了较好的控制效果.应用粗糙集进行控制的基本思路是:把控制过程的一
些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来,然后利用粗糙 数据挖掘工具
集理论处理这些数据,分析操作人员在何种条件下采取何种控制策略,总结出一系列控制规
则:
规则1IFCondition1满足THEN采取decision1
规则2IFCondition2满足THEN采取decision2
规则3IFCondition3满足THEN采取decision3

数据挖掘交友

这种根据观测数据获得控制策略的方法通常被称为从范例中学习(learningfromexam2
ples).粗糙控制(roughcontrol)与模糊控制都是基于知识,基于规则的控制,但粗糙控制更加
简单迅速,实现容易(因为粗糙控制有时可省却模糊化及去模糊化步骤);另一个优点在于控制
算法可以完全来自数据本身,所以从软件工程的角度看,其决策和推理过程与模糊(或神经网
络)控制相比可以很容易被检验和证实(validate).文[11]还指出在特别要求控制器结构与算
法简单的场合,更适合采取粗糙控制.
美国电力科学研究院(EPRI)对粗糙集的应用研究的潜力对十分重视,将其作为战略性
研究开发(StrategyR&D)项目,在1996年拨款196,600资助SanJose州立大学进行电力系
统模糊-粗糙控制器的研究.
1期韩祯祥等:粗糙集理论及其应用41
1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.
4.3决策支持系统
面对大量的信息以及各种不确定因素,要作出科学,合理的决策是非常困难的.决策支持
系统是一组协助制定决策的工具,其重要特征就是能够执行IFTHEN规则进行判断分
析.粗糙集理论可以在分析以往大量经验数据的基础上找到这些规则,基于粗糙集的决策支持

数据挖掘研究院


系统在这方面弥补了常规决策方法的不足,允许决策对象中存在一些不太明确,不太完整的属
性,并经过推理得出基本上肯定的结论.
下面举一个例子,说明粗糙集理论可以根据以往的病例归纳出诊断规则,帮助医生作出判
断.表二描述了八个病人的症状.从表二中可以归纳出以下几条确定的规则:
表2症状与感冒的关系
病人编号
病理症状诊断结果
是否头痛体温是否感冒
病人1是正常否
病人2是高是
病人3是很高是
病人4否正常否
病人5否高否
病人6否很高是
病人7否高是
病人8否很高否
1.IF(体温正常)THEN(没感冒)
2.IF(头痛)AND(体温高)THEN
(感冒)
3.IF(头痛)AND(体温很高)THEN
(感冒)
还有几条可能的规则:
4.IF(头不痛)THEN(可能没感冒)
5.IF(体温高)THEN(可能感冒了)
6.IF(体温很高)THEN(可能感冒了)
病人5和病人7,病人6和病人8,症状
相同,但是一个感冒另一个却没感冒,这种情
况称为不一致(inconsistent).粗糙集就是靠这种IFTHEN规则的形式表示数据中蕴含的
知识.
希腊工业发展银行ETEVA用粗糙集理论协助制订信贷政策,从大量实例中抽取出的规
则条理清晰,得到了金融专家的好评[13]. 数据挖掘交友
4.4从数据库中知识发现
现代社会中,随着信息产业的迅速发展,大量来自金融,医疗,科研等不同领域的信息被存
储在数据库中.这些浩如烟海的数据间隐含着许多有价值的但鲜为人知的相关性,例如股票的
价格和一些经济指数有什么关系;手术前病人的病理指标可能与手术是否成功存在某种联系;
满足何种条件的夜空会出现彗星等天文现象等等.
由于数据库的庞大,人工处理这些数据几乎是不可能的,于是出现了一个新的研究方向—
数据库中的知识发现(KnowledgeDiscoveryinDatabases,KDD),也叫做数据库(信息)发掘
(Mining),它是目前国际上人工智能领域中研究较为活跃的分支.粗糙集是其中的一种重要
的研究方法,它采用的信息表与关系数据库中的关系数据模型很相似,这样就便于将基于粗糙
集的算法嵌入数据库管理系统中.
粗糙集引入核(core),化简(reduct)等有力的概念与方法,从数据中导出用IFTHEN
规则形式描述的知识,这些精练的知识更便于存储和使用.美国医学工作者应用粗糙集理论对
大量的病历进行分析,发现黑人妇女患乳腺癌后的死亡率比白人妇女高.到目前为止,早产的
预测在医学上还是比较困难的.现有的人工预测方法准确率只有17à-58à,而应用粗糙集 数据挖掘工具
理论则可将准确率提高到68à-90à[8].
42信息与控制27卷
1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.
5粗糙集与模糊集,证据理论及其它一些情况
5.1粗糙集与模糊集,证据理论
粗糙集与模糊集都能处理不完备(imperfect)数据,但方法不同,模糊集注重描述信息的含
糊(vagueness)程度,粗糙集则强调数据的不可辩别(indiscernibility),不精确(imprecision)和
模棱两可(ambiguity).使用图像处理中的语言来作比喻,当论述图像的清晰程度时,粗糙集强
调组成图像象素的大小,而模糊集则强调象素存在不同的灰度.粗糙集研究的是不同类中的对
象组成的集合之间的关系,重在分类;模糊集研究的是属于同一类的不同对象的隶属的关系,
重在隶属的程度.因此粗糙集和模糊集是两种不同的理论,但又不是相互对立的,它们在处理
不完善数据方面可以互为补充.
粗糙集理论与证据理论虽有一些相互交叠的地方,但本质不同,粗糙集使用集合的上,下
逼近而证据理论使用信任函数(belieffunction)作为主要工具.粗糙集对给定数据的计算是客
观的,无须知道关于数据的任何先验知识(如概率分布等),而证据理论则需要假定的似然值
(plausibility).
5.2近年来召开的与粗糙集有关的国际会议
相继召开的以粗糙集理论为主题的国际会议,促进了粗糙集理论的推广.这些会议发表了
大量的具有一定学术和应用价值的论文,方便了学术交流,推动了粗糙集在各个科学领域的拓
展和应用.下面列出了近年召开的一些会议:
·1992年第一届国际研讨会(RoughSets:StateoftheArtandPerspectives)在波兰
Kiekrz召开;
·1993年第二届国际研讨会(TheSecondInternationalWorkshoponRoughSetsand
KnowledgeDiscovery,RSKD’93)在加拿大Banff召开;
·1994年第三届国际研讨会(TheThirdInternationalWorkshoponRoughSetsandSoft
Computing,RSSC’94)在美国SanJose召开;
·1995年在美国NorthCarolina召开了题为"RoughSetTheory,RST’95"的国际会议;
·1996年第四届国际研讨会(TheFourthInternationalWorkshoponRoughSets,Fuzzy
Sets,andMachineDiscovery,RSFD’96)在日本东京召开;
·1997年3月在美国NorthCarolina召开了第五届国际研讨会(TheFifthInternational
WorkshoponRoughSetsandSoftComputing,RSSC’97)
5.3国际上一些有关粗糙集的软件 数据挖掘工具
目前,国际上研究粗糙集的机构和个人开发了一些应用粗糙集的实用化软件,也出现了商
业化的软件.加拿大ReductSystemInc.公司开发的用于数据库知识发现的软件DataLogic
R[14]是用C语言开发的,可安装在个人计算机上,为科研领域和工业界服务.
美国肯萨斯大学开发了一套基于粗糙集的经验学习系统[15],名为LERS(Learningfrom
ExamplesbasedonRoughSets),它能从大量经验数据中抽取出规则.LERS已被美国国家航
空航天管理局(NASA)的约翰逊(Johnson)空间中心采用,作为专家系统开发工具,为"自由
号"(Freedom)空间站上的医疗决策服务.美国环境保护署(USEnvironmentalProtectionA2
gency)资助的一个项目中也采用了LERS.
波兰波兹南工业大学(PoznanUniversityofTechnology)开发的软件RoughDAS和
1期韩祯祥等:粗糙集理论及其应用43
1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.
RoughClass,也在不少实际领域中得到应用[5].
加拿大Regina大学开发的KDD-R是用C编写的,在UNIX环境下运行,KDD2R基于
变精度粗糙集模型[16](VariablePrecisionRoughSet,VPRS),通过改变粗糙程度而使数据中
隐含的模式更清楚的显示出来.
6结束语
粗糙集是一种较有前途的处理不确定性的方法,相信今后将会在更多的领域中得到应用.
但是,粗糙集理论还处在继续发展之中,正如粗糙集理论的创立人Z.Pawlak所指出的那
样[8],尚有一些理论上的问题需要解决,诸如用于不精确推理的粗糙逻辑(Roughlogic)方法,
粗糙集理论与非标准分析(Nonstandardanalysis)和非参数化统计(Nonparametricstatistics)
等之间的关系等等.
将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等)相综合,发挥出各自
的优点,可望设计出具有较高的机器智商(MIQ)的混合智能系统(HybridIntelligent
System),这是一个值得努力的方向. 数据挖掘工具

在自然科学,社会科学与工程技术的很多领域中,都不同程度地涉及到对不确定因素和不完备信息的处理.从实际系统中采集到的数据常常包含着噪声,不精确甚至不完整,采用纯数学上的假设来消除或回避这种不确定性,效果往往不理想,反之,如果正视它,对这种信息进行适当地处理,常常有助于实际系统问题的解决.多年来,研究人员们一直在努力寻找科学地处理不完整性和不确定性的有效途径,实践证明,1965年Zadeh创立的模糊集理论与1982年Z.Pawlak倡导的粗糙集理论是处理不确定性的两种很好的方法.事实上,除了上述两种方法外,基于概率统计方法的证据理论也是处理不确定性的一种有效方法.这些众多的方法都属于软计算(SoftComputing)的范畴.软计算(SoftComputing)的概念是由模糊集理论的创始人Zadeh提出的,软计算(SoftComputing)的主要工具包括粗糙集(Roughsets),模糊逻辑(FuzzyLogic),神经网络(NerveNetwork),概率推理(ProbabilityReasoning),信度网络(BeliefNetwork),遗传算法(GeneticArithmetic)与其它进化优化算法,混沌理论(Chaos)等.传统的计算方法即所谓的硬计算(HardComputing),使用精确,固定和不变的算法来表达和解决问题,而软计算(SoftComputing)的指导原则是利用所允许的不精确性,不确定性和部分真实性得到易于处理,鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调.与其它方法相比,粗糙集方法的最大优点是不需要附加信息或先验知识,这一点是其它方法无法做到的,如模糊集方法与概率统计或证据理论方法中,往往需要模糊隶属函数,基本概率指派函数(BasicProbabilityAssignment,BPA)和有关统计概率分布等,而这些信息有时并不容易得到.正是基于这一优点,粗糙集理论得以迅速兴起,并逐渐成为人工智能界以及其它处理不确定性领域的研究热点. 数据挖掘论坛
众所周知,粗糙集与模糊集是两种主要的,应用最为广泛的处理不确定性的方法,它们各有优,缺点,如何有效地将它们结合,使它们优势互补,同时克服它们各自的缺点,将是很有兴趣的研究课题.它们的结合涉及到许多问题,如它们的关系问题,它们是互相独立的还是互为从属,对这一问题的回答众说不一,有的作者认为粗糙集是泛化的模糊集,如Z.Pawlak,有的作者持否定态度甚至相反观点,如M.Wygralak.对此,本人在借鉴了他们的方法之后,提出了属于自己的观点.两种方法的结合产生了粗糙模糊集(RoughFuzzySets)与模糊粗糙集(FuzzyRoughsets),这是两种不同的结合观.前者是从粗糙集的角度研究模糊集,而后者侧重于从模糊集的角度去刻画粗糙集.
本文的安排如下,第一章与第二章分别简单介绍粗糙集与模糊集,第三,四章分别介绍粗糙模糊集(RoughFuzzySets)与模糊粗糙集(FuzzyRoughsets),第五章介绍粗糙集模糊化的一种新方法,试图理清粗糙集与模糊集的关系.
第一章粗糙集理论简介
第一节粗糙集理论的产生与应用背景
在20世纪70年代,波兰学者Z.Pawlak和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究,粗糙集理论就是在这种研究的基础上产生的.1982年,Z.Pawlak发表了经典论文RoughSets[2],宣告了粗糙集理论的诞生,此后,粗糙集理论引起了许多数学家,逻辑学家和计算机研究人员的兴趣,他们在粗糙集的理论和应用方面做了大量的研究工作.1991年Z.Pawlak的专著[3]和1992年的应用专著[4]的出版,对这一段时期理论和实践的成果做了较好的总结,同时促进了粗糙集在各个领域的应用.此后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展,越来越多的科技人员开始了解并准备从事该领域的研究.目前,粗糙集已成为人工智能领域中一个较新的学术热点,在机器学习,知识获取,决策分析,过程控制等许多领域中得到了广泛的应用. 数据挖掘研究院
一,粗糙集理论处理的问题
粗糙集以其独到的方法能有效地处理许多涉及不确定性的问题,这些问题包括:
(1),不确定或不精确知识的表达,
(2),经验学习并从经验中获取知识,
(3),不一致信息的分析,
(4),根据不确定,不完整的知识进行推理,
(5),在保留信息的前提下进行约简,
(6),近似决策分类,
(7),识别并评估数据之间的依赖关系.
特别应该提到的是约简,决策分类以及识别并评估数据之间的依赖关系,粗糙集理论在不需要任何附加信息或先验知识的前提下可以非常有效地处理这些问题.
二,粗糙集理论与数学的关系
前面已经提到,粗糙集属于软计算的范畴,从这个角度来看,粗糙集是继模糊集之后经典集合论的又一发展分支.但由于粗糙集是在近似空间上进行推理与分析问题,这一特点使它失去了作为经典数学的许多有关确定性的特征.关于粗糙集理论的数学特征的研究已有许多,其中很多着眼于粗糙集的代数特征的研究,也有作者用公理化方法与结构化方法来刻画粗糙集理论.但本人认为,这众多的粗糙集理论的数学特性的研究尚未使人们真正认识清楚粗糙集的数学结构面目.关于这一方面的研究尚有许多课题,如怎样将约简过程数学化等等. 数据挖掘交友

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:粗糙集简介
下一篇:模糊逻辑控制在焊接中的应用进展
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 什么是模糊控制?
  • 什么是模糊数与模糊数学?
  • 粗糙集理论及其应用
  • 模糊系统介绍
  • Fuzzy Sets and Systems
  • 什么是模糊逻辑?
  • What is Fuzzy Set Theory?
  • Fuzzy Logic & Probability Theory:Clarifi
  • 粗糙集简介
  • 普大教授范剑青:“把数学作为解决社会问题
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • Fuzzy Sets and Systems
  • Fuzzy Logic & Probability Theory:Clarifi
  • 模糊系统介绍
  • 模糊系统指南
  • What is Fuzzy Set Theory?
  • fuzzy Bibliography
  • Fuzzy BBS Systems, Mail-servers and FTP
  • Are there fuzzy state machines?
  • 模糊真值与概率值之间的关系是什么?
  • 如何决定成员值?
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静