经典逻辑中只有真、假二值,但实际上有大量含糊现象存在于真与假之间.因此,长期以来许多逻辑学家和哲学家就致力于研究含糊概念.早在1904年,谓词
逻辑的创始人G.Frege就提出了含糊一词,并把它归结到边界线,也就是说在全域上存在一些个体既不能在其某个子集上被分类,也不能在该子集的补集上被分类.20世纪60年代初,L.A.Zadeh提出了模糊集,不少理论计算机科学家和逻辑学家,试图通过这一理论解决G.Frege的含糊概念,但遗憾的是,模糊集是不可计算的,没有给出数学公式描述这一含糊概念,故无法计算出它的边界线上的具体的含糊元素数目.如模糊集中的隶属函数μ和模糊逻辑中的算子λ都是如此.时隔20年后的80年代初,Z.Pawlak针对G.Frege的边界线区域思想提出了Rough set(RS,粗糙集或粗集)[1],他把那些无法确认的个体都归于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集.由于上近似集和下近似集都可以通过等价关系给出确定的数学公式描述,所以含糊元素数目可以被计算出来,即在真假二值之间的含糊程度可以计算,从而实现了G.Frege的边界线思想.Rough set理论主要兴趣在于它恰好反映了人们用Rough set方法处理不分明问题的常规性,即以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力.
数据挖掘交友
Rough set理论的研究对象
Rough set的研究对象是由一个多值属性(特征、症状、特性等)集合描述的一个对象(观察、病历等)集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符是表达决策问题的3个基本要素.这种表达形式也可以看成一个二维表格,表格的行与对象相对应,列对应于对象的属性;各行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息.通常,关于对象的可得到的信息不一定足以划分其成员类别.换句话说,这种不精确性导致了对象的不可分辨性.给定对象间的一个等价关系,即导致由等价关系构成的近似空间的不分明关系,Rough set就用不分明对象类形成的上近似和下近似来描述.这些近似分别对应了确定属于给定类的最大的对象集合和可能属于给定类的最小的对象集合.下近似和上近似的差是一个边界集合,它包含了所有不能确切判定是否属于给定类的对象.这种处理可以定义近似的精度和质量.Rough set方法可以解决重要的分类问题,所有冗余对象和属性的约简包含属性的最小子集,能够很好地近似分类,得到可以接受质量的分类.而且,它还可以用决策规则集合的形式表示最重要属性和特定分类之间的所有重要关系.
数据挖掘交友
Rough set理论的特点
1)Rough set不需要先验知识.模糊集和概率统计方法是处理不确定信息的常用方法,但这些方法需要一些数据的附加信息或先验信息,如模糊隶属函数和概率分布等,这些信息有并不容易得到.Rough set分析方法仅利用数据本身提供的信息,无须任何先验知识.
2)Rough set是一个强大的数据分析工具.它能表达和处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达式;能识别并评估数据之间的依赖关系,揭示出概念简单的模式;能从经验数据中获取易于证实的规则知识,特别适于智能控制.
3)Rough set与模糊集分别刻画了不完备信息的两个方面[2]:Rough Set以不可分辨关系为基础,侧重分类,模糊集基于元素对集合隶属程度的不同,强调集合本身的含混性.从Rough set的观点看,粗糙集合不能清晰定义的原因是缺乏足够的论域知识,但可以用一对清晰集合逼近.虽然Rough set和模糊集特点不同,但它们之间有着密切的关系,有很强的互补性[3,4,5];Rough set和证据理论也有一些相互交叠之处[6],在实际应用中可以相互补充. 数据挖掘交友
Rough set理论应用的现状
Rough set 理论是一种处理含糊和不精确性问题的新型数学工具,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则.它自问世以来,无论是在理论或应用上都是一种新的、最重要的并且是迅速发展的一门既有理论又有应用的研究领域.
数据挖掘工具
数据挖掘交友
数据挖掘交友
资料全文下载
数据挖掘论坛