2003年11月,在中国广州举行的全国人工智能学会的年会上,粗糙集与软计算专委会正式成立。
在成立庆祝会上,中国人工智能学会荣誉理事长涂序彦教授诗兴大发,现场赋诗一首,祝贺专委会正式成立,并挥毫留下笔墨,表达了他对中国粗糙集与软计算领域研究发展的殷切期待、大力支持和美好祝福。 数据挖掘研究院
1 背景 数据挖掘研究院
在自然科学,社会科学和工程技术的很多领域中, 都不同程度地涉及到对不确定因素和对不完备( imperfect) 信息的处理. 从实际系统中采集到的数据常常包含着噪声, 不够精确甚至不完整. 采用纯数学上的假设来消除或回避这种不确定性, 效果往往不理想, 反之, 如果正视它,对这些信息进行合适地处理, 常常有助于相关实际系统问题的解决. 多年来, 研究人员一直在努力寻找科学地处理不完整性和不确定性的有效途径. 模糊集和基于概率方法的证据理论是处理不确定信息的两种方法, 已应用于一些实际领域. 但这些方法有时需要一些数据的附加信息或先验知识, 如模糊隶属函数,基本概率指派函数和有关统计概率分布等, 而这些信息有时并不容易得到. 粗糙集理论是继概率论,模糊集,证据理论之后的又一个处理不确定性的数学工具. 作为一种较新的软计算方法, 粗糙集近年来越来越受到重视, 其有效性已在许多科学与工程领域的成功应用中得到证实, 是当前国际上人工智能理论及其应用领域中的研究热点之一. 数据挖掘研究院
2 粗糙集理论的产生 数据挖掘研究院
粗糙集理论[Rough Set theory]是1982年由波兰数学家 Z.Pawlak提出的,由于最初关于粗糙集理论的研究大都是用波兰语发表的,因此当时没有引起国际计算机学界和数学界的重视,研究仅限于东欧的一些国家,直到20世纪80年代末才逐渐引起各国学者的注意。
1991年,Pawlak 发表了专著《Rough Set:Theoretical Aspects of Reasoning about Data》,奠定了粗糙集理论的基础,从而掀起了粗糙集的研究热潮。1992年,在波兰召开了第一届国际粗糙集研讨会,这次会议着重讨论了集合近似的基本思想及其应用,其中粗糙环境下的机器学习的基础研究是这次会议的四个专题之一。1993年在加拿大召开了第二届国际粗糙集与知识发现研讨会,这次会议积极推动了国际上对粗糙集应用的研究。由于这次会议正值知识发现成为热门研究话题,一些著名的知识发现学者参加了这次会议,并且介绍了许多应用扩展粗糙集理论的数据挖掘的方法与系统。1996年在日本东京召开了第五届国际粗糙集研讨会以及2001年在我国举行的研讨会推动了亚洲地区和我国对粗糙集理论与应用的研究。现在,美国、加拿大、波兰、日本都有粗糙集研究的专门机构。 数据挖掘研究院
粗糙集首先从新的视角对知识进行了定义。把知识看作是关于论域的划分,从而认为知识是具有粒度〔granularity〕的。认为知识的不精确性是由知识粒度太大引起的。为处理数据〔特别是带噪声、不精确或不完全数据〕分类问题提供了一套严密的数学工具,使得对知识能够进行严密的分析和操作。又由于数据挖掘的深入研究和一些成功的商业运作,使得粗糙集理论和数据挖掘有了天然的联系,粗糙集在知识上的定义、属性约简、规则提取等理论,使得数据库上的数据挖掘有了深刻理论基础,从而为数据挖掘提供了一种崭新的工具。粗糙集不仅自己可以独特的挖掘知识,而且可以和其他的数据挖掘算法结合起来,从而产生了学多混合数据挖掘算法,大大开拓了数据挖掘的算法和技术,丰富了数据挖掘的工具。
除了研究,人们也在积极寻找粗糙集在数据挖掘中的应用,如RSES系统,该系统是基于粗糙集理论上研制的数据挖掘系统,里面提供了粗糙集的属性约简算法和规则提取,可以找到最佳约简集和近似约简集,并可以提出规则。另外,还有,Regina大学开发的KDD-R系统,被广泛用于医疗诊断、电信业等领域。还有美国Kansas大学开发的LERS(Learning from Examples based on RS)系统,在医疗诊断、社区规划、全球气象研究等方面都有应用。 数据挖掘研究院
3) 粗糙集能有效地处理下列问题:
·不确定或不精确知识的表达;
·经验学习并从经验中获取知识;
·不一致信息的分析;
·根据不确定,不完整的知识进行推理;
·在保留信息的前提下进行数据化简;
·近似模式分类;
·识别并评估数据之间的依赖关系
4) 粗糙集理论的特点 数据挖掘实验室
粗糙集是一种软计算方法。软计算 的概念是由模糊集创始人Zadeh提出的. 软计算中的主要工具包括粗糙集,模糊逻辑(FL ),神经网络(NN ),概率推理(PR ),信度网络(Belief N etwo rk s),遗传算法(GA ) 与其它进化优化算法,混沌(Chao s) 理论等.传统的计算方法即所谓的硬计算(hard compu t ing) , 使用精确,固定和不变的算法来表达和解决问题. 而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易于处理,鲁棒性强和成本较低的解决方案, 以便更好地与现实系统相协调.
粗糙集方法的简单实用性是令人惊奇的, 它能在创立后的不长时间内得到迅速应用是因为它能处理各种数据以及数据的不精确性和模棱两可的情况;它能求得知识的最小表达 和知识的各种不同颗粒层次;它能从数据中揭示出概念简单, 易于操作的模式; 它能产生精确而又易于检查和证实的规则, 特别适于智能控制中规则的自动生成。 数据挖掘研究院
5) 粗糙集目前研究得到了很大的发展,主要方向如下:
1.粗糙集的属性约简。约简是粗糙集用于数据分析上的重要方面,但是求最小约简是NP问题,大都采用启发式算法。
⑴、重要性方法:根据重要性来对属性进行约简。
⑵、根据布尔运算,此方法可以求出所有最小约简,但是只适合小数据集。
⑶、遗传算法:Bjorvand 和Kormoraski用遗传算法来求最小约简。
2.粗糙模型的扩展。粗糙集理论用于数据挖掘时会碰到噪音数据、数据缺失、大数据量的一系列经典模型处理不理想的情况,于是出现了扩展的模型。
⑴可变精度模型:有一定容错能力,在一定情况下退化为经典模型。
⑵相似模型:可以处理数据库中的缺失值。
3.粗糙逻辑。在RS的基础上建立rough逻辑。
4.多方法的融合。
⑴粗糙集和神经网络的结合,加快神经网络的速度。
⑵和遗传算法的结合来处理大数据集。
总之,粗糙集理论的应用前景很广阔,不但可以用于构造新型的系统,而且关键在于它能够优化现有的许多算法。大数据集、高效约简算法、并行计算以及混合算法研究等问题仍是粗糙集在数据挖掘中需要探讨的问题。 数据挖掘研究院

