RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

关联规则挖掘在数据录入、校对系统中的应用

来源: 作者:unkonwn 时间:2004-12-09 点击:

数据的准确录入和高效的校对是各行业的产品数据分析的基础,提高数据录入的精确性对各行业的产品数据分析有着重要的支撑作用,是后期数据分析的科学基础。在传统的数据校验方法的基础上,采用数据挖掘知识中的关联规则能更有效地提高数据录入的精确性以及校对的高效性。
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski等人提出,是数据挖掘技术中一种相对简单但很实用的规则。可以采用关联规则挖掘技术对各行业的数据录入、校对、处理提供支持,从而提高数据处理的准确性。
1 数据挖掘和关联规则的基本概念
1.1 数据挖掘
数据挖掘是一个从大量的数据中发现潜在的、新颖的、有价值的信息和知识(模型或规则)的过程;它是根据目标对数据进行探索和分析,揭示其中隐含的规律,并进一步将其模型化的先进有效的技术过程。数据挖掘是一门交叉学科,它集成了许多学科中成熟的工具和技术,包括数据库技术、统计学、机器学习、模型识别、人工智能、神经网络等等。
数据挖掘包括:分类 (Classification) 、估值(Estimation)、 预测(Prediction) 、相关性分组或关联规则(Affinity grouping or association rules) 、聚类(Clustering)、描述和可视化(Description and Visualization)。 数据挖掘研究院
1.2 关联规则
    关联规则是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构,通过分析数据或记录间的关系,决定哪些事情将一起发生。
设I={i1, i2,…, in}是项的集合,其中的元素称为项,S为T的集合,这里T是项的集合,并且T I 。如果X T,那么称T包含X。
一个关联规则是形如X==>Y的蕴涵式,这里X I, Y I,并且X Y= 。规则X==>Y在集合S中的支持度(support)是S集中包含X和Y的数与所有项数之比,记为support(X==>Y),即:support(X==>Y)= {T : X Y T,T S} / S
规则X==>Y的可信度是指包含X和Y的数与包含X的数之比,记为confidence(X==>Y),即:confidence(X==>Y)={T: X Y T,T S} / {T:X T,T S}
关联规则挖掘的任务是:给定一个集S,求出所有满足最小支持度和最小可信度的关联规则。
数据挖掘实验室

  数据挖掘研究院

参考文献
[1] MicrosoftOLAP解决方案  (美)Erik Thomsen 等著  人民邮电出版社 2000年出版
[2] SQLserver开发使用手册  (美) Stephen Wynkoop  著 机械工业出版社 2000年5月出版
[3] VisualBasic开发指南-ADO篇  Mike Gunderloy 著 电子工业出版社  2000年7月出版
[4] http://www.dmgroup.org.cn
作者简介:田生伟(1973--) 男,四川籍,汉族,讲师,硕士研究生,主要研究方向: 网络数据库应用及网络安全
Email :  tsw@xju.edu.cn   电话:8582308(家)
禹龙(1974--)女,湖南籍,汉族,讲师,主要研究方向:网络技术及应用。
联系方式:
(830046 新疆大学信息科学与工程学院,乌鲁木齐) 田生伟
(830046 Information science & engineering college of Xinjiang University) Tianshengwei

  数据挖掘研究院

资料全文下载
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?