数据挖掘通常被称为“从大型数据库提取有效、可信和可行信息的过程”。换言之,换言之,数据挖掘派生数据中存在的模式和趋势。挖掘模型可以数据挖掘概念 ,例如:
。这些模式和趋势可以被收集在一起并定义为挖掘模型。挖掘模型可以应用于特定的业务方案,例如:
- 预测销售额。
- 向特定客户发送邮件。
- 确定可能需要搭售的产品。
- 查找客户将产品放入购物车的顺序序列。
一个重要的概念就是生成挖掘模型是大型过程的一部分,此过程包括从定义模型要解决的基本问题到将模型部署到工作环境的所有事情。此过程可以使用下列六个基本步骤进行定义:
以下关系图说明过程中每个步骤之间的关系,以及 Microsoft SQL Server 2005 中可用于完成每个步骤的技术。 数据挖掘研究院

尽管关系图中所示的过程是一个循环过程,但是每个步骤并不需要直接执行到下一个步骤。创建数据挖掘模型是一个动态、交互的过程。浏览完数据之后,您可能会发现数据不足,无法创建适当的挖掘模型,因此必须查找更多的数据。您可以生成数个模型,但可能会发现这些模型无法回答定义问题时所设定的问题,因此必须重新定义问题。您可能必须在部署模型之后对其进行更新,因为又出现了更多的可用数据。因此,了解创建数据挖掘模型是一个过程,并且为了创建一个完美的模型,此过程中的每个步骤可能需要重复多次是非常重要的。 数据挖掘研究院
SQL Server 2005 提供用于创建和使用数据挖掘模型的集成环境,称为 Business Intelligence Development Studio。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生成用于各种项目的综合解决方案。有关使用 BI Development Studio 的详细信息,请参阅开发 Analysis Services 解决方案和项目。 数据挖掘研究院
有关如何将 SQL Server 工具应用于本主题前面部分列出的业务方案的详细信息,请参阅数据挖掘教程。
定义问题步骤中标识的数据。

Microsoft SQL Server 2005 Integration Services (SSIS) 包含完成该步骤所需的所有工具,步骤内容包括转换到自动执行数据清除和合并。 数据挖掘研究院
数据可以分散在公司的各个部门并以不同的格式存储,或者可能包含缺陷项或缺少项之类的不一致性。例如,数据可能显示客户在其出生日期之前购买产品,或者客户在距离她家 2,000 英里的商店定期购物。在开始生成模型之前,必须纠正这些问题。通常,您使用的是一个非常大的数据集,并且无法仔细查看每个事务。因此,必须使用某种自动化的形式(如,在 Integration Services 中)来浏览数据并找到这些不一致。 数据挖掘实验室
浏览数据
生成模型如以下关系图中突出显示的那样,数据挖掘过程的第四步就是生成挖掘模型。

在生成模型之前,必须随机将已准备的数据分离到单独的定型数据集和测试数据集。您使用定型数据集生成模型,并通过创建预测查询来使用测试数据集测试模型的准确性。您可以使用 Integration Services 中的
百分比抽样转换来拆分数据集。 数据挖掘研究院
您将使用从浏览数据步骤中获得的知识来帮助定义和创建挖掘模型。模型通常包含多个输入列、一个标识列以及一个可预测列。然后可使用数据挖掘扩展插件 (DMX) 语言,或 BI Development Studio 中的数据挖掘向导,在新的模型内定义这些列。有关如何使用 DMX 的详细信息,请参阅数据挖掘扩展插件 (DMX) 参考。有关如何使用数据挖掘向导的详细信息,请参阅数据挖掘向导。 数据挖掘研究院
定义完挖掘模型的结构之后,需要对其进行处理,使用说明模型的模式来填充空结构。这称为“定型”模型。模式通过利用数学算法计算原始数据而得。SQL Server 2005 针对可生成的每种模型包含一种不同的算法。您可以使用参数调整每种算法。
挖掘模型由一个数据挖掘结构对象、一个数据挖掘模型对象以及一种数据挖掘算法定义。 数据挖掘研究院

