RSS
热门关键字:  数据挖掘  数据仓库  人工智能  搜索引擎  数据挖掘导论

Microsoft 关联算法

来源: 作者:互联网作品 时间:2007-03-21 点击:

Microsoft 关联算法是指 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的关联算法,对建议引擎非常有用。建议引擎根据客户已购买的项或者客户已对其表现出兴趣的项向他们推荐产品。Microsoft 关联算法对市场篮分析也非常有用。有关市场篮分析的详细信息,请参阅“数据挖掘教程”中的第 4 课:生成市场篮方案

关联模型基于包含各事例的标识符及各事例所包含项的标识符的数据集生成。事例中的一组项称为“项集”。关联模型由事例中一系列项集和说明这些项如何分组的规则组成。算法标识的规则可用于根据客户购物车中已有的项来预测客户将来可能购买的产品。以下关系图显示了项集中的一系列规则。

数据挖掘实验室

关联模型的一组规则

正如该关系图中所示,Microsoft 关联算法可能会在数据集中找到许多规则。该算法使用两个参数(support 和 probability)来说明项集以及该算法生成的规则。例如,如果 X 和 Y 表示购物车中可能有的两个项,则 support 参数是数据集中包含 X 和 Y 这两项组合的事例的数目。通过将 support 参数与用户定义的 MINIMUM_SUPPORT 和 MAXIMUM_SUPPORT 参数结合使用,该算法可控制生成的项集数。probability 参数也称为“置信度”,表示数据集中既包含 X 也包含 Y 的一部分事例。通过将 probability 参数与 MINIMUM_PROBABILITY 参数结合使用,该算法可控制生成的规则数。 数据挖掘实验室

示例示例

Adventure Works Cycle 公司正在重新设计其网站的功能。重新设计的目的是提高产品的零售量。由于该公司在事务数据库中记录了每个销售,因此它们可以使用 Microsoft 关联算法来标识倾向于集中购买的产品集。然后,它们可以根据客户购物篮中已有的项预测客户可能感兴趣的其他项。

算法的原理算法的原理

Microsoft 关联算法遍历数据集以查找同时出现在某个事例中的项。然后,该算法将最少出现了由 MINIMUM_SUPPORT 参数指定的最少事例数次数的关联项分为项集。例如,项集可以为“Mountain 200=Existing, Sport 100=Existing”,并且支持的数目可以为 710,那么该算法将根据项集生成规则。可以使用这些规则根据是否存在该算法标识为重要项的其他特定项,预测数据库中的某项是否存在。例如,某规则可以为“if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing”,并且其概率可能为 0.812。在此例中,该算法发现由于购物篮中存在 Touring 1000 轮胎和水壶套,因此预测购物篮中也可能存在水壶。

数据挖掘研究院

使用算法使用算法

关联模型必须包含一个键列、多个输入列以及一个可预测列。输入列必须为离散列。关联模型的输入数据通常包含在两个表中。例如,一个表可能包含客户信息,而另一个表可能包含客户购物情况。您可以使用嵌套表将该数据输入到模型中。有关嵌套表的详细信息,请参阅

Microsoft 关联算法支持下表中列出的特定输入列内容类型、可预测列内容类型以及建模标志。

输入列内容类型

Cyclical、Discrete、Discretized、Key、Table 和 Ordered

数据挖掘实验室

可预测列内容类型 数据挖掘研究院

Cyclical、Discrete、Discretized、Table 和 Ordered

建模标志 数据挖掘研究院

MODEL_EXISTENCE_ONLY 和 NOT NULL 数据挖掘研究院

所有 Microsoft 算法均支持一些通用的函数。但是,Microsoft 关联算法还支持下表中列出的其他函数。

IsDescendant 数据挖掘研究院

PredictHistogram 数据挖掘研究院

IsInNode

PredictNodeId 数据挖掘研究院

PredictAdjustedProbability

PredictProbability 数据挖掘研究院

PredictAssociation 数据挖掘研究院

PredictSupport 数据挖掘研究院

有关对所有 Microsoft 算法都通用的函数列表,请参阅数据挖掘算法。有关如何使用这些函数的详细信息,请参阅数据挖掘扩展插件 (DMX) 函数参考

数据挖掘研究院

Microsoft 关联算法不支持使用预测模型标记语言 (PMML) 创建挖掘模型。 数据挖掘研究院

Microsoft 关联算法支持数个影响生成的挖掘模型的性能和准确性的参数。下表对各参数进行了说明: 数据挖掘研究院

参数 说明

MINIMUM_SUPPORT 数据挖掘研究院

指定在该算法生成规则之前必须包含项集的事例的最小数目。将该值设置为小于 1 将指定最小事例数作为事例总计的百分比。将该值设置为大于 1 的整数将指定最小事例数作为必须包含项集的事例的绝对数。如果内存有限,则该算法可能会增大此参数的值。 数据挖掘研究院

默认值为 0.03。 数据挖掘研究院

MAXIMUM_SUPPORT

指定支持项集的事例的最大数目。如果该值小于 1,则表示事例总计的百分比。大于 1 的值表示可以包含项集的事例的绝对数。 数据挖掘研究院

默认值为 1。

数据挖掘研究院

MINIMUM_ITEMSET_SIZE 数据挖掘研究院

指定一个项集中允许的最小项数。

默认值为 1。

数据挖掘实验室

MAXIMUM_ITEMSET_SIZE 数据挖掘研究院

指定一个项集中允许的最大项数。将该值设置为 0 将指定对项集的大小没有限制。

默认值为 3。 数据挖掘研究院

MAXIMUM_ITEMSET_COUNT 数据挖掘研究院

指定要生成的最大项集数。如果未指定数目,则该算法将生成所有可能的项集。

数据挖掘实验室

默认值为 200000。 数据挖掘研究院

MINIMUM_PROBABILITY 数据挖掘研究院

指定规则为 True 的最小概率。例如,将该值设置为 0.5 将指定不生成概率小于百分之五十的规则。 数据挖掘研究院

默认值为 0.4。 数据挖掘实验室

OPTIMIZED_PREDICTION_COUNT

定义为进行预测而需要缓存或优化的项数。 数据挖掘研究院

嵌套表
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?