RSS
热门关键字:  数据挖掘  数据仓库  人工智能  搜索引擎  数据挖掘导论

Microsoft 顺序分析和聚类分析算法

来源: 作者:互联网作品 时间:2007-03-21 点击:

Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过将相同的顺序分到一组或一类中来查找最常见的顺序。这些顺序可以采取多种格式,包括:

  • 用来说明用户浏览网站时的点击路径的数据。
  • 用来说明客户将商品添加到在线零售商的购物车中的顺序的数据。

该算法类似于 Microsoft 聚类分析算法。不过,Microsoft 顺序分析和聚类分析算法不是查找包含类似属性的事例的分类,而是查找顺序中包含类似路径的事例的分类。

该算法创建的挖掘模型在数据中包含了最常见顺序的说明。您可以使用这些说明来预测新顺序的下一个可能步骤。在对记录进行分类时,该算法还在数据中对与顺序没有直接关系的列进行了说明。因为该算法包括了非相关列,所以您可以使用得到的模型来识别顺序数据和没有出现在顺序中的数据之间的关系。 数据挖掘实验室

示例示例
使用算法使用算法 数据挖掘研究院

顺序聚类分析模型需要一个用来标识记录的键和一个包含顺序相关列(例如标识顺序中的事件的网页标识符)的嵌套表。每个顺序只允许有一个顺序相关列,且每个模型中只允许有一种类型的顺序。若要在本主题前面提到的示例方案中创建一个模型,您需要创建一个包含两个表的数据源。第一个表用来包含订单,第二个表用来包含订单放置到购物车的顺序。

数据挖掘实验室

Microsoft 顺序分析和聚类分析算法支持下表中列出的特定输入列内容类型、可预测列内容类型和建模标志。

数据挖掘研究院

输入列内容类型

数据挖掘研究院

Continuous、Cyclical、Discrete、Discretized、Key、Key Sequence、Table 和 Ordered

可预测列内容类型

数据挖掘研究院

Continuous、Cyclical、Discrete、Discretized、Table 和 Ordered 数据挖掘研究院

建模标志

数据挖掘研究院

MODEL_EXISTENCE_ONLY 和 NOT NULL

数据挖掘研究院

所有 Microsoft 算法均支持一些通用的函数。不过,Microsoft 顺序分析和聚类分析算法支持下表中列出的其他函数。 数据挖掘实验室

Cluster 数据挖掘研究院

PredictHistogram 数据挖掘研究院

ClusterProbability 数据挖掘研究院

PredictNodeId

IsDescendant

数据挖掘实验室

PredictProbability 数据挖掘研究院

IsInNode 数据挖掘研究院

PredictSequence 数据挖掘研究院

PredictAdjustedProbability

PredictStdev

PredictAssociation 数据挖掘研究院

PredictSupport 数据挖掘研究院

PredictCaseLikelihood 数据挖掘研究院

PredictVariance

数据挖掘研究院

有关对所有 Microsoft 算法都通用的函数列表,请参阅

Microsoft 顺序分析和聚类分析算法不支持使用预测性模型标记语言 (PMML) 来创建挖掘模型。 数据挖掘研究院

Microsoft 顺序分析和聚类分析算法支持几个影响所得到的挖掘模型的性能和准确性的参数。下表对各参数进行了说明: 数据挖掘研究院

参数 说明

CLUSTER_COUNT

数据挖掘研究院

指定将由算法生成的大致分类数。如果无法基于相应的数据生成该大致数目的分类,则算法将生成尽可能多的分类。如果将 CLUSTER_COUNT 设置为 0,则算法将使用试探性方法最准确地确定要生成的分类数。 数据挖掘研究院

默认值为 10。 数据挖掘研究院

MINIMUM_SUPPORT 数据挖掘研究院

指定每个分类中的最小事例数。

数据挖掘实验室

默认值为 10。 数据挖掘研究院

MAXIMUM_SEQUENCE_STATES 数据挖掘实验室

指定一个顺序可以拥有的最大状态数。将该值设置为大于 100 的数将导致算法创建一个不提供有意义的信息的模型。

数据挖掘实验室

默认值为 64。

MAXIMUM_STATES 数据挖掘研究院

指定算法支持的非顺序属性的最大状态数。如果某个非顺序属性的状态数大于该最大状态数,则算法将使用该属性最常见的状态并将剩余状态视为不存在。

默认值为 100。 数据挖掘研究院

数据挖掘算法。有关如何使用这些函数的详细信息,请参阅数据挖掘扩展插件 (DMX) 函数参考
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?