SQL Server 2008 数据挖掘的决策树算法

2010-10-27 来源：IT168.com

决策树算法是由 Microsoft SQL Server Analysis Services 提供的分类和回归算法，用于对离散和连续属性进行预测性建模。

对于离散属性，该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值（也称之为状态）预测指定为可预测的列的状态。具体地说，该算法标识与可预测列相关的输入列。例如，在预测哪些客户可能购买自行车的方案中，假如在十名年轻客户中有九名购买了自行车，但在十名年龄较大的客户中只有两名购买了自行车，则该算法从中推断出年龄是自行车购买情况的最佳预测因子。决策树根据朝向特定结果发展的趋势进行预测。

对于连续属性，该算法使用线性回归确定决策树的拆分位置。

如果将多个列设置为可预测列，或输入数据中包含设置为可预测的嵌套表，则该算法将为每个可预测列生成一个单独的决策树。

示例

Adventure Works Cycles 公司的市场部希望标识以前的客户的某些特征，这些特征可能指示这些客户将来是否有可能购买其产品。AdventureWorks 数据库存储描述其以前客户的人口统计信息。通过使用 Microsoft 决策树算法分析这些信息，市场部可以生成一个模型，该模型根据有关特定客户的已知列的状态（如人口统计或以前的购买模式）预测该客户是否会购买产品。

算法的原理

决策树算法通过在树中创建一系列拆分来生成数据挖掘模型。这些拆分以“节点”来表示。每当发现输入列与可预测列密切相关时，该算法便会向该模型中添加一个节点。该算法确定拆分的方式不同，主要取决于它预测的是连续列还是离散列。

决策树算法使用“功能选择”来指导如何选择最有用的属性。所有 Analysis Services 数据挖掘算法均使用功能选择来改善分析的性能和质量。功能选择对防止不重要的属性占用处理器时间意义重大。如果在设计数据挖掘模型时使用过多的输入或可预测属性，则可能需要很长的时间来处理该模型，甚至导致内存不足。用于确定是否拆分树的方法包括对“平均信息量”和 Bayesian 网络的行业标准度量。

数据挖掘模型中的常见问题是该模型对定型数据中的细微差异过于敏感，这种情况称为“过度拟合”或“过度定型”。过度拟合模型无法推广到其他数据集。为避免模型对任何特定的数据集过度拟合，Microsoft 决策树算法使用一些技术来控制树的生长。

预测离散列

通过柱状图可以演示 Microsoft 决策树算法为可预测的离散列生成树的方式。下面的关系图显示了一个根据输入列 Age 绘出可预测列 Bike Buyers 的柱状图。该柱状图显示了客户的年龄可帮助判断该客户是否将会购买自行车。