数据挖掘技术在客户关系管理中的应用

2011-4-12 来源：网络

0 引言

随着计算机技术、网络技术、通讯技术和Internet技术的发展，电子商务中企业内部会产生了大量业务数据，如何从丰富的客户数据中挖掘有价值的信息，为企业管理者提供有效的辅助决策，是企业真正关心的问题。其中，客户分类是分析型客户关系管理的重要功能之一。通过客户分类，区分客户的霞要程度，并针对不同霞要级别的客户制定专门的营销方案和客户关系管理策略，可以帮助企业降低营销成本，提高利润和企业竞争力。客户也可从食业制定的专门的营销方案和客户关系管理策略中获得适合的交易体验。数据挖掘是分析型CRM实现其“分析”功能的必要手段，也是实现客户分类的有效工具。

1 客户关系管理(CRM)

CRM(Customer Relation Managemen)是一种旨在改善企业与客户之间关系的新型管理机制，它实施于企业的市场营销、销售、服务与技术支持等领域，它的目标是提供更优质、更快捷的服务吸引并保持客户，通过业务流程的全面管理降低仓业成本。

在电子商务环境下，CRM使网站企业在所有的业务环节下更好地满足客户需求以及提供更优质的服务，从而使站点企业在这种不存在时空差异的新型商务环境中保留现有客户和发掘潜在客户。以提高市场竞争力。同时CRM又可以提供客户需求、市场分布、回馈信息等重要信息，为企业和经营活动提供智能化分析的依据，因此，CRM为企业带来了成功实现电子商务的基础。

个性化服务是增强竞争力的有力武器，CRM就是以客户为中心并为客户提供最合适的服务。互联网成为实施客户关系管理应用的理想渠道，记住顾客的名字及他们的偏好，根据顾客的不同而提供不同内容，顾客再次光顾的可能性会大大增加。CRM可以增加客户忠诚度，提高购买比率，使每个顾客产生更多的购买需求，及更长时间的需求，并提高顾客满意度。

2 数据挖掘技术

如何对这些海量的数据进行分析发现，为商业决策提供有价值的信息，使企业获得利润，强有力的工具就是数据挖掘。

在分析型CRM系统中，数据挖掘是其中的核心技术，数据挖掘是从大量的数据中，抽取出潜在的、有价值的知识、模型或规则的过程。对于企业而言，数据挖掘可以有助于发现业务发展的趋势，揭示已知的事实，预测未知的结果，并帮助企业分析出完成任务所需的关键因素，以达到增加收入、降低成本，使企业处于更有利的竞争位置的目的。

2.1 数据挖掘常用的算法

(1)决策树(decision tree)决策算法。决策树是一个类似于流程图的树结构。其中每个内部节点表示在一个属性上的测试，每个分枝代表一个测试输出，而每个树叶节点代表类或类分布。决策树算法包括树的构造和树的剪枝，有两种常用的剪枝方法：先剪枝和后剪枝。

(2)神经网络(Neural Network)。神经网络是一组连接的输入，输出单元，其中每个连接都与一个权相连，在学习阶段，通过调整神经网络的权，使得能够预测输入样本的正确类标号来学习。

(3)遗传算法(Genetic Algorithms)。遗传算法根据适者生存的原则，形成由当前群体巾最适合的规则组成新的群体，以及这些规则的后代。遗传算法用于分类和其他优化问题。

(4)粗糙集方法。粗糙集方法基于给定训练数据内部的等价类的建立。它将知识理解为对数据的划分，每一被划分的集合称为概念，利用已知的知识库来处理或刻臧不精确或不确定的知识。粗糙集用于特征归约和相关分析。

(5)模糊集方法。基于规则的分类系统有一个缺点：对于连续属性，他们有陡峭的截断。将模糊逻辑引入，允许定义“模糊”边界，提供了在高抽象层处理的便利。

其它还有贝叶斯网络、可视化技术、临近搜索方法和公式发现等方法。

2.2 数据挖掘常用的分析方法

(1)分类和预测。主要用于客户细分(分群)处理，如价值客户群的分级，分类和预测是两种数据分析形式，可以用于提取描述重要数据类的模型或预测未来的数姑趋势。数据分类(data elassfication)是一个两步过程，第一步，建立一个模型，描述预定的数据类集或概念集，通过分析有属性描述的数据库元组来构造模型。第二步，使用模型进行分类。首先评估模犁的预测准确率，如果认为模型的准确率可以接受，就可以用来对类标号未知的数据远祖或对象进行分类。

预测技术，主要用于对客户未来行为的发现，如客户流失分析中，用神经元网络方法学习各种客户流失前的行为变化，进而预测(预警)可能出现的存价值客户的流失。预测足构造和使用模型评估无标号样本类，或评估给定样本可能具有的属性值或值区间。分类和预测具有广泛的应用，如信誉证实、医疗诊断、性能预测和选择购物。分类和预测常用的算法包括决策树归纳、贝叶斯分类、贝叶斯网络、神经网络、K-最临近分类、遗传算法、粗糙集和模糊集技术。

(2) 聚类分析。聚类是将数据对象分组成为多个类或簇(cluster)，在同一个簇中的对象之同具有较高的相似度，而不周簇中的对象差别较大。作为统计学的一个分支，聚类分析已被广泛的研究了许多年，现在主要集中在基于距离的聚类分析，基于k-means(k-平均值)、k-medoids(k-中心点)和其他的一些聚类分析工具也有不少的应用。

(3)关联规则。关联规则挖掘给定数据集中项之间的有趣联系。设I＝{i1，i2，…im}是项的集合，任务相关的数据D是数据库事务的集合，其中每个事务T是项的集合，使得T包含于I。关联规则是形如A=>B的蕴涵式，其中A∈I，B∈I，并且A∩B为空。关联规则的挖掘分成两步：①找出所有频繁项集，这些项集出现的频繁性至少和预定义的最小支持计数一样。②由频繁项集产生强关联规则。这些规则必须满足最小支持度和最小置信度。

(4)序列模式。序列模式分析和关联规则分析类似，也是为了挖掘数据项之间的联系，不过序列模式分析的是数据项在时间维上的先后序列关系，如一个顾客在购买了计算机半年后可能再购买财务分析软件。

(5)孤立点分析。孤立点是度量错误或固有的数据变异性的结果。许多数据挖掘算法都试图使孤立点的影响最小，或排除它们。一个人的噪声可能是另一个人的信号，在有些时候。孤立点是非常有用的。孤立点挖掘可以描述如下：给定一个n个数据点或对象的集合，以及预期的孤立点的数目k，发现与剩余的数据相比是显著相异的或不一致的头k个对象。孤立点探测方法可分为三类：统计学方法，基于距离的方法和基于偏移的方法。

3 应用方法

3.1 了解业务

最初的阶段，着眼于了解业务特点，并把它还原成为数据分析的条件和参数。例如：在零售行业中，我们的第一个步骤是了解客户购买的频率，购买频率和每次消费金额之间是否有明显的相关关系。

3.2 分析数据

这个阶段着眼于对现有的数据进行规整。我们发现，在不少行业中，可分析的数据和前面提出的分析目标是不匹配的。例如：消费者的月收入水平可能与许多购买行为相关，但是，原始的数据积累中却不一定具备这螳数据。对这一问题的解决方法是从其它的相关数据中进行推理，例如，通过抽样调查，我们发现，一次性购买大量卫生纸的客户，其月收入水平集中在1000-3000RMB的档次，如果这一结论基本成立。我们可以从消费习惯中推理出现有客户有多大的百分比是月收入水平在这个档次中的；另外，可以根据抽样调查的方法。在问卷调查的基础上推理整个样本人群的收入水平曲线。

3.3 数据准备

这个阶段的着眼点是转换、清理和导入数据，可能从多个数据源抽取并加以组合，以形成data cube。对于缺失的少量数据，是用均值补齐，还是忽略，还是按照现有样本分配，这是在这个阶段需要处理的问题之一。

3.4 建模

现在已经有各种各样的模型方法可以利用。让最好的一种应用于我们要着眼的主要问题中。是这个阶段的主要任务。例如，对于利润的预测是否应当采用回归方式预测，预测的基础是什么等，这些问题需要行业专家和数据分析专家协商并达成共识。

3.5 评估与应用

优秀的评估方法是利用不同的时间段，让系统对已经发生的消费情况进行预测，然后比较预测结果和实际状况，这样模型的评估就容易进行了。完成了上述的步骤之后，多数的分析工具都支持保存并重复应用已经建立起来的模型。更为重要的是，在这个过程中，对数据分析的方法和知识应当已经由客户方的市场分析人员或决策者所了解，我们提供的，不仅仅是最终结果，而且是获得这一结果的方法。“要把金针度与人”正是TurboCRM咨询服务不同于单纯的软件提供商的区别所在。

最后，在软件架构方面，分析数据库与运营数据库应当是分离的，避免影响运营数据库在操作方面的的实时响应速度。