数据挖掘在客户关系管理(CRM)中的应用-数据挖掘-火龙果软件工程

分享到

数据挖掘在客户关系管理(CRM)中的应用

火龙果软件发布于 2013-10-15

引言

随着经济全球化进程的加速，企业面临的竞争愈来愈激烈，越来越多的企业认识到，客户对企业的忠诚不仅来自于企业提供的商品，而且来自于服务等非实体性因素。借助先进的信息技术发现潜在的新客户以及保持并改善与老客户的关系已成为企业的迫切需求。针对每个客户的不同要求，提供更为个性化的系列服务也已成为企业生存的根本法则。然而现实中企业的资源总是有限的，不可能平等细致地研究每一个顾客的所有要求，所以企业必须通过数据挖掘技术将客户进行分类，使企业更加准确地为目标客户提供全面和优质的服务，同时通过改善业务流程降低企业运营成本，从而整体上提高企业的市场竞争力。

1 CRM的体系结构

CRM即“客户关系管理”，是以信息技术为手段，以为更多的客户提供服务为目标，对企业和客户之间的交互活动进行管理。

1.1 CRM的目标

CRM一方面通过提供更快速和周到的优质服务吸引并保持更多的客户;另一方面通过对业务流程的全面管理来减低企业的成本。设计完善的CRM解决方案可以帮助企业在拓展新收入来源的同时，改进与现有客户的交流方式。据国际CRM论坛的统计，国际上成功的CRM实施，能给相应的企业每年带来6%的市场份额增长，提高9%～10%的基本服务收费。

1.2 CRM的组成

CRM一般由业务操作子系统，客户合作子系统和数据分析子系统3个部分组成。

(1)业务操作子系统主要是借助IT技术，通过营销流程、销售流程和服务流程等业务流程的制定与管理，让企业在进行销售、营销和服务时，采用最佳方法取得最佳效果。最后将经营活动中产生的数据和信息记录到数据库中。

(2)客户合作子系统用于对客户和企业进行交互方式的管理。它是一种整合的企业与客户互动的渠道，企业与客户联系的渠道包括电子邮件、呼叫中心、客服中心、网站和电子社区等，其目的是提升企业与客户的沟通能力，强化服务的质量与时效性。

(3)数据分析子系统是CRM中的核心部分，它强调对各种数据的分析，并从中得到有价值的信息。它通过客户合作子系统和业务操作子系统等不同渠道收集各种与客户接触的资料，经过汇总、整理等数据处理，通过线上分析(OLAP)、数据挖掘(Data Mining)等智能技术，帮助企业全面了解客户的分类、行为、满意度、需求等信息，以寻找企业的潜在市场和预测可能的风险，最后将分析结果反馈给业务操作子系统和客户合作系统。

2 数据挖掘定义和分析方法

数据挖掘也称数据开采，数据采掘等。一种比较公认的定义是W·J·Frawley，G·Piatetsk Shapiro等人提出的：数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息，提取的知识表示为概念、规则、规律和模式等形式。这个定义把数据挖掘的对象定义为数据库。目前更广义的说法是：数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅是数据库，也可以是文件系统，或其他任何组织在一起的数据集合。

2.1 数据挖掘分析方法

数据挖掘分析方法大致包括关联规则分析、序列模式分析、聚类分析、分类分析。

(1)关联规则分析即通过对记录数据的分析研究产生关联规则，继而利用关联规则挖掘隐藏在数据间的相互关系，它能发现数据库中譬如“90%的顾客在一次购买活动中购买商品A的同时是否购买商品B”之类的知识。

(2)序列模式分析基本上与关联规则分析相同，但它的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内，顾客购买商品A，接着购买商品B，然后购买商品C，即序列A、B、C出现的频率”之类的知识。

(3)聚类分析是通过分析数据库中的记录数据，根据一定的分类规则，合理地划分记录集合，把相似的记录在一个集合里。它能够发现数据库中譬如“哪些顾客购买了A商品，他们有着什么样的共性”之类的知识。

(4)分类分析即通过分析示例数据库中的训练集，建立分类模型和挖掘出分类规则，然后用这个分类规则对其他数据库中的记录进行分类。它解决的问题基本上与聚类分析相同，但由于有训练集可供反复验证，因此结果更加准确可靠。在现实问题中，企业基本上都有着大量的历史记录数据可供使用，而且CRM中普遍存在着客户分类问题，所以分类分析方法是数据挖掘技术应用于CRM时最经常使用的方法。

2.2 数据挖掘在CRM中的应用

由于CRM的应用能够提高企业效率，提升客户的忠诚度、节省运营开支和增加营业收入，所以越来越多的企业开始建立CRM系统。根据International Data Corporation(国际数据公司)2002年的调查结果显示，全球CRM市场以每年平均18.6%的速度增长，到2008年达到114亿美元。然而随着CRM系统中数据库技术的迅速发展以及业务操作流程自动化的广泛应用，企业积累了越来越多的数据。巨增的数据背后蕴藏着丰富的知识，而目前的数据库技术虽可以高效地实现数据的查询、统计等功能，却无法发现数据中存在的关系和规则，无法根据现有的数据来预测未来的发展趋势，从而出现了“数据爆炸而知识贫乏”的现象。

数据挖掘技术融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术，能够找出过去数据之间的潜在联系，从而对将来的趋势和行为进行预测和指导，进而很好地支持人们的决策。此外根据“马特莱法则”：给一个公司带来80%利润的是20%的客户。按照这个原则，如果能把这20%的客户找出来，提供更好的服务，对于公司的发展和业绩的增长无疑是最大的帮助。

根据2008年第四季度全球PC厂商市场份额报告，诞生于1984年的戴尔计算机公司全球名列第二。短短20多年的时间，就获得如此巨大的成功，这与戴尔公司自成立开始便采用的区分客户群中的不同客户、寻找出有较高的企业价值的客户的思想是密不可分的。戴尔公司通过对每个客户的平均收益、较高利润产品或服务的使用百分比、销售或订单的趋势(升或降)以及客户支持或服务的成本等方式来评估客户的长期价值。根据客户对企业的价值的不同将其分在不同类别的组内，同一组内的客户对企业有相同或相似的价值。将客户由高到低依次划分为白金客户、签约客户、注册客户和普通客户四类。对不同的客户提供不同级别的服务，客户的级别越高，将获得越为完善和个性化的服务。

在当前迅速变化的商业环境下，企业经营者们都认为，谁能掌握客户的需求趋势、加强与客户的关系、有效分析挖掘客户数据和正确预测客户服务发展方向，谁就能获得市场竞争优势，在激烈的竞争中立于不败之地。由此可见，在CRM中应用数据挖掘技术是非常必要的。 2.3 数据挖掘在CRM中的实施

数据挖掘技术在CRM中的实施是一个循序渐进、循环反复和不断调整的动态过程，主要包括如下4个步骤。

(1)确定业务对象

要想使数据挖掘技术在CRM中起作用，企业首先要清楚地定义出业务中存在的现实问题。只有清晰地定义这些问题，企业才能够确定在CRM中应用数据挖掘技术的业务对象和所期望的商业目标，然后在此基础上开展数据的收集和预处理工作，形成对数据的初步认识，了解数据的分布状况，为建立预测模型打下基础。

(2)进行数据准备

数据准备是数据挖掘过程中非常重要的一步，数据的好坏直接影响到最后挖掘的结果。数据准备按以下步骤进行。①数据的收集：根据业务问题收集所有与业务对象有关的数据，企业需通过制定严格的业务操作流程和协调好各个相关部门来完成数据的收集工作，要能够及时和完整地从多种异构数据源中获得目标数据。②数据预处理：对客户数据进行清理，对所收集到的数据要验证其规范性、完整性、真实性和有效性，数据预处理是为进一步挖掘做好准备。③数据转换：将数据转换成元数据模型，该模型是针对数据的数据挖掘算法建立的，一个真正适合挖掘算法的元数据模型是数据挖掘成功的关键。

(3)建立数据挖掘模型

根据所要解决的业务问题和所收集的数据的属性确定要建立的模型类型。这一步是一个反复比较的过程，要综合考虑多方面的因素，在多种建模方案中做出选择，以求所建立的模型能够实现商业目标，解决业务问题。

(4)解释和评价模型

本阶段是将数据挖掘的结果用更为容易理解和执行的方式进行表述并对数据挖掘的质量进行评定。一般用两个指标进行评估，一个是支持度，用来验证结果的实用性;一个是可信度，用来验证结果的准确性。如果评估的结果不好则可能需要重新整合数据或重新修正原有的模型。

以上步骤是不断循环持续的动态过程，随着系统的不断扩展，客户数据的不断积累，先前建立的数据挖掘模型很可能不再有效，因此需要重新建立数据挖掘模型。同时，随着企业业务需求的变化，可能又会有新的数据挖掘应用，因此基于数据挖掘的CRM的实施应用不是一成不变的，而是随着数据和业务需求的发展而改变的。

3 实例

在某银行电子商务系统的客户关系管理子系统中，我们使用数据挖掘技术对客户进行分类分析。下面按照数据挖掘技术在CRM中的实施过程分步叙述客户关系管理系统的数据挖掘工具的设计与实现。

3.1 确定业务对象

某银行在近期推出一项新的业务，通过在几个网点进行为期一个月的试运营，在该银行电子商务系统的客户关系管理子系统中存储了大量客户的资料，选取其中一个网点的客户数据资料作为样本，通过对这些数据的分析，可以发现办理该业务客户的一些特点。通过对这些特点的归纳，可以将企业潜在的客户划分为不同的种类，对完全符合特点的客户进行重点宣传促销，对于完全不符合的客户则可以只进行普通的宣传，这样既可以提高业务的办理量，又可以有效地降低宣传成本。

3.2 进行数据准备

由于银行的业务流程相对比较规范，因此在本例中数据的收集和预处理工作相对比较简单，从客户数据库中选取符合完整性、规范性、真实性和代表性的数据即可。由前文的介绍可知，分类和聚类都可以用来进行客户的分类。分类和聚类的区别在于聚类不需要已标定的样本，而分类需要，并可以获得更加准确可靠的结果。鉴于可以得到充足的样本客户数据用作训练样本，我们选择分类方法中的决策树方法。决策树算法的执行结果是得到一棵决策树，它表明哪些因素会影响客户办理该项业务。决策树方法的最大优点在于它的可理解性和直观性。

目前比较成熟的决策树构建方法有ID3，CA.5，C5.0系列，CART，SLIQ，SPRINT和CHAID等。其中CART算法可以同时处理连续变量和分类变量，它通过构造一个准确的分类模型用来预测、研究引起分类现象发生的变量及变量之间的作用。相对于其它算法，它对于输入的数据没有任何统计分布的假设要求，能够清楚地指出变量对于分类的重要性，并且运行速度较快、准确性高、容易理解，因此更适用于从大量数据中快速提取特征并及时分析，更加适用于分析处理银行的海量数据，所以这里我们采用CART算法。其基本原理是通过对由测试变量和目标变量构成的训练数据集的循环分析，而形成二叉树形式的决策树结构。CART采用经济学中的基尼系数(G)作为选择测试变量和分割阈值的准则。基尼系数的定义如下：

式中，p(j|h)是从训练样本集中随机抽取一个样本，当某个测试变量值为h时属于第，类的概率，nj(h)为训练样本中该测试变量值为h时属于第j类的样本个数，n(h)为训练样本中该测试变量值为h的样本个数j为类别个数。

但按照上述过程生成的完整决策树往往会出现“过度拟合”的现象，因此有必要对树的结构进行修剪。CART算法采用交叉验证的方法进行修剪，将样本数据分为训练数据和检验数据两部分，通常分为十等分，每次以其中的九份作为训练数据，一份作为检验数据，如此循环交替进行验证。验证过程中引入一个“可调错误率”的概念，即对某个树枝的所有叶节点增加一个惩罚因子，如果该树枝仍然能够保持低错误率，则说明它是强者，予以保留;否则它是弱者，给予剪除。最终的分析结果是一棵兼顾复杂度和错误率的最优二叉树，一系列二分点定义的每条途径都对应了一个最可能归属类别的判断条件。因此，这棵树可以看作一系列可以用来对未知值进行分类的规则。整个算法的运用过程见图1。

图1 CART算法过程步骤

3.3 建立数据挖掘模型

选取某一银行网点一个月的营运资料(由于决策树算法对数据的完整性有较高的要求，并且银行网点的客户数据是充足的，所以可直接在数据库中选取可信度较高并且无缺值现象的数据)。选取目标字段新业务客户(程序中1表示办理了该项新业务，0表示未办理)，预测变量字段包括：年龄、性别、教育程度、已办业务数量、收入来源种类、子女数、收入数量。记录为442条，摘取部分数据如表1所示。将数据录入到SPSS Clementinep。软件中进行计算，可生成一棵包含14个节点的决策树，其中第一，二两个节点分别是按年龄和收入进行分割的。我们进一步对决策树目标响应度大于10%的节点的收益进行计算并生成收益表如表2所示

表1 部分客户信息数据

表2 收益表

通过响应度指数可以看出每个节点上给定目标类别的目标响应度与总体响应度间的差异有多大，从表2中可以看出，节点2和节点13显示最高的相对指数(%)值。相对指数值大于100%的节点表示：通过这些指数值大于100%的节点选择客户而不是从整体样本中随机选择客户，能够有更多的机会找到愿意办理该业务的客户。表2中，节点2具有最高可能的相对指数值接近140%，这表示，从这一客户群体中获得积极响应的可能性几乎是随机选择的1.4倍。同理，节点13中的客户群体中获得积极相应的可能性是随机选择的1.24倍。

这里只是初步完成了一个基于决策树的分类技术用于客户分类的简单示例。但实际应用中大多数决策树分类过程要复杂的多，计算量也要大很多。这主要是因为用于分类的样本数据量往往很大，属性字段也得多，经常会综合运用多种分类方法。

3.4 解释和评价模型

通过决策树对客户数据的分类我们可以看出，该业务的主要办理者主要为节点2和节点13所描述的客户群体。即满足(年龄>40.5岁)或者(年龄<40.5岁和收入数量>1和教育程度>12.5和收入来源种类<0.5)的两类客户群体更可能会办理该项业务。

该银行通过建立上述的分类预测模型，今后对于符合特点的客户应该采取更有效的宣传措施，而对于不满足特点的客户则可以采用普通的宣传手段或不进行宣传。这样可以有效地锁定目标客户，采取最有效的营销策略，从而使该银行在更好地为客户服务的同时也为自己争取到利益最大化。

4 结束语

本文在介绍客户关系管理系统和数据挖掘技术概念的基础上，指出了传统客户关系管理系统的不足，把客户关系管理系统与数据挖掘相结合，并通过实例介绍了数据挖掘技术应用于客户关系管理系统的实施流程，说明了两者的结合可以有效地提高企业为目标客户提供服务的质量和降低企业的运营成本。由此可见，将数据挖掘技术在客户关系管理系统中的引入可以高质量地实现客户关系管理的目标，充分发挥客户关系管理的作用，具有十分重要的应用价值。随着数据挖掘技术的不断成熟，基于数据挖掘的分析型客户关系管理系统无疑也将获得越来越广泛的应用。