数据挖掘技术是一项以数据库技术、统计分析、人工智能等为依托的综合性运用技术,它在零售、保险、电信、电力等行业的运用已经显示出巨大的商业价值并逐步向其他行业渗透,数据挖掘是新型的商业分析处理技术,它是从大型数据仓库中发现并提取隐藏在其中的信息的一种新技术,帮助决策者寻找数据间潜在的关联,发现被忽略的因素,
它不仅是面向特定数据库的简单检索查询调用,而且要求对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测,这些信息和因素对预测趋势和决策行为是至关重要的,随着信息化进程的不断推进,企业信息化工作发展迅速,各种辅助管理软件(ERP、CRM、SCM、PDM等)在企业中都得到了广泛的应用,
而这些辅助软件的核心就是数据库技术,随着数据库技术的发展,数据仓库、数据集市的建立,企业存储有大量的管理资料、客户资料和生产资料,如何从中提取出隐藏在其中的信息,帮助决策者进行决策,是企业面临的问题。
1 常用数据挖掘模式
数据挖掘模式有很多种,按功能可分为预测型模式和描述型模式两类,预测型模式是可以根据数据项的值精确确定某种结果的模式,挖掘预测型模式所使用的数据也都是可以明确知道结果的,
描述型模式是对数据中存在规则的描述,或者根据数据的相似性把数据分组,在实际应用中,往往根据模式的实际作用将数据挖掘模式细分为以下几种:
1.1 分类模式
分类模式是一个分类函数(分类器),它把数据集中的数据项映射到某个给定的类上, 分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,
沿着数据满足的分支往上走,走到树叶即可确定类别。
1.2 回归模式
回归模式的函数定义与分类模式相似,差别在于前者的预测值是连续的,而后者是离散的。
1.3 时间序列模式
时间序列模式是根据数据随时间变化的趋势预测将来的值。
1.4 聚类模式
聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小,与分类模式不同,聚类前并不知道将要划分的组的数量和类型,也不知道根据那一个数据项来定义组。
1.5 关联模式
关联模式是数据挖掘的核心技术,它是由R.Agrawal等人首先提出的,关联规则就是给定一组项目和一个记录集合,通过分析记录集合,推导出项目间的相关性,关联模式广泛应用于各行各业。
2 数据挖掘在商务应用中的解决方案
传统的数据库已无法满足大容量历史数据、不同部分数据难以集成等特点,于是数据仓库应运而生。数据仓库是面向主题的、继承的、稳定的和随着时间变化的数据集合,它是数据挖掘的基础,数据挖掘也称数据仓库中的知识发现。
2.1 基于数据仓库的数据挖掘系统结构
基于数据仓库的数据挖掘系统的结构一般包括三个部分:数据仓库管理系统、模型库管理系统和知识库管理系统,如图1所示。
图1 基于数据仓库的数据挖掘系统结构框架
数据仓库管理系统:直接负责对数据仓库进行管理,并完成对各种异构分布数据源中数据的提取工作,在最大限度上屏蔽各类异构数据源对系统带来的影响。
知识库管理系统:对知识库进行管理和控制,包括知识的增加、删除、更新和查询等。
模型库管理系统:对模型库进行管理,模型库的一个重要组成部分是知识发现模块,它包括各类数据挖掘工具。
2.2 数据仓库和数据挖掘解决方案
通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供较为通用的处理模式,如:分类模式、回归模式、时间序列模式、聚类模式、关联模式等,例如:IBM公司的QUEST系统、SGI公司的MineSet系统、加拿大Simon
Fraser大学的DBMiner、美国Business Object公司的Business Miner系统、SAS公司的SAS
EM(Enterprise Miner)系统等, 另外,Oracle公司不但提供对数据仓库的全面支持,同时还提供了一系列的集成工具,利用这些工具可以帮助我们创建、管理和维护企业数据仓库,同时,利用数据仓库中的数据进行数据挖掘,提供决策分析。
3 数据挖掘在商务中的应用
随着信息技术的迅速发展,特别是数据库技术和计算机网络技术的广泛应用,企业拥有的数据急剧增大。在大量的数据与信息中,蕴藏着企业运作的利弊得失,若能够对这种海量的数据与信息进行快速有效地深入分析和处理,就能从中找出规律和模式,获取所需知识,帮助企业更好地进行企业运筹决策。数据挖掘技术和产品在这种市场需求中逐渐发展成熟,并使企业获得极高的投资回报。
3.1 关联规则的应用
在商品销售中,我们往往重视客户与商品的关系,即不同的客户(不同年龄、不同地区)对不同商品的偏好,从而可做到个性化的服务,
但是我们往往忽略了另一个方面,即商品之间的关联。例如一条典型的关联规则如下:“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”,说明面包、黄油和牛奶之间存在着潜在的关联。
某经营有化妆品和沐浴用品的公司对某一时段内的销售记录(2000条)进行关联分析,过程如下:
1)在2000条交易记录中,同时包含有两种商品的交易数如表1所示。
表1 同时包含两种商品的交易数
(2)在2000条交易记录中,包含各商品的交易数如表2所示。
3)根据表1,计算出支持度如表3所示。
(4)针对设定的最小支持度阈值(0.3),计算可信度如表4所示。
表4 X→Y的可信度
将大于最小可信度阈值(0.67)的规则列出,即为关联分析所得出的规则:
从上述规则中可以得出以下结论:
①顾客在购买洗面奶的同时多半会购买日霜,反之亦然;②顾客在购买洗发水的同时,多半会购买沐浴露,反之亦然;③顾客在购买日霜的同时,多半会购买晚霜,但购买晚霜的同时购买日霜的情况并不是很普遍。
由以上的结论,公司可以对自己的营销策略进行调整,对相关联的产品应当摆放在相近的地方,在宣传时,相关联的产品应当一起进行,可以达到事半功倍的效果。
3.2 多层和多维关联规则的应用
联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,当时Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的要求,用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的要求;因此Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP可以使企业数据分析人员、企业经理及企业其他管理人员通过对企业信息的多种可能的观察角度进行快速、一致和交互性的存取,以获得对信息的深入理解。OLAP技术的特点主要有两方面,一是在线性,二是多维分析。
在OLAP中,维指的是人们观察数据的特定角度。如产品销售数据随着时间推移而产生的变化情况,就是从时间的角度来观察产品的销售,所以时间是一个维,同样的也可以从不同的销售地区来观察产品的销售,这就产生一个销售地区维。维的层次是指人们观察数据的某个特定角度还可以存在细节程度不同的多个描述方面,称这多个方面为维的层次。销售地区维有地市、地区、国家等不同的层次。例如OLAP进行关联规则的挖掘,首先要从数据仓库中的相关数据物化为一个H
维数组,即H 维的数据立方体% 例如某销售数据按产品、时间和地区组织起来就形成一个三维立方体,加上变量销售额,就组成了一个多维数组(产品、地区、时间、销售额)。OLAP的基本操作包括多维切片、多维的切块、旋转、钻透等操作。
某家电销售公司为了考查产品在不同时间、不同地区的销售情况,建立一个多维的数组(产品、销售地区、时间、销售量),然后从数据仓库中产生工作立方体如图2所示。
利用OLAP进行关联规则挖掘,主要有维之间的关联规则和维之内的关联规则,合成关联规则等。维之间的关联规则可以先通过切片操作,然后沿用“支持度—可信度”的方法进行分析。例如挖掘空调在时间与销售地区的关系,可以对空调产品进行切片,计算支持度和可信度,最后挖掘出以下规则:
Rule1:广州→4月起空调开始热销
Rule2:上海→5月起空调开始热销
Rule3:北京→6月起空调开始热销
从以上的规则可知,空调的热销首先是广州,然后到上海,最后是北京,因此在制定营销策略时,要有先后秩序。
利用同样的方法可以对时间进行切片,研究某个时间产品与销售地区的关系,也会挖掘出相关的信息。对销售地区进行切片,可以研究某个地区产品与时间的关系,例如挖掘出如下的规则:空调→5月;热水器→10月,表示空调5月份开始热销,而热水器要到10月份才热销。因此公司每年要根据不同的产品,选择不同的时间进行宣传与促销,这样才能提高工作的效率,占领更大的市场份额。
3.3 聚类分析在客户资料挖掘中的应用
聚类是将物理或抽象对象进行分组并将相似对象归为一类的过程。数据聚类将物理的或抽象的对象分成几个群体,在每个群体内部,对象之间具有较高的相似性。数据聚类的研究方向主要有基于概率的方法和基于距离的方法两种。基于距离的方法就是将每个数据对象看作空间上的一个点,给定一个大型多维数据点集,这些点一般不能一致地占有数据空间。作为一个数据挖掘任务,数据聚类即是在一个大型多维数据集合中根据某种距离标识簇或稠密定位区域,从而发现数据集的整体分布模式。在聚类分析中,具体的算法主要有:分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。在电子商务环境下,数据收集系统收集到的有关客户的数据,经过抽取、变换和装入,建立企业的数据仓库和数据集市,数据挖掘对象是客户,它能发现客户的共性和个性的知识、必然和偶然的知识、独立的和关联的知识、现实和预测的知识等。所有这些知识都可以在不同的概念层次上被发现,能从微观到中观再到宏观进行分析,能对客户的消费行为做出比较客观的统计和正确的分析,为电子商务的管理者提供决策依据,以更好地满足客户的需要。
对电子商务来说,传统的市场细分理论在制定市场策略时仍然十分重要。市场细分是通过不同的消费者群体来对市场进行细分,客户聚类可对此提供有利的支持。聚类是把一组个体按照相似性原则归为若干类别,即“物以类聚”,它的目的是使得属于同一类别的个体之间的距离尽可能小,通过对聚类的客户特征的提取,电子商务网络可以为客户提供个性化的服务。对于大量的顾客数据可以从中选取能够反应顾客特征的多个指标,如性别、年龄、职位、教育程度、年薪、平均消费额、重复购买次数、单位时间、消费额占总收入的比重等等,运用聚类分析将所有客户分为高价值客户、一般价值客户,低价值客户等若干类型。
在电子商务的数据挖掘中,对日志的聚类分析是一种很好的挖掘方法。通过分组聚类出具有相似浏览行为的客户,并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的服务。如有一些客户都花了一段时间浏览“玩具”、“婴儿用具”等页面,经过分析这些客户被聚类成为一组,而这一组与婴儿有关,可以对这一类客户推销与婴儿有关的产品,而浏览“家俱”、“家电”,经过分析这些客户被聚类为一组,这一组为即将结婚的客户。
3.4 数据挖掘
电子商务网站的网上业务量巨大,在每天的大量业务中蕴涵了许多用户的隐藏信息。每个顾客在Web上的行为都会产生相关数据,这不只是包括购买的信息,而且还有利用搜索引擎和在站点内浏览的相关数据。所有的交互数据都可以被网站后台的数据库记录下来,这些大量的数据集合包含了对历史记录的市场分析以及数据驱动的市场预测非常有益的潜在信息。利用完善的数据库技术,现在的公司能够比较容易地搜集到大量的客户信息。而通过把数据挖掘在Web上的应用,公司可以利用有效的顾客信息,发掘潜在的市场,提高竞争力。
Web数据挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息,它是一项综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。Web上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构,它有统一的格式,其中的数据为完全结构化的数据。Web上的信息则不然,主要是些大量的、异质的Web信息资源,文档结构性差,其数据多为半结构化或非结构化,由于半结构化和非结构化的信息不能清楚地用数据模型来表示,因此在Web上的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。
Web数据挖掘可分为三类:内容挖掘、结构挖掘、用户访问模式挖掘,而内容挖掘和用户访问模式挖掘是Web挖掘的两个主要方面。Web数据挖掘主要是针对各种非结构化的数据,如文本数据、音频数据、视频数据、图形图像数据等多种数据相融合的多媒体数据挖掘。面向Web用户访问模式的挖掘是关于用户行为及潜在顾客信息的发现。用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现,它是对现代电子商务战略的一个重要支持。
Web内容挖掘的实现技术主要有文本总结、文本分类、文本聚类、关联规则等。IBM公司推出的Intelligent
Miner for text就是一个Web文本挖掘工具,可以实现全文搜索、文本分析、Web文档查询和检索。用户模式挖掘实现技术又称为用户导航信息,一种方法是通过对日志文件进行分析,另一种方法是通过对用户点击事件的搜集和分析发现用户的导航行为。用户导航行为工具WUM(Web
Utilization Miner)是一种序列挖掘器,它主要用来分析用户导航行为的发现,适用于从任何类型的日志文件中发现用户导航信息。
4 结 语
随着信息时代的来临,企业信息化程度的不断深化,企业收集了大量的产品、客户、销售等资料和数据,如何从这些数据中挖掘出有价值的知识,辅助决策,将成为知识经济时代的一个主题。利用数据挖掘技术,对数据进行更深层次处理,得到关于数据的总体特征以及发展趋势的预测,对提高企业的竞争力将起到关键的作用,并为企业人、财、物的合理利用提供可靠的依据。随着数据挖掘技术的不断改进和数据挖掘工具的不断完善,数据挖掘技术的应用和开发不再是具有专业背景的人士的专利,而成为一项不需很多培训就可以为人们所利用的普及的工具。国外的许多行业如通信、信用卡公司、银行和股票交易所、保险公司、广告公司、商店等已经大量利用数据挖掘工具来协助其业务活动。目前我国在这方面的应用还处于起步阶段,市场潜力巨大,谁优先使用这一技术,谁将获得更多的优势,因此可以预计,数据挖掘技术将在各行各业,特别是商业领域中得到广泛的应用。
|