数据挖掘-工具篇-数据挖掘-火龙果软件工程

分享到

数据挖掘-工具篇

作者数据分析小站点，火龙果软件发布于 2013-11-01

数据挖掘（data mining），这是Ryan给我新的任务。

这个名词听过很多次，但是，实际上，我还没有真正深入了解过。决定好好学习一下data mining。

一、关于data mining：

科学的定义：一种透过数理模式来分析企业内储存的大量资料，以找出不同的客户或市场划分，分析出消费者喜好和行为的方法。

二、data mining的工具（摘自百度文库，经自己简单整理）：

数据挖掘工具的市场一般分为三个组成部分：

a、通用型工具；b、综合／DSS／OLAP数据挖掘工具；c、快速发展的面向特定应用的工具。

通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义，采用通用的挖掘算法，处理常见的数据类型，其中包括的主要工具有IBM 公司Almaden 研究中心开发的QUEST 系统，SGI 公司开发的MineSet 系统，加拿大Simon Fraser 大学开发的DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等软件。通用的数据挖掘工具可以做多种模式的挖掘，挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。

综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和Business Objects等。

面向特定应用工具这一部分工具正在快速发展，在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面，其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option＆Choices和针对欺诈行为探查开发的HNC软件。

下面简单介绍几种常用的数据挖掘工具：

1. QUEST

QUEST 是IBM 公司Almaden 研究中心开发的一个多任务数据挖掘系统，目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点：

1、提供了专门在大型数据库上进行各种开采的功能：关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。

2、各种开采算法具有近似线性（O(n)）计算复杂度，可适用于任意大小的数据库。

3、算法具有找全性，即能将所有满足指定类型的模式全部寻找出来。

4、为各种发现功能设计了相应的并行算法。

2. MineSet

MineSet 是由SGI 公司和美国Standford 大学联合开发的多任务数据挖掘系统。MineSet 集成多种数据挖掘算法和可视化工具，帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet 2.6 有如下特点：

（1）MineSet 以先进的可视化显示方法闻名于世。MineSet 2.6 中使用了6 种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示，用户也可以按照个人的喜好调整最终效果, 以便更好地理解。MineSet 2.6 中的可视化工具有Splat Visualize、Scatter Visualize、Map Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer，其中Record Viewer 是二维表，Statistics Visualize 是二维统计图，其余都是三维图形，用户可以任意放大、旋转、移动图形，从不同的角度观看。

（2）提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。

（3）支持多种关系数据库。可以直接从Oracle、Informix、Sybase 的表读取数据，也可以通过SQL 命令执行查询。

（4）多种数据转换功能。在进行挖掘前，MineSet 可以去除不必要的数据项，统计、集合、分组数据，转换数据类型，构造表达式由已有数据项生成新的数据项，对数据采样等。

（5）操作简单。

（6）支持国际字符。

（7）可以直接发布到Web。

3. DBMiner

DBMiner 是加拿大Simon Fraser 大学开发的一个多任务数据挖掘系统，它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起，以面向属性的多级概念为基础发现各种知识。DBMiner 系统具有如下特色：

（1）能完成多种知识的发现：泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。
　　（2）综合了多种数据开采技术：面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。
　　（3）提出了一种交互式的类SQL 语言——数据开采查询语言DMQL。
　　（4）能与关系数据库平滑集成。
　　（5）实现了基于客户/ 服务器体系结构的Unix 和PC（Windows/NT）版本的系统。

4、IBM Intelligent Miner

IBM公司以它在美国及世界各地的研究实验室发展数年的资料探勘解决方案，发展出了一系列包括在人工智能、机制学习、语言分析及知识发掘上的应用和基本研究的精密软件。IBM的Intelligent Miner在资料探勘工具的领导地位上是极具竞争力的，因为它提供了以下的好处：包含了最广泛的资料探勘技术及算法，可容纳相当大的资料量的能力且有强大的计算能力；事实上，这套产品在IBM SP的大量平行硬件系统上执行效率最好，这套产品也可以在IBM或非IBM平台上执行丰富的APIs可用来发展自定的资料探勘应用软件；所有资料探勘引擎和资料操作函式可以透过C++函式库来存取 Intelligent Miner支持classification、prediction、association rules generation、clustering、sequential pattern detection和time series analysis算法，Intelligent Miner藉由利用精密的资料可视化技术及强大的Java-based使用者接口来增加它的可用性（目标大多锁定在有经验的使用者），Intelligent Miner支持DB2关系型数据库管理系统，并整合大量精密的资料操作函式结论整体而言，Intelligent Miner(for Data)是市场上最大容量及功能强大的工具，在顾客评定报告中它的整体效能是最好的，有所算法的效能甚至比其它应用不同的应用软件还要好，IBM将它定位在企业资料探勘解决方案的先锋。

5、SAS Enterprise Miner

SAS Enterprise Miner在资料探勘工具市场是非常杰出的工具，它运用了SAS统计模块的力量和影响力，且它增加了一系列的资料探勘算法，SAS使用它的取样、探测、修改、模式、评价(SEMMA)方法提供可以支持广泛的模式，包含合并、丛集、决策树、类神精网络、和统计回归 SASEnterpriseMiner适用于初学者及专业使用者，它的GUI接口是以资料流为导向，且它容易了解及使用，它允计分析师藉由使用连结连接资料节点及程序节点的方式建构一视觉数据流程图，除此之外，接口还允许程序码直接嵌入资料流因为支持多重模式。
Enterprise Miner允许使用者比较models和利用评估节点所选择之最适模式，除此之外，Enterprise Miner提供产生评定模式之评定节点能够存取任何SAS应用软件结论SAS利用它在统计分析软件上的专业来发展全功能、易于使用、可靠且可管理的系统，有大范围的模式选项和算法、设计良好的使用者接口、利用已存在的资料储存能力，和在统计分析上相当大的市场占有率(允许公司取得SAS新增的组件比增加一套新的工作来得好多了)，对SAS来说，它在资料探勘市场上终究还是领导者整体而言，这个工具适用于企业在资料探勘的发展及整个CRM的决策支持应用.

6、Oracle Darwin

Darwin常被认为是最早资料探勘工具之一，可见它的知名度，最近，Oracle从Thinking Machines公司取得Darwin来加强它的产品系列?S别是CRM方面，资料探勘可以扮演一个重要的角色，以下将讨论由Thinking Machines公司发展和行销的Darwin之特色(Oracle也许决定改变任何组件及工具架构) Darwin资料探勘工具组是一个复杂的产品，包含了三个资料探勘工具：neural networks、decision tree、和K-nearest neighbor，Darwin neural network tool (Darwin-Net)提供广泛的model建立工具组，它可以处理明确和连续预测因素和目标变量且可以用于分类、预测及预测问题决策树工具(DarwinTree)使用CART算法，且可以用于以明确和连续变量来分类问题解决，K-nearest neighbor工具(DarwinMatch)可用于以明确相依变量，和明确且连续预测变量来分类问题解决虽然每个组件工具有一些缺点，Darwin包含了模式评价的完全功能组，它可对所有模式型态产生summary statistics、confusion matrices、lift tablesDarwin提供初学者及专家相当好的使用者接口，虽然接口显得较适合专业使用者从一个大量并行计算机的第一制造者可知，Darwin在处理效能及范围有强大的优势，它的算法对并行计算是最适合的，且有足够的弹性执行平行及循序架构，Oracle当然不会忽视这种能力，且它定位在帮助Oracle成为可以包含到一个大型的全球企业的数据库及应用产品的首要厂商主要使用的算法为neural network、decision tree、和K-nearest neighborneural network-training algorithms包含back propagation，steepest descent，modified Newton等方法decision tree使用CART algorithms可选择所需的子树数目自动的修改决策树K-nearest neighbor algorithm是memory-based reasoning(MBR)技术，它可依训练组中K最接近的匹配记录来预测相依变量值结论Darwin的优点是支持多重算法(计画加入基因算法及人工智能逻辑)它可在多种主从式架构上执行，服务器端可以是单处理器、同步多处理器或大量平行处理器，在多处理器服务器上，Darwin可以取得硬件及大范围能力的优势，Darwin证明了强大的效能及大范围的能力，整体而言，Darwin定位在中、大范围的执行.

7、Clementine(SPSS)

Clementine是SPSS所发行的一种资料探勘工具，此工具结合了多种图形使用者接口的分析技术，包含neural networks、association rules、及rule-induction techniques，这些工具提供容易使用的可视化程序环境来执行这些分析功能。Clementine使用图形象征的方法，就是透过托拉鼠标和连接屏幕上的功能节点，这些节点提供了data access、data manipulation、data visualization、machine learning以及model analysis，模式的组成是从一个pallet中选取合适之节点，并放置在屏幕上再连接各节点Clementine有强大的资料存取能力包含flat file及关系型数据库(经由ODBC)，Clementine也可让modeling的结果持续的写回一ODBC的DBMS输入资料的操作包含配对合并及衍生新字段的能力，Clementine的资料可视化能力包含散布图、平面图及Web分析.

8、Thought and Scenario(Cognos)

Cognos介绍两个资料探勘工具的组合：4Thought和Scenario来巩固它在OLAP市场的位置，这些工具藉由利用neural networks和CHAID技术提供资料探勘能力，一般而言，Cognos所有平台和特殊用途的窗口环境都支持这些工具，这两个工具都需要电子表格、数据库和ASCII文字文件作为资料来源 4Thought可以处理在寻求价格最佳化、需求预测及效能预测及衡量等各种商业问题，4Thought使用multilayer perceptron OLAP、neural network技术，适用于分析问题，处理non-linear forms、noisy datal及small data sets，4Thought提供了两个主要的分析：time series analysis及customer profiling，time series analysis寻找周期性的行为趋势，而customer profiling处理人口统计资料，例如，预测一顾客是否会购买一特定的产品Scenario是设计用来分类及结合问题；它可以找出一资料组中变量间的关系，Scenario使用Chi-squared Automatic Interaction Detection(CHAID)，且可以产生多种对预测变量划分的方法，Scenario提供不同的分析策略、自动取样及决策树的产生，然而，Scenario并不是用来处理分类的目标变量，Scenario在资料探测及可视化是十分强大的Scenario及4Thought的共同优点是他们广泛且直觉的使用者接口，他们的目标锁定在初学者，它使用绘图表示univariable analysis或decision tree metaphor，且提供一良好的视觉表达方式来表现在区域间的资料变量，趋势分析及相关因素，Scenario有一template可分析从竞争及每季获利信息Cognos表示它将以它的PowerPlay(OLAP)及Impromptu(reporting)应用软件整合4Thought及Scenario.

9、Database Mining Workstation(HNC)

HNC是最成功的资料探勘公司之一，它的Database Mining Workstation(DMW)是一种广为接受的信用卡诈骗分析应用的neural network tool，DMW由Windows-based software applications和custom processing board所组成，其它HNC产品包含Falcon和ProfitMax在财务服务及HNC打算要在通讯业中扩张的Advanced Telecommunications Abuse Control System (ATACS)诈骗侦测解决方案之应用 DMW neural network支持back propagation neural network且可以自动及手动的模式来作业，它的模式可以使用广泛的统计和计算预测变量和对一相依变量的敏感度之相关性的功能来解释DMW提供大量的使用者定义选项允许在算法修改、资料准备、和操作函式上有很大的弹性，DMW有效的处理明确且连续的变量，并且可以用于预测、分类、及预测问题，DMW提供初学者及有经验使用者包含进阶调整选项及描述能力之接口，DMW也提供可用于直销活动的商业templateDMW在产生精确及有效预测模式上是十分优异的，它的处理效能及范围足以支持主要的信用卡处理需求结论DMW是强大、成熟的产品，且市场接受度非常好，它的诈骗侦测／分类应用可用于实时分析信用卡交易，这是它在范围及效能上最好的证明.

10、Decision Series(NeoVista)

NeoVista解决方案的Decision Series是广泛使用的资料探勘工作，这间公司是由大量平行硬件厂商MasPar公司所发展出来的，类似于Darwin，这就具有了强大的理解及可调整范围之执行方式，高效能资料探勘解决方案 Decision Series是一提供整合可描述及预测分析算法的data mining及knowledge environment，算法在执行由使用者自定的各种控件是非常有效率的，分析能力包含clustering、association rules，neural networks、及decision tree，Decision Series以资料存取及资料转换引擎完全的整合这些算法，因为公司的背景，它可以在公司所宣称达到近线性范围能力的SMP系统中高度的调整并行操作，工具的范围能力可在零售业的存货管理中的调度得到证明，Decision Series可用于每周零售商分析销售点资料，资料可表示大约70GB从使用能力的观点来看，Decision Series定位在有经验的老手所使用的工具，NeoVista发展易于使用的GUI接口，且提供专家顾问服务(称之为Knowledge Discovery Engineers，或KDE)，它们常working on-site部分的prototype或pilot project工具的软件架构是由几个组件和以对象导向设计所组成的，资料探勘引擎建立在资料存取及资料转换层的顶端，也提供了另一引擎称为DecisionAccess，资料探勘引擎继承DecisionAccess特性且因此可以容易的连结在一起结论Decision Series是一强大的产品，它在架构及资料探勘算法上是十分优异的，且可以调整范围和采取平行硬件架构的优点，在使用者评估上，它在确定的问题类别时，在范围能力、预测精确及处理时间上执行得非常好，整体而言，Decision Series定位于大范围分析的执行.

11、KnowledgeSEEKER and Knowledge Studio(Angoss)

Angoss Software所开发的KnowledgeSEEKER(KS)是一套决策树资料探勘工具，它使用CART及CHAID为决策树的算法用以找出资料组中预测因素和相依变量间的关系，就其本身而论，KS可以明确且连续的相依变量用来分类问题这套工具的主要定位在于资料探测能力，它的使用者接口提供决策树模式的图形表示，使用者可以选择每一个分枝及指定预测变量群，在自动方式下，所有产生的分枝也是可用的，KS提供专业使用者大量的调整能力，包含修改算法或限制树的成长，KS包含它的统计推论引擎的AIP可以用C产生模式和汇入它们的结果到外部应用程序结论KnowledgeSEEKER是在目标行销上可调整顾客范围大小之一套成熟的软件，在顾客的评比中，它的效能和精确度都是适当的为了维持产品的气势，Angoss在1998年5月扩充KnowledgeSEEKER成大型分析架构，称为Knowledge Studio，它整合了各厂商的资料探勘组件成为共同的环境，藉由提供决策树、类神精网络、网页接口及Java的可移植性，Angoss计画将Knowledge Studio定位成资料仓储发展的关键组件，Knowledge Studio也利用Windows的兴起，推出了SDK，SDK使用ActiveX技术帮助其将产品嵌入垂直应用软件，Angoss已经和数家厂商发展高度的合作，包含Cognos、MCI/SHL、AT&T及Tandem.

12、Model 1 and Pattern Recognition Workbench(Unica)

最近在资料探勘市场的调查，Unica估计在IBM及Information Discovery之后有大约9%的市场占有率，这显示出Unica已整合了Model 1(原来是Group 1)和它自己的Pattern Recognition Workbench(PRW) · PRW是一般的资料探勘工具，因此Model 1对Unica而言是垂直应用软件，而且它在公司中似乎是成长的产品线，Model 1是高度自动化的资料探勘工具，它支持大量的目标行销分析能力 · Model 1工具包含Response Modeler module、customer Segmenter module、Cross-Seller module、及Customer Valuator module： · Response Modeler识别最可能对广告活动响应的顾客 · Customer Segmenter module将顾客区隔为相似地理及购买行为的族群 · Cross-Seller module将最可能购买产品之顾客配对 · Customer Valuator module识别潜在高价值的顾客虽然PRW及Model 1提供了大量精密的资料探勘技术，包含K nearest neighbor、K means、nearest cluster、radial-basis function(RBF)、供pattern recognition用的Gaussian 算法、neural networks、genetic algorithms、regression及Recency Frequency Monetary algorithms(RFM)，这些工具被设计让非技术型的使用者也可以使用，从使用者的观点来看，PRW和Model 1提供了很多的辅助精灵引导使用者完成最后的模式，Unica的工具可以自动的搜寻各种算法及参数设定以选出最佳的模式，当模式被建立及评价之后，会自动的建立一Visual lift chart让使用者可容易的识别可精确预测及良好效能模式的分类这两样工具都提供了可允许使用者可以回顾模式在各阶段细节的丰富报表能力，报表将模式分类且提供模式和输入资料摘要统计，大量的使用精灵、行销样板、使得Model 1特别适合初学者，然而，专业使用者有足够的能力处理许多工具算法的参数整体而言，这两项工具定位在可大量的增加行销应用的自动资料探勘工具为了增加市场应用及占有率，Unica已经建立一资料探勘顾问组织，它希望能为它的收益带来显著的增加结论Unica的Model 1和Pattern Recognition Workbench(PRW)代表特别适用于行销应用的产品，这两项工具都提供了优异的使用方式及精确的预测.