空间数据挖掘主要方法-数据挖掘-火龙果软件工程

分享到

空间数据挖掘主要方法

火龙果软件发布于 2013-10-08

空间数据挖掘主要方法

根据数据挖掘的方法分，可粗分为：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中，可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）、以及模糊集、粗糙集、支持向量机等。机器学习中，可细分为：归纳学习方法（决策树、规则归纳等）、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法，可细分为：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。数据库方法主要是基于可视化的多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

1.空间分析方法

利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工，从而产生新的信息和知识。常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等，可发现目标在空间上的相连、相邻和共生等关联规则，或发现目标之间的最短路径、最优路径等辅助决策知识。

2.统计分析方法

统计分析一直是分析空间数据的常用方法，着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础，拥有大量成熟的算法。统计方法难以处理字符型数据，需要有领域知识和统计知识，一般由具有统计经验的领域专家来完成。

3.归纳学习方法

归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式，其大部分算法来源于机器学习领域，归纳学习的算法很多，如Michaski等的 AQ11，AQ15，洪家荣等的AE1，AE9，Hunt的CLS，Quinlan的ID3，C5.0等，其中最著名的是Quinlan提出的C5.0决策树算法。

4.聚类与分类方法

聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有Kmean，Kmeriod，ISO DATA等。分类和聚类都是对目标进行空间划分，划分的标准是类内差别最小，类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征，而聚类则事先不知道。

5.探测性的数据分析方法

李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来，可发现数据中非直观的数据特征及异常数据。 EDA与空间分析相结合，构成探测性空间分析(exploratory spatial analysis，简称ESA)。EDA和ESA技术在数据挖掘中用于选取与问题领域相关的数据子集，并可初步发现隐含在数据中的某些特征和规律。

6.粗集方法

粗集理论是波兰华沙大学Z.Pawlak教授在1982年提出的一种智能数据决策分析工具，被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。粗集理论为空间数据的属性分析和知识发现开辟了一条新途径，可用于GIS数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。粗集理论与其他知识发现算法相结合可以在GIS数据库中数据不确定的情况下获取多种知识。

7.空间特征和趋势探测方法

这是Ester等人在第4届KDD国际研讨会(1998)上提出的基于领域图(neighborhoodgraphs)和邻域路径 (neighborhoodpath)概念的挖掘算法。Ester等将一个空间特征定义为GIS数据库中具有空间/非空间性质的目标对象集，并以非空间属性值出现的相对频率和不同空间对象出现的相对频率(目标对象集相对于整个数据库)作为感兴趣的性质，从空间目标集合经过它的相邻扩展后的一个开始点出发，发现一个或多个非空间性质的变化规律。这种算法的效率在很大程度上取决于其处理相邻关系的能力。

8.数字地图图像分析和模式识别方法

GIS数据库(数据仓库)中含有大量的图形图像数据，一些图像分析和模式识别方法可直接用于挖掘数据和发现知识，或作为其他挖掘方法的预处理方法。用于图像分析和模式识别的方法主要有：决策树(desicion tree)方法、神经元网络(artificial neural net work)方法、数学形态学方法、图论方法。

9.可视化方法

可视化数据分析技术拓宽了传统的图表功能，使用户对数据的剖析更清楚。例如把数据库中的多维数据变成多种图形，这对提示数据的状况、内在本质及规律性起到了很强的作用。当显示SDM发现的结果时，将地图同时显示作为背景。一方面能够显示其知识特征的分布规律；另一方面也可对挖掘出的结果进行可视化解释，从而达到最佳的分析效果。可视化技术使用户看到数据处理的全过程、监测并控制数据分析过程。为了发现某类知识，常要综合运用这些方法。数据挖掘方法还要与常规的数据库技术充分结合，数据挖掘利用的技术越多，得出的结果精确性就越高。

空间数据库中的知识

基于GIS与遥感应用，一般认为(Li D R. et al., 1994,1997;　邸凯昌等，1996,1997；Han J., 1996; Koperski K. et al, 1996), 可以从空间数据库中发现的知识有以下8种：

a.普遍的几何知识(general geometric knowledge)

所谓普遍的几何知识，是指关于目标的数量、大小、形态特征等的普遍性知识，如点状目标的位置、大小等，线状目标的长度、大小和方向等，面状目标的周长、面积、几何中心等。可以通过计算或统计得出GIS中空间目标某种几何特征量的最小值、最大值、均值、方差、中数等，还可以统计出有关特征量的直方图等。

b.空间分布规律(spatial distribution regularities)

空间分布规律是指目标在地理空间中垂直向、水平向以及垂直与水平联合的分布规律。垂直分布是指空间目标沿地理调和的分布，如植被覆盖与生物多样性的海拔变化，作物生长的坡度变化等；水平分布是指地物沿地理区域的平面分布，如水稻亩产的区域分异性，基础设施的城乡差异等；垂直与水平的联合分布是指目标的高程和区域方面的同时变化，如风土人情的流域差异性、气候特征的地理分异性等。

c.空间关联规则(spatial association rules)

空间关联规则是指空间目标的相邻、相连、共生、包含等关系，如道路与河流的相连，国家与国家的相邻等。

d.空间分类(聚类)规则(spatial classification/clustering rules)

空间分类规则是根据目标的空间或非空间特征进行类别划分的规则；而空间聚类规则是根据目标的聚散程度进行类别划分的规则，可用于GIS的空间概括和空间综合。空间分类和空间的共同之处是：都是对目标空间的再划分，划分的标准是类内差别最小而类间差别最大；不同之处是：分类是有导师的 (supervised)而聚类是无导师的，即分类是事先知道类别数和各类的典型特征，而聚类则事先不知道。

以遥感图像分析为例，一般性遥感图像处理是针对一幅图像或一个试验区的多幅图像进行处理和分析，找出某种结论性的东西；而遥感数据挖掘则强调对大量数据的处理、分析和对比，进而找出共性和特性，总结出规律和规则，而这些规律和规则在后续的图像分析中具有指导作用。

e.空间特征规则(spatial characteristic rules)

空间特征规则是指某类或某几类空间目标的几何与属性的普遍特征，是对共性的描述。比如：“高速公路一般都比较直”、“高速公路一般6车道”是两条描述高速公路普遍特征的空间特征规则。普遍的几何知识属于空间特征规则的一类，将它分离出来单独作为一类知识是由于它在遥感影像解译中有十分重要的作用。

f.空间区分规则(spatial discriminate rules)

空间区分规则特征是指两类或多类目标间几何或属性的不同特征，是对个性的描述。“高速公路一般比较直，高等级公路一般稍弯一些”、“高速公路一般6车道，高等级公路一般4车道”是两条描绘高速公路与高等级公路特征差别的区分规则。它不同于空间分类规则；分类规则是对空间目标进行明确分类，强调的是分类精度，为了保持分类精度，一般在较低的层次进行分类；而区分规则是对已知类别对象的对比，一般是比较高层次上的描述。

g.空间演化规则(spatial evolution rules)

空间演化规则是指空间目标的几何、属性特征随时间而变化的规律。这一规律的发现必须基于时空数据库或同一区域的多个时相的数据。

h.面向对象的知识(object oriented knowledge)

它是关于某类复杂对象的子类构成及其普遍特征的知识。比如对于一个小区对象，由住宅楼、服务楼、幼儿园、绿地、健身区等子类对象构成，相互之间的空间穿插和均衡布局等构成该小区的总体特征。

数据挖掘方法分类

根据数据挖掘的任务分，有如下几种：分类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。

根据数据挖掘的对象分，有如下若干种数据源：关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产（legacy）数据库，以及Web数据源。

数据挖掘的任务是从数据中发现模式。模式按功能分为预测型(Predictive)和描述型(Descriptive)，而按实际作用可分为以下6种：

（1）分类模式

分类模式把数据集中的数据项映射到某个给定的类上,如决策树方法、统计方法及粗糙集方法等。

（2）回归模式分类模式的预测值是离散的，回归模式的预测值是连续的。

（3）关联模式

关联模式（Association Model）用于发现事物间的关联规则，或称相关程度。

（4）时间序列模式

时间序列模式根据数据随时间变化的趋势，发现某一时间段内数据的相关处理模型，预测将来可能出现值的分布。

（5）聚类模式

聚类模式对事先并不知道分组及怎样分组，而是按某种原则将数据划分组，要求组之间差别尽可能大，组内差别尽可能小。

（6）序列模式

序列模式与关联模式相仿，差别在于数据间关联性与时间联系起来。即不仅需知道事件是否发生，而且需确定事件发生的时间。