企业数据仓库系统体系结构
数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;
数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data
Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。
OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。
企业数据仓库建设的基本步骤
对企业自身来说,数据仓库的建设是一个系统工程,是一个不断建立、发展、完善的过程,通常需要较长的时间。这就要求各企业对整个系统的建设提出一个全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若干个阶段,以“总体规划、分步实施、步步见效”为原则,不仅可迅速从当前投资中获得收益,而且可以在已有的基础上,结合其他已有的业务系统,逐步构建起完整、健壮的数据仓库系统。
企业数据仓库的建设通常按照快速原型法予以实施,主要包括:确定范围、环境评估、分析、设计、开发、测试和运行等几个阶段。同时企业数据仓库又是一个在原型的基础上进行不断迭代的过程。
1、确定范围
确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定数据覆盖范围。方向性需求包括:决策类型、决策者感兴趣的问题(或对象)等。在确定范围时应该重视的因素是必须用户驱动和数据驱动相结合,同时可以借鉴国内外已有的成功经验。
2、环境评估
环境评估是对企业数据仓库系统建设的硬件环境和软件环境进行选型和准备。
在硬件平台选择中需要选择与数据仓库系统规模相适应的核心服务器,同时我们认为数据仓库系统平台与业务处理平台应该相分离。
软件平台的选择主要包括数据仓库引擎、OLAP引擎、前端分析展现工具的选择。产品进行测试是软件选型的一种有效方法,各个企业可以根据自身的数据状况对各类产品进行测试。
3、分析
分析阶段主要包括两个方面的任务是深入了解数据源和分析数据仓库系统所包含的主题域及其相互之间的关系。分析阶段必须坚持用户参与,并且与原有系统开发或维护人员进行深入的沟通。
4、设计
数据仓库设计的主要任务包括与操作型系统接口的设计和数据仓库本身的设计两个部分的内容。其中与操作型系统接口的设计主要是指数据抽取、清理、转换和刷新策略的设计。从多个不同的数据源中抽取数据,需要解决数据的不一致性,保证数据的质量。其中的不一致性主要包含模式冲突和语义冲突。从操作型数据库模型到数据仓库模型的转变需要大量细致的工作,例如:
-消除纯粹是操作型的数据;
-将包含在多个表中的有关数据进行合理合并;
-适当增加部分导出数据;
-在码值中增加时间关键字;
-按照合适的数据粒度进行综合。
数据仓库本身的设计包括数据仓库逻辑数据模型的设计、数据仓库物理数据模型的设计。由于目前数据仓库产品尚未形成一套统一的标准,因此在数据仓库设计阶段必须要有数据仓库专家和数据仓库系统产品提供商的参与。
5、开发
开发阶段所要完成的主要内容包括数据仓库建模、数据抽取和加载模块、数据访问模块以及开发实际应用撛蛿。实际应用开发建议采用撌缘銛的方法,从急需的业务开始进行,应该重视的因素包括必须有行业专家的参与,同时必须有数据仓库专家的参与。
6、测试
测试是保证系统可靠性的重要手段。数据仓库测试与一般软件系统测试不同的是数据仓库的测试不仅包括对软件系统的测试,同时包括对数据的测试。在测试阶段必须保证测试的充分性,同时注意测试数据的覆盖范围。
7、运行
系统运行主要包括用户培训、数据加载、数据访问及应用等。在数据仓库系统的运行过程中,不断收集用户新的需求。
数据仓库系统的建设不可能一蹴而就,它是一个不断建立、完善、健全的过程。这个过程是随着业务量、业务范围和客户的不断发展而发展的,其成长的速度非常之快,同时随着业务的发展,数据仓库的价值也将随之增长.