「内容提要」在深入剖析数据挖掘技术及其目标、职能分工,并对主流数据挖掘技术进行透彻研究的基础上,从系统构架、系统特点、业务需求、系统功能和应用效果五个方面,对我省国税系统目前应用的税务征管辅助系统进行细致解读。
关键词:数据库 中间件 数据挖掘 数据分析 系统架构
随着数据库、中间件、高级技术语言和网络安全等技术的迅速发展,人们积累的信息数据越来越多,我们已经被淹没在数据和信息的汪洋大海中。税务干部需要以更新、更便捷、更有效的方法,对大量的征管数据进行分析、提取、挖掘其隐藏信息数据中的潜能,这是一门新兴的交叉学科。这门学科旨在帮助税务干部从海量数据中发现有价值的信息,降低运营成本、提供差异化的纳税服务,提供纳税行为,识别纳税特征,辅助税务干部进行行之有效的管理、服务。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为智能地把海量的数据转化为有用的信息和知识提供了新的思路、新的方法和新的手段。
一、数据挖掘技术概述及其技术分类
数据挖掘(Data Mining)是一种知识发现的过程,它主要基于统计学、人工智能、机器学习等技术,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,并对未来情况进行分析、预测,以辅助管理者、决策者评估风险、做出正确的决策。同时,数据挖掘也包含了一系列旨在从数据集中发现有用而尚未发现的模式(Pattern)的技术。确切地说,从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势,是一种更深层次的数据分析。
数据是形成知识的源泉,原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制,还可以用于数据自身的应用维护。因此,数据挖掘技术是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识、提供管理和决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术和并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
在实际应用中,数据挖掘主要采用关联规则与时间序列、分类与聚类、Web页挖掘等几种分析中进行发现:
(一)关联规则与时间序列分析
关联规则挖掘就是发现大量数据中项集之间有趣的关联或相关联系。根据所处理值的类型分为布尔关联规则与量化关联规则;根据涉及的属性维数分为单维关联规则或多维关联规则。这方面比较有影响的算法有Apriori算法等。时间序列分析与关联规则分析类似,目的也是为了挖掘出数据之间的联系,但时间序列分析更加侧重于数据在时间先后上的因果关系。
(二)分类与聚类分析
分类在数据挖掘中是一项非常重要的任务。分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个中去。分类分析首先为每一个观测赋予一个标记,然后检查这些被标记的观测,描述出这些观测的特征。这种描述可以是一个数学公式或者模型,利用它可以分类新的观测。常用的几种典型的分类模型有线性回归模型、决策树模型、基于规则模型和神经网络模型等。聚类分析是把一组未标定的记录或个体按照相似性归成若干类型,即"物以类聚".它的目的是根据一定的规则,使同一类别之内的相似性尽可能大,而类别之间的相似性尽可能小,合理地划分记录集合。知识外化过程的下一层次包含了更为强大的搜索工具和文件管理系统,它们对贮存的知识进行分类,并能识别出各信息源之间的相似之处。基于此,可用聚类的方法找出知识库中各知识结构间隐含的关系或联系。
(三)Web 页挖掘分析
随着Internet的迅速发展,使得网络上的信息量无比丰富,通过对Web
的挖掘,可以利用其上的海量数据进行分析,根据分析结果找出企业管理过程中出现的各种问题,对这些信息进行分析和处理,以便识别、分析、获取、存储、传递信息,并将其转化为知识。
二、税收数据挖掘两类技术
数据挖掘技术大致分为两类技术,即描述性数据挖掘和预测性数据挖掘两类。描述性数据挖掘以概要方式描述数据,提供数据的一般性质,即导出概括数据中潜在联系的模式。预测性数据挖掘建立一个或一组模型,产生关于数据的预测,即根据其他属性的值,预测特定属性的值。
以税收数据挖掘应用角度,阐述一下广义型知识的挖掘方法。第一步是概念描述。在广东省征管辅助系统中,利用了概念描述的方法对全省行业税负进行了分析,为联机数据挖掘提供了可操作的平台。第二步是关联分析:关联性知识挖掘通过测算关联事务的支持度与自信度发现事务发生频繁项集,找出纳税人办理涉税事项之间的序列关联与时间关联;同时,将关联知识用于税源管理中,可以分析企业零负申报与相关因素的关联度,解释困扰税务机关已久的难题。第三步是偏差检测:数据库中的数据常有一些异常记录,这些异常数据的成因可能是来源于不同的类,或者自然变异、收集误差等。偏差检测更多关注的是一个数据对象来源于不同的类,如税收欺骗检测就是通过建立税收数据模型,挖掘出非正常纳税的纳税人信息。
三、税收数据挖掘四大目标
根据税收数据挖掘的定位,其主要目标是:评价纳税行为,监控执法过程,用数据描述现状、预测趋势,为决策服务,为管理服务,为基层服务。具体包括以下四点。
(一)评价纳税行为
借助信息化手段,从各税种计税源来出发,依据审计学、财务分析、统计学等原理,设计和筛选涉税指标,运用财务扥系、数据分析等方法;根据当地经济发展情况,产业结构、行业特点、纳税人的生产经营规模、财务核算情况等信息资料,制定纳税评估指标及其预警参数,合理确定纳税评估对象,建立和完善广东国税纳税评估预警系统,按照评估分析、约谈辅导、调查核实、评定处理等程序,对纳税人纳税申报的真实性和准确性进行全面系统评估,做到有的放矢,有效管理。
(二)监控执法过程
随着征管数据的省级集中,有了对征管流程进行监控的数据基础。进一步解放思想,落实科学化、精细化、专业化管理要求的最终落脚点,通过一系列合法的手段和方法对税源进行全方位的信息跟踪和纳税控制,分析和预测税源发展变化的趋势,加强税源征管,有效地防止税款的流失的一系列税收管理活动;通过梳理与整合,运用挖掘技术建立执法行为监控体系,监控税务部门的执法行为,监督管理流程,对税收执法疑点,做到事前、事中和事后的监控,规范执法行为。
(三)提供决策支持
数据挖掘技术不仅可发现税收管理中的瑕疵,同时也为领导决策提供智能支持:通过数据的分类处理与分析,可全面分析宏观税负、行业税负等指标,了解税收收入总量增减的变化,科学判断税收收入增减的原因;通过数据概貌分析,可以得到一个地区税收增减的总体状况等等。
(四)优化纳税服务
结合当前开展的"三服务一促进"活动,不断创新纳税服务手段,优化服务方式,拓宽服务内容,提高服务质量。运用现代数据挖掘手段,展开纳税服务数据的关联性分析,了解纳税人涉税事项的发生频率以及涉税事项之间的关联程度,为办税服务厅的窗口设置、办税流程的设定提供数据支持,从而科学安排服务流程,提高服务水平。
四、税收数据挖掘四项职能分工
税务部门目前的机构设置具有职能导向型、综合管理与专业管理相交叉的特点,目前还没有明确相应的数据挖掘机构,数据挖掘工作存在多管齐下、职能交叉的混乱局面。而数据挖掘又是一项系统工程,需要多部门之间有机协调配合。因此,要明确相应机构的职能,
规范工作流程,落实不同专长的人员分步实施。实践证明,在税务机关内部实施数据挖掘不仅需要技术与业务相结合,更需要建立数据挖掘的管理机制来进行具体的项目操作与协调。
数据挖掘要求高,难度大,既需要理论知识修养,也需要实践经验,从事数据挖掘的人通常都需要岗前培训,成立专门的数据挖掘机构难以短时间发挥功能。我们根据省级税务机构设置与职能划分的现状,本着因地制宜的原则设计了一套数据挖掘职能分工的办法。
(一)进行业务分析
业务分析的好坏直接影响着数据挖掘的整体成效,该职能由流转税、所得税、进出口税收、国际税收部门与征管部门负责,他们将根据各业务对象提出用于数据定义和挖掘算法的业务需求。
(二)数据分析
数据的分析工作由税收统计部门与数据处理部门联合负责,该职能要求精通数据分析技术,并对数学工具有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的数据技术。
(三)数据管理
信息中心负责数据的抽取和整理,该职能部门精通数据管理技术,熟悉数据预处理技术,能够建立数据仓库,并能根据要求从数据库或数据仓库中抽取数据以及对数据进行清洗与转换。
(四)综合协调
数据处理部门负责数据挖掘项目的统筹管理,编排项目时间表、制作挖掘任务书,协调各税收部门间的事务,组织数据挖掘成果的应用。
五、基于模糊聚类分析的税务征管辅助系统的研究
为了全面贯彻国家总局征管会议精神和进一步减轻税务人员、纳税人办税负担,把"两个减负"落到实处;为了适应税收工作方式转变,实现税收征管的科学化、精细化;为了提高税收征管质量与效率。在税收征管省级集中,大量的数据存储在数据库中,如何在海量数据中提取出有用的信息供管理、决策机构作为参考,得用数据挖掘技术实现的"以我为主,博采众长,自主开发,集中运行"和"一体化"建设思路开发税收征管辅助系统。
税务征管辅助系统是指在一定的管理服务、经济理论指导下,根据制度、管理、经济和税收统计资料,在定性分析基础上,运用定量方法,对税源管理、纳税人监控、数据质量监控等发展趋势所做出的分析、判断和推测。
(一)先进、科学、可靠、实用的系统架构
税务征管辅助系统将oracle、sqlserver等数据仓库技术、ORACLE透明网关技术和物化试图技术、J2EE高级语言的B/S/S(浏览器/应用服务器/数据库服务器)3层体系架构进行开发和商业智能工具展现技术相结合,整体架构包括数据源、数据交换平台、数据中心平台、数据展现平台四个部分,达到先进、科学、可靠、实用。
1、数据源主要是目前税务系统中已经建设的需要进行整合与共享的各类业务系统。例如ctais数据、防伪税控数据、出口退税数据、征管辅助数据等整合。
2、数据交换平台核心是oracle应用集成透明网关和物化试图技术。可以使任何一点的业务数据,在政策允许的情况下,能快速的集成到省级数据中心,并能逐级进行信息集成和汇集。另外,根据需求,通过数据交换平台可以为内外网提供动态的信息发布内容。
3、数据中心平台分别由操作数据存贮(ODS)、数据仓库(和数据集市)、OLAP服务和J2EE应用服务器组成。通过应用适配器,按照业务需求订阅,并进行信息集成和存贮到ODS中;ODS中的数据最终会按照时间和主题批次装载到数据仓库,日常查询不需要涉及的数据就直接集成和存贮到数据仓库中;数据仓库可能有小部分数据要回流到ODS中。
4、展示平台由J2EE语言中Struts、报表服务器以及展示工具组成。利用数据展示Struts目前主要使用JSP(java
Sever Page)技术,传统的编程模式为JSP model1,实现各类税收业务主题数据的多角度、深层次展现。同时结合税收管理业务需要,提供纳税人监控、税务事项监控、税源管理、数据质量等各个业务层面的数据挖掘和深度分析能力,为税收管理者提供支持。(如图表1所示)
(二)系统特点
1、科学性。
(1)实现税务信息数据整合,通过基于oracle应用集成透明网关和物化视图技术构建的数据交换平台实现了4个税务应用系统的信息集成,将分散的各类涉税数据经过清理、整合、汇总后集中起来,为各级数据处理分析人员提供一个便捷、高效的统一数据平台。
(2)、全方位的税源监控。一方面可以灵活设置计算关系、比较值、处理等对纳税人监控;另一方面通过系统逻辑性的数据错误对数据质量监控。
(3)、先进、优质、量化的质效考评。
(4)、落实"两个减负",提高纳税服务。
2、实用性。
(1)、税务信息应用整合系统建设的数据仓库以主题形式存贮来自各业务系统的数据以及关联数据,建立符合数据分析要求的分析模型,建立自动数据处理机制,为管理、决策分析提供完整、统一、准确的数据来源。通过OLAP服务器实现多维分析、复杂数理统计和数据挖掘、为税务管理人员提供有效的支持,并对全省税务信息进行监控。
(2)、具有任务的过程和质量进行全过程的任务管理。
(3)、具有全方位的税源监控、自动取数生成报表、自主评估等便捷的综合查询。
(4)、具有高效的辅助工具查询如政策法规查询,加强对税务信息的纳税评估分析和监控能力。
3、 灵活性。
(1)灵活的疑点筛选机制。
(2)、灵活的数据采集。
(3)、个性定制桌面助手。
4、先进性。
(1)、采用标准和开放的架构。采用成熟的行业标准和先进的技术架构,大大降低了技术风险和对特定开发商的依赖;采用开放系统架构,有利于增强系统的向后兼容性、可集成性和扩展性。
(2)、采用面向对象的技术。采用基于面向对象技术的开发语言和应用框架,提高了征管核心软件的开发效率,增强了架构的合理性和扩展性。
(3)、采用多为分层的架构。采用RUP(rationalunified process,统一软件开发过程)系统开发指导方法,以业务架构为核心,以清晰的层次关系为主,兼顾层间互动为辅,按照业务战略-业务架构-应用架构-技术架构-基础设施架构进行总体架构设计,形成多维架构模型。如业务架构层次所示,按照组织结构分为决策层、管理层、操作层和数据采用层;按照税收管理业务特点,分为交易型业务和分析型业务。通过分成,系统耦合性大大减少,系统件的依赖性减少,更易于建设、维护和升级。
(4)、采用基于组件的技术。系统由独立的组件构成,组件的开发和部署保持相对的独立性,业务发生变化仅需对有关组件进行升级,使软件可以自爱不提高系统之间进行共享,从而提高了开发效率,却百了同一业务处理的唯一性。
(三)业务需求
税务征管辅助系统包括系统管理、综合查询、桌面助手、纳税人监控、数据质量监控、纳税评估、税收管理监控、质效考评、报表管理、台帐管理、实地调查、数据采集、工作指引检索、协同事务、待办事宜等功能。
1、综合查询:应用者主要为部门业务主办人员或部门主管人员,用于查询本环节及相关环节的一般性业务数据信息。
2、报表管理:应用者主要为各职能工作部门的特定人员,用于定义或产出本部门所需的统计报表、进行业务数据的横向/纵向综合分析、对税务机关/部门的各项工作指标进行考核、对重点业务进行监控及时发现并处理各类"告警"信息。
3、桌面助手:主要为税收管理员管户的所有数据信息下载到各自的客户端,并通过该工具浏览管户的涉税信息、灵活地组织查询,进行过滤、排序、分组求和等数据加工处理,并在此基础上做到对管户的监控、简单的税收分析和预评估。
4、质量考评:主要依据执法规范、征收率高、成本降低、社会满意征管质效四大标准,考核范围覆盖征管工作各环节,刚性的执法规范考核指标结果性的评价指标,从业务部门直接系统取数,系统自动按税务机关(省、市、区、分局)取数,计算得分。
(四)系统功能
税收征管辅助系统提供查询、统计、监控、分析、评估、数据分发管理、安全管理等功能。以查询、分析、报表一体、三者不断循环深入为手段,提供多角度的税收数据查询、分析、预警、预测功能。(如图表2所示。)
它具有以下特点:
1、智能友好的界面。软件遵循同一的界面设计原则,界面风格一致颜色调和、提示清晰、窗口大小适当,拥有常用的快捷操作键,气操作方法符合日常习惯,展现一个简明、灵活、易用、友好的操作界面。
2、对象化平台。按照应用对象划分不同的功能平台,力求各应用对象在同一个平台上皆可办理自己所有的业务。各业物功能平台又依据操作人员所处的层次展示不同的菜单内容。整个软件依据操作的业务平台和所处的层次,为不同的操作人员定制各具特色的菜单。
3、功能化菜单。系统菜单按照所处理的具体税收征管业务功能划分,一目了然。针对不同类型的用户设计集成的用户界面,保证用户能够方便快捷的使用自己需要的常用功能。
4、向导式操作。采用向导式的操作方式,使用户操作界面简明、实用、易于学习和掌握。针对同一操作人员,需要按流程顺序进行操作,大量采用"下一步"的向导式操作方法,是操作人员无需记忆大量的方法,使操作人员无需记忆大量的功能菜单。对于做到一般的工作,无需记忆具体细节,竟如相关页面自定提示,可以从上次停止的部分继续开始工作。
5、层次分明的操作菜单,直观、可视化的信息展示,简洁智能友好的交互界面,是整个软件操作具有良好的人机交互性。
6、独特的数据分发方式:数据来源采用与"数据集中"逆向的模式,管户数据通过省局→地市局→税管员的途径,数据全部分发到税管员桌面系统。(如图表3所示。)
图表3 数据分发示意图
(五)应用效果显著,取得显著经济效益。
广东省国家税务局根据对于税收管理员制度和税务行业的理解,结合大量的用户调查,规划和构造了一套稳定的、高效的、高可扩展性的、高可集成性的、开放的、安全的平台,该平台构造在代表当今世界最新技术发展的三层SSH架构J2EE平台,构造了核心税务业务组件。从2008年开始在广东全省范围内全面应用,在实际工作中把数据分析应用与税收管理实践有机结合起来,探索出以信息化推进税收管理科学化精细化的新路子,在加强税收管理、深化数据处理分析、辅助领导决策等方面发挥了重要作用,具体表现在以下几方面:
1、统一的税收征管辅助系统平台,对各类税务数据信息汇总、加工、整理,对分散的数据资源进行集成、整合和统一管理,为税务系统的决策层及业务人员提供信息资源的完整视图。
2、建立基于省级单位的统一的税收数据仓库,深层次、多角度地挖掘,并结合税收管理业务需要,强化税负、发票数据、申报数据等方面的数据分析,带动税源管理科学化精细化发展。
3、加强数据质量检测,规范税收业务管理,提高税务人员信息化应用水平。
4、充分利用原有软硬件资源、信息基础设施,可以有效保护投资。
5、良好的可扩展性、升级能力,在方便纳入各类新建应用系统和新增数据同时还可基于平台方便的构建新的应用模块或数据分析主题。
现阶段,利用数据挖掘技术对税收收入进行预测已经成为必然的趋势,在税收分析过程中充分利用数据挖掘技术,合理划分不同的纳税人群,这样不但可以促进税收分析工作水平的提高,也可以给管理者提供管理、决策依据,从而带动税收工作整体水平的提升。
参考文献:
1.《构件面向CRM的数据挖掘应用》/(美)贝尔森,(美)史密斯,(美)西瑞林著;贺奇等译。人民邮电出版社,2001.8
2.《数据挖掘概念与技术》,机械工业出版社,2001.8
3.[AGGR98]R.Agrawal,J.Gehrke,D.Gunopulos,and
P.Raghavan.Automatic subspace clustering of high dimensional
data mining applications.In Proc.1998 ACM-SIGMOD Int.Conf.Management
of Data(SIGMOD`98),Pages94-105.Seattle,WA,June 1998.
|