编辑推荐: |
本篇文章将为大家更加详细地介绍数据挖掘的应用方向、如何建模等相关内容,希望对您的学习有所帮助。
本文来自知乎,由火龙果软件Linda编辑、推荐。 |
|
为什么需要数据挖掘
对于数据挖掘,很多人会认为它和数据分析是一回事。
其实从广义上讲,两者都互有交集,在技术和范畴上有很相似的地方,只不过,数据分析重在“分析”,而数据挖掘则更重“挖掘”。
简单地说,数据挖掘就是指从大量数据中提取或“挖掘”知识,也叫做数据中的知识发现。
可以看出,数据挖掘是一个过程结果的称谓,即主要目标是从数据中挖取隐藏的信息。它是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。
有需求的地方就会产生新的发明,每一项新技术的诞生都可以说是顺应时代的发展产物。数据挖掘也是信息技术自然演化的结果。
从20世纪60年代开始,人们就开始有了数据收集和数据库创建的意识,随后的70年代逐渐建立起了数据库管理系统,80年代到现在则逐渐演化出了高级数据分析和web数据库。
每个人都是数据的使用者和产生者,在日常的生活工作中为互联网行业提供了体系庞大的数据,这些数据被收集、存放在大型数据存储库中。随着大数据时代的到来,人们逐渐意识到了沉睡的数据中可能隐藏着巨大的价值。
数据挖掘技术的出现,为提取数据价值带来了一丝契机。数据挖掘的目的就是从数据中“淘金”,即从数据中获取智能的过程,它提供了从数据到价值的解决方案,从海量数据中提取出有价值的信息,从而作为决策的重要依据。
数据挖掘的系统架构
图:数据挖掘系统结构图,来源于网络
原则上讲,数据挖掘可以应用于任何类型的信息存储库及瞬态数据,如数据库、数据仓库、数据集市、事务数据库、空间数据库、工程设计数据、多媒体数据、网络、数据流、时间序列数据库等。
数据挖掘的应用方向
在上一篇数据挖掘的介绍文章中,企通查有提到过数据挖掘在企业危机管理中的应用。
其实对于常见的商业运营问题,基本都可以转化为四类大数据挖掘问题:分类、聚类、关联和预测。
分类分析:有监督学习,将数据映射到事先定义的群组或类。典型应用案例:将信用卡使用人群分为低中高风险群。
聚类分析:无指导学习,在没有给定划分类的情况下,根据信息相似度进行信息聚类。典型应用案例:对客户行为分析,对客户分层进行精准营销。
关联分析:发现事物间的关联规则或称相关程度,常用在交叉销售,交叉分析,典型应用案例:著名的啤酒与尿布故事。
预测分析:用属性的历史数据预测未来趋势,典型应用案例:预测哪些用户在未来半年会流失等。
除此之外,还可转化为回归分析、偏差分析等问题。
回归分析:已知的数据预测未来的值,回归不强调数据间的先后顺序。
偏差分析:用来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意诈骗行为还是正常的变化。常用在防欺诈及保险领域。
虽然数据发掘在以上这些应用涉及的技术和工具各不相同,却可以依据统一的方法论来实行协同作战,解决许多让人头痛不已的商业问题。
数据挖掘建模的一般过程
正所谓磨刀不误砍柴工,在数据挖掘正式开始前,我们需要对被挖掘的数据如何选择进行思考,可包括但不限于以下内容:
哪些数据源可用?
哪些数据与当前挖掘目标相关?
如何保证取样数据的质量?
是否在足够范围内有代表性?
数据样本取多少合适?
如何分类(训练集、验证集、测试集)?
图:数据挖掘建模的一般过程,来源于网络
1. 数据准备
选择数据的标准,一是相关性,二是可靠性,三是时效性,要选择具代表性、有特征的数据,而不是动用全部企业数据。
通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使想要反映的规律性更加突显出来。
2. 模式分析
模型构建的前提是在样本数据集中发现模式,在样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则或者时序模式),选用哪种算法进行模型构建?
在目标进一步明确化的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,看其是否适应挖掘目标的需要。
3. 模型构建
确定了本次建模所属的数据挖掘应用问题后,还需考虑具体应该采用什么算法,实施步骤是什么?
这一步可谓是数据挖掘工作的核心环节,模型构建是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。
预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用会有细微的变化。
4. 模型评价
模型效果评价通常分两步:
第一步,直接使用原来建立模型的样本数据来进行检验。
第二步,另找一批反映客观实际的、规律性的数据。
假如进行模型评价时第一步都通不过,那么所建立的决策支持信息价值就不太大了。
一般来说,模型评价在第一步应得到较好的反馈,从而说明我们确实从这批数据样本中挖掘出了符合实际的规律性。
数据+工具+方法+目标+行动=价值。
企通查—企业风控平台基于数据采集、特征提取、信息关联、机器学习和深度学习算法模型、NLP文本分析等先进技术,清晰构建企业全维度动态画像,通过企业风控指数、企业信用指数、企业活力指数三大指数模型体系和基于企业基本能力、创新能力、经营能力、核心能力、财务能力和风险能力六大方面的大数据风控体系,实现对企业供应商和客户的全流程主动感知、重点监控、变动提醒和风险预警。
|