数据挖掘与应用系列
 

2010-01-04 作者:陈兵 来源:陈兵的blog

 

统计预测

预测就是根据过去和现在估计未来,预测未来。统计预测属于预测方法研究范畴,即如何利用科学的统计方法对事物的未来发展进行定量推测,并计算概率置信区间。

作为探索客观事物未来发展的趋势或状态的预测活动,决不是一种“未卜先知”的唯心主义,也不是随心所欲的臆断。而是人类“鉴往知来”智慧的表现,是科学实践活动的构成部分。预测之所以是一种科学活动,是由预测前提的科学性、预测方法的科学性和预测结果的科学性决定的。预测前提的科学性包括三层含义:一是预测必须以客观事实为依据,即以反映这些事实的历史与现实的资料和数据为依据进行推断;二是作为预测依据的事实资料与数据,还必须通过抽象上升到规律性的认识,并以这种规律性的认识作为预测的指导;三是预测必须以正确反映客观规律的某些成熟的科学理论作指导。预测方法的科学性包含两层含义:一是各种预测方法是在预测实践经验基础上总结出来,并获得理论证明与实践检验的科学方法,包括预测对象所处学科领域的方法以及数学的、统计学的方法;二是预测方法的应用不是随意的,它必须依据预测对象的特点合理选择和正确运用。预测结果的科学性包含两层含义:一是预测结果是由已认识的客观对象发展的规律性和事实资料为依据,采用定性与定量相结合的科学方法做出的科学推断,并用科学的方式加以表述;二是预测结果在允许的误差范围内可以验证预测对象已经发生的事实,同时在条件不变的情况下,预测结果能够经受实践的检验。

统计预测方法是一种具有通用性的方法,统计预测的三个要素是:

  • 实际资料是预测的依据;
  • 经济理论是预测的基础;
  • 数学模型是预测的手段。

进行预测时,没有一种预测方法会绝对有效。对一个组织在一种环境下是最好的预测方法,对另一组织或甚至本组织内另一部门却可能完全不适用。无论使用何种方法进行预测,预测的作用也是有限的,并不是完美无缺。但是,几乎没有一个组织可以不进行预测而只是等到事情发生时再采取行动,例如,一个好的短期或长期的经营规划取决于对公司产品需求的预测。

1. 统计预测、经济预测的联系和区别

统计预测、经济预测两者的主要联系是:

  • 它们都以经济现象的数值作为其研究的对象;
  • 它们都直接或间接地为宏观和微观的市场预测、管理决策、制定政策和检查政策等提供信息;
  • 统计预测为经济定量预测提供所需的统计方法论。

统计预测、经济预测两者的主要区别是:

  • 从研究的角度看,统计预测和经济预测都以经济现象的数值作为其研究对象,但着眼点不同。前者属于方法论研究,其研究的结果表现为预测方法的完善程度;后者则是对实际经济现象进行预测,是一种实质性预测,其结果表现为对某种经济现象的未来发展做出判断。
  • 从研究的领域来看,经济预测是研究经济领域中的问题,而统计预测则被广泛地应用于人类活动的各个领域。

统计预测的作用主要是:在市场经济条件下,预测的作用是通过各个企业或行业内部的行动计划和决策来实现的,统计预测作用的大小取决于预测结果所产生的效益的多少。影响预测作用大小的因素主要有:①预测费用的高低;②预测方法的难易程度;③预测结果的精确程度

2. 预测方法的分类

统计预测方法可归纳分为定性预测方法和定量预测方法两类,其中定量预测法又可大致分为回归预测法和时间序列预测法。参见下图。

(1)定性预测方法

定性预测是指依靠人的观察分析能力,借助于经验和判断能力进行预测的方法。

(2)定量预测方法

定量预测主要依靠历史统计数据,在定性分析的基础上,运用数学方法构造数学模型进行预测的方法。

按预测时间长短分为近期预测、短期预测、中期预测和长期预测;:

(1)短期预测。短期预测时间跨度最多为1年,而通常少于3个月。它用于购货、工作安排、所需员工、工作指定和生产水平的计划工作。

(2)中期预测。中期预测的时间跨度通常是从3个月到3年。它用于销售计划、生产计划和预算、现金预算和分析不同作业方案。

(3)长期预测。长期预测的时间跨度通常为3年及3年以上。它用于规划新产品、资本支出,及研究与发展。

中期预测和长期预测与短期预测的区别主要体现在以下三个方面:

(!)中长期预测要处理更多的综合性问题并主要为产品、工厂、工序的管理决策提供支持;

(2)短期预测采用的方法通常与长期预测采用的方法不同。如移动平均法、指数平滑法和趋势外推法等为短期预测所常用的方法。更概括性、更少量化的方法用于确定诸如是否将一种新产品投产,如激光唱片等;

(3)短期预测往往比长期预测更精确些。影响需求的因素每天都在发生变化,因此当时间跨度延长时,预测精确度往往随之下降。

按预测是否重复分为一次性预测和反复预测。

3. 预测方法的选择

选择统计预测方法时,主要考虑下列三个问题

  • 合适性
  • 费用
  • 精确性

4. 预测的原则

在统计预测中的定量预测要使用模型外推法,使用这种方法有以下两条重要的原则:

  • 连贯原则,是指事物的发展是按一定规律进行的,在其发展过程中,这种规律贯彻始终,不应受到破坏,它的未来发展与其过去和现在的发展没有什么根本的不同。
  • 类推原则,是指事物必须有某种结构,其升降起伏变动不是杂乱无章的,而是有章可循的。事物变动的这种结构性可用数学 方法加以模拟,根据所测定的模型,类比现在,预测未来。

5.预测的步骤

无论采用何种预测方法,进行预测时都必须遵循下面的几个步骤:

1.确定预测的用途。这一步要确定我们进行预测所要达到什么样的的目标。

2.选择预测对象。这一步要确定我们需要对什么对象进行预测。例如,生产预测中通常需要对公司产品的市场需求进行预测从而为公司指定生产作业计划提供资料。

3.决定预测的时间跨度。这一步要确定所进行的预测的时间跨度是短期、中期、还是长期?

4.选择预测模型。这一步要根据索要预测的对象的特点和预测的性质选择一种合适的预测模型来进行下一步的预测。

5.收集预测所需的数据。收集预测所需数据时,一定要保证这些数据资料的准确性和可靠性。

6.验证预测模型。这一步是要确定我们选择的预测模型对于我们要进行的预测是否有效。

7.做出预测。这一步里,我们要根据前面收集的相关的数据资料和确定的预测模型对我们需要预测的对象做出合理的预测。

8.将预测结果付诸实际应用。按照前面几步,我们已经对所需要预测的对象做出了预测,这一步,我们就需要将得到的预测结果应用到实际中去,从而达到我们进行预测的目标。比如说,生产预测中,我们对未来市场对本企业产品的需求量进行了预测之后,就需要根据这些预测来确定本企业的生产计划和排程。

上面这些步骤系统总结了开始、设计和应用一项预测的各环节。如果是定期做预测,数据则应定期收集。实际运算则可由计算机进行。

6. 一些重要的预测技术的发展历史

  • 指数法 1878 “连续指数”对经济前景预测
  • 统计图示法 1888 彩色条形图,市场、行情报告
  • 时间序列预测法 1915 剔除长期趋势,求得循环变动指数
  • 领先指标法 1937 经时序分析,把经济指标分为领先指标、同步指标、滞后指标等
  • 专家判断法 40年代 美国兰德公司 Delph法
  • 经济计量模型法 1939
  • 博克思-詹金斯法 1970
  • 组合预测法 1979
  • 灰色系统预测法 1982
  • 神经网络技术预测法 1987

相关与回归分析

相关与回归(Correlation and Regression)是处理变量数据之间相关关系的一种统计方法。通过相关分析,可以判断两个或两个以上的变量之间是否存在相关关系、相关关系的方向、形态及相关关系的密切程度;回归分析是对具有相关关系现象间数量变化的规律性进行测定,确立一个回归方程式,即经验公式,并对所建立的回归方程式的有效性进行分析、判断,以便进一步进行估计和预测。现在,相关与回归分析已经广泛应用到企业管理、经济和商业决策、金融分析以及自然科学和社会科学等许多研究领域。

第一部分 相关分析

一、相关分析的概念、种类

(一)相关分析的概念

现实世界中的各种现象之间相互联系、相互制约、相互依存,某些现象发生变化时,另一现象也随之发生变化。如商品价格的变化会刺激或抑制商品销售量的变化;劳动力素质的高低会影响企业的效益;直接材料、直接人工的价格变化对产品销售成本有直接的影响,居民收入的高低会影响对该企业产品的需求量等等。研究这些现象之间的依存关系,找出它们之间的变化规律,是对经搜集、整理过的统计数据进行数据分析,为客观、科学地统计提供依据。

现象间的依存关系大致可以分成两种类型: 一类是函数关系,另一类是相关关系。

1.函数关系。函数是指现象之间是一种严格的确定性的依存关系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定的值与之相对应。例如,银行的1年期存款利率为年息1.98%,存入的本金用x表示,到期本息用y表示,则y=x+1.98%x(不考虑利息税);再如,某种股票的成交额Y与该股票的成交量X、成交价格P之间的关系可以用Y=PX来表示,这都是函数关系。

2.相关关系。相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。例如成本的高低与利润的多少有密切关系,但某一确定的成本与相对应的利润却是不确定的。这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜好等因素以及其他偶然因素的影响;再如,生育率与人均GDP的关系也属于典型的相关关系:人均GDP高的国家,生育率往往较低,但二者没有惟一确定的关系,这是因为除了经济因素外,生育水平还受教育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素的共同影响。

具有相关关系的某些现象可表现为因果关系,即某一或若干现象的变化是引起另一现象变化的原因,它是可以控制、给定的值,将其称为自变量;另一个现象的变化是自变量变化的结果,它是不确定的值,将其称为因变量。如资金投入与产值之间,前者为自变量,后者为因变量。但具有相关关系的现象并不都表现为因果关系,如生产费用和生产量、商品的供求与价格等。这是由于相关关系比因果关系包括的范围更广泛。

相关关系和函数关系既有区别,又有联系。有些函数关系往往因为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常通过相关关系表现出来;而在研究相关关系时,其数量间的规律性了解得越深刻的时候,则相关关系越有可能转化为函数关系或借助函数关系来表现。

(二)相关关系类型

现象之间的相关关系从不同的角度可以区分为不同类型。

1. 按照相关关系涉及变量(或因素)的多少分为

单相关——又称一元相关,是指两个变量之间的相关关系,如广告费支出与产品销售量之间的相关关系;

复相关——又称多元相关,是指三个或三个以上变量之间的相关关系,如商品销售额与居民收入、商品价格之间的相关关系。

偏相关——在一个变量与两个或两个以上的变量相关的条件下,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。例如,在假定商品价格不变的条件下,该商品的需求量与消费者收入水平的相关关系即为偏相关。

2. 按照相关形式不同分为

线性相关——又称直线相关,是指当一个变量变动时,另一变量随之发生大致均等的变动,从图形上看,其观察点的分布近似地表现为一条直线;例如,人均消费水平与人均收入水平通常呈线性关系。

非线性相关——一个变量变动时,另一变量也随之发生变动,但这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一条曲线,如抛物线、指数曲线等,因此也称曲线相关。例如,工人加班加点在一定数量界限内,产量增加,但一旦超过一定限度,产量反而可能下降,这就是一种非线性关系。

3. 按照相关现象变化的方向不同分为

正相关——当一个变量的值增加或减少,另一个变量的值也随之增加或减少。如工人劳动生产率提高,产品产量也随之增加;居民的消费水平随个人所支配收入的增加而增加。

负相关——当一个变量的值增加或减少时,另一变量的值反而减少或增加。如商品流转额越大,商品流通费用越低;利润随单位成本的降低而增加。

4.按相关程度分为

完全相关——当一个变量的数量完全由另一个变量的数量变化所确定时,二者之间即为完全相关。例如,在价格不变的条件下,销售额与销售量之间的正比例函数关系即为完全相关,此时相关关系便成为函数关系,因此也可以说函数关系是相关关系的一个特例。

不相关——又称零相关,当变量之间彼此互不影响,其数量变化各自独立时,则变量之间为不相关。例如,股票价格的高低与气温的高低一般情况下是不相关的。

不完全相关——如果两个变量的关系介于完全相关和不相关之间,称为不完全相关。由于完全相关和不相关的数量关系是确定的或相互独立的,因此统计学中相关分析的主要研究对象是不完全相关。

二、相关关系的测定

要判别现象之间有无相关关系,一是定性分析,二是定量分析。

(一)定性分析

定性分析是依据研究者的理论知识、专业知识和实践经验,对客观现象之间是否存在相关关系,以及有何种相关关系做出判断。并可在定性认识的基础上,编制相关表、绘制相关图,以便直观地判断现象之间相关的方向、形态及大致的密切程度。

1.相关表

相关表是一种统计表。它是直接根据现象之间的原始资料,将一变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对应排列形成的统计表。
完整内容见附件

附件: 数据挖掘与应用系列 (3)相关与回归分析.rar (265 K)

火龙果软件/UML软件工程组织致力于提高您的软件工程实践能力,我们不断地吸取业界的宝贵经验,向您提供经过数百家企业验证的有效的工程技术实践经验,同时关注最新的理论进展,帮助您“领跑您所在行业的软件世界”。

资源网站: UML软件工程组织