3986.net
小网站 大容量 大智慧
当前位置:首页 >> 数学 >>

1.1回归分析的基本思想及其初步应用(1,2,3)--上课用


高二数学 选修1-2

1.1回归分析的基本思想及其初步应用(一)
——回归直线方程

一.回顾复习
正相关(增)

确定性关系——函数关系

线性相关 负相关(减) 非线性相关

1、两个变量的关系
不确定性关系

相关关系

2、相关关系的定义:

不相关关系

对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的
两个变量之间的关系叫做相关关系。 注:1)对具有相关关系的两个变量进行统计分析的方法叫回归分析。 2)函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般的情况
如:人的身高与年龄;产品的成本与生产数量 商品的销售额与广告费;家庭的支出与收入。等等

一.回顾复习
问题1:正方形的面积y与正方形的边长x之间 确定性关系 的函数关系是 y = x2 问题2:某水田水稻产量y与施肥量x之间是否有一个确 定性的关系? 例如:在 7 块并排、形状大小相同的试验田上进行施肥量对水 稻产量影响的试验,得到如下所示的一组数据: 施化肥量x

15

20

25

30

35

40

45

水稻产量y

330 345

365

405 445

450 455

施化肥量x
水稻产量y

15

20

25
365

30

35

40

45

330 345

405 445

450 455

y
500 450 400 350 300 10

水稻产量

··
20

·

·

·· ·
施化肥量

30

40

50

x

施化肥量x
水稻产量y

15

20

25
365

30

35

40

45

330 345 水稻产量

405 445

450 455 散点图

y
500 450 400 350 300

··

·

·

·· ·

施化肥量

x 10 20 30 40 50 探索1:水稻产量y与施肥量x之间大致有何规律?
发现:图中各点,大致分布在某条直线附近。 探索2:在这些点附近可画直线不止一条,哪条直线最能代表 x与y之间的关系呢?

? ? y 3.线性回归直线方程:? bx ? a
对于一组具有线性相关关系的数据 ( x1 , y1 ),( x2 , y2 ),...,( xn , yn ), 其回归直线方程为 其回归方程的截距和斜率的最小二乘估计公式分别为:
? b?

?

?

? ? ? y ? bx ? a
n i i

此直线叫做回归直线。

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i

n

( xi ? x)2 ?
i ?1

n

?

i ?1 n

xi2 ? nx ?
i ?1

,
2

? ? a ? y ? bx

最 小 二 乘 估 计

? 注:1)回归直线方程 y

? ? ? bx ? a 恒过样本中心点 ( x, y )

1 n 1 n (其中x ? ? xi , y ? ? yi) n i ?1 n i ?1

2)、对两个变量进行的线性分析叫做线性回归分析。

4.求回归直线方程的步骤:

(2)求? xi , ? xi yi .
2 i ?1 i ?1

1 n 1 n (1)求 x ? ? xi , y ? ? yi n n?1 n i ?1 i n
n

(3)代入公式

?

b?

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i

n

( xi ? x)2 ?
i ?1

n

?

i ?1 n

i

i

xi2 ? nx ?
i ?1

,
2

a ? y ? bx,......(1)

^

^ (4)写出直线方程为y=bx+a,即为所求的回归直线方程。 5.回归分析的基本步骤:

画散点图

求回归方程

预报、决策

练习1:下表提供了某厂节油降耗技术发行后生产甲产品过程
中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数 据.

x y

3 2.5

4 3

5 4

6 4.5

(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性

? ? ? 回归方程 y ? bx ? a (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试 根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能 耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)

例1、某大学中随机选取8名女大学生,其身高和体重数据如
下表所示.

编号 体重/kg

1 48

2 57

3 50

4 54

5 64

6 61

7 43

8 59

身高/cm 165 165 157 170 175 165 155 170

(1)画出散点图 (2)根据女大学生的身高预报体重的回归方程, (3)预报一名身高为172cm的女大学生的体重.

解:1.确定变量:
由于问题中要求根据身高预报体重,因此选取身高为自变 量x,体重为因变量y.
体重/kg
75 70

2. 作散点图;

65 60 55 50 45 40 150 155 160 165 170 身高/cm 175 180 185

3.设回归方程:由散点图可知,样本点呈条状分布,身高和体重有
较好的线性相关关系,因此可以用线性回归方程来近似的刻画它们之 间的关系.故设回归直线方程为

? ? ? y ? bx ? a

4.求回归方程: 有
n ? ?(xi - x)(yi - y) ? ?b = i=1 n = ? ? ?(xi - x)2 ? i=1 ? ?a = y - bx = -85.712 ?

?x y
i=1 n

n

i i 2 i

- nxy - nx
2

?x
i=1

= 0.849,

故所求线性回归方程为:

? y ? 0.849 x ? 85.712

? b ? 0.849 是斜率的估计值,说明身高x每增加1个单位时,
体重y就增加0.849个单位,这表明体重与身高具 有正的线性相关关系. 5.根据回归方程作出预报. 因此,对于身高172cm的女大学生,由线性回归方程可以预报其 体重为: y ? 0.849 ? 172 ? 85.712 ? 60.316( kg) ?

思考1:如何描述两个变量之间线性相关关系的强弱?
1)用相关系数r来衡量两个变量之间线性相关关系的强弱 n n _ _ ?(xi - x)(yi - y) ? x iy i ? n x y i=1 i?1 相关系数 r = ? n n ? n 2 ? _ ?2 ?? n 2 ? _ ?2 ? 2 2 ?(xi - x) ?(yi - y) ?? ? xi ? n? x ? ???? ? yi ? n? y ? ??
i=1 i=1

? i?1

? ? ?? i?1

? ? ?

2)相关系数的性质:
(1)|r|≤1. (2)r>0正相关;r<0负相关. (3)|r|越接近于1,x与y相关程度越强; |r|越接近于0,x与y相关程度越弱.

问题:达到怎样程度,x、y线性相关呢?它们的相关程度怎样呢?
通常:r∈[-1,-0.75]--负相关很强; r∈[0.75,1]—正相关很强; r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;

相关关系的测度(相关系数取值及其意义)

完全负相关

无线性相关

完全正相关

-1.0

-0.5

0

+0.5

+1.0

r
负相关程度增加 正相关程度增加 ①、当 r ? 1 时,x与y为完全线性相关,它们之间存在确定的函数关系。
②、当 0 ? r ? 1 时,表示x与y存在着一定的线性相关, r的绝对值越大,越接近于1,表示x与y直线相关程度越高,反之越低。

本例中,由上面公式可求得r=0.798>0.75.
表明体重与身高有很强的线性相关性,从而说明我们建立的回归模型 有意义的.

练习2:某种产品的零件数x与加工时间y之间有如表所示数据:
零件数X 加工时间y(分 钟)

2 30

4 40

5 60

6 50

8 70

(1)求x,y之间的相关系数; (1)r ? 0.9192

(2)求线性回归方程; (2) y ? 6.5x ? 17.5 ?

思考2:身高为172cm的女大学生的体重一定是60.316kg
吗?如果不是,你能解析一下原因吗?
答:身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认 为她的体重接近于60.316kg或在60.316kg 左右。即,用这个回归方程不 能给出每个身高为172cm的女大学生的体重的预测值,只能给出她们平 均体重的值。 从散点图看到,样本点散布在某一条直线的附近,而不是在一条直线上, 所以不能用一次函数y=bx+a描述它们关系。 我们可以用下面的线性回归模型来表示:y=bx+a+e, (其中a和b为模型的未知参数,e称为随机误差)。
75 70 65

体重/kg

60 55 50 45 40 150 155 160 165 170 身高/cm 175 180 185

思考3:产生随机误差项e的原因是什么?
随机误差e的来源(可以推广到一般): 1、其它因素的影响:影响体重y 的因素不只是身高x,可能还包括 遗传基因、饮食习惯、生长环境等因素; 2、用线性回归模型近似真实模型所引起的误差; 3、身高 y 的观测误差。
以上三项误差越小,说明我们的回归模型的拟合效果越好。

思考4:函数模型与回归模型之间的差别?
函数模型: 回归模型:

y ? bx ? a y ? bx ? a ? e

函数模型:因变量y完全由自变量x确定

线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和 随机误差项e共同确定,即自变量x只能解析部分y的变化。 在统计中,我们也把自变量x称为解析变量,因变量y称为预报变量。

因此,一次函数模型是线性回归模型的特殊形式, 线性回归模型是一次函数模型的一般形式.

小结:线性回归分析的基本步骤:
1.确定变量; 2.作散点图,判断相关关系; 3.设回归方程;

4.求回归方程;
5.根据回归方程作出预报.

高二数学 选修1-2

1.1回归分析的基本思想及其初步应用(二)
——随机误差与线性回归模型

一.复习回顾
1、线性回归模型:y=bx+a+e
(其中a和b为模型的未知参数,e称为随机误差)。 2.线性回归分析的基本步骤:
1)确定变量; 2)作散点图,判断相关关系; 3)设回归方程;4)求回归方程;5)根据回归方程作出预报.

3、线性相关关系强弱的判断:相关系数r n
1)相关系数r ?

? ( x ? x)( y ? y)
i ?1 i i n 2 i i ?1 i

? ( x ? x) ? ( y ? y )
i ?1

n

.
2

2) 相关系数r的性质:
(1)|r|≤1.
(2)r>0正相关;r<0负相关. (3)|r|越接近于1,x与y相关程度越强; |r|越接近于0,x与y相关程度越弱.

案例1:女大学生的身高与体重
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。

1 2 3 4 5 6 7 8 编号 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。

解:1、选取身高为自变量x,体重为因变量y,作散点图: 2、由散点图知道身高和体重有比较 好的线性相关关系,因此可以用线性 回归方程刻画它们之间的关系。 3、从散点图还看到,样本点散布在 某一条直线的附近,而不是在一条 直线上,所以不能用一次函数 y=bx+a描述它们关系。

思考:有些时候,样本数据中难免混有错误数据,通过何
种方法把它剔除? 1.残差分析与残差图的定义:
数据点和它在回归直线上相应位置的差异 (yi ? ei =yi ? ? i 为残差。 y

? ? i ) 是随机误差的效应,称 y

? ? ? 然后,我们可以通过残差 e1 , e2 ,?, en 来判断模型拟合的效果,判断原始 数据中是否存在可疑数据,这方面的分析工作称为残差分析。
我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本 编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。

注意:1)残差分析步骤:
1)计算每组数据的残差,即样本值减预测值 (yi ? ? i ) y 2)画残差图。纵坐标为残差,横坐标为自变量。 3)分析残差图 4)找异常值

2)残差图的制作:
坐标纵轴为残差变量,横轴可以有不同的选择. 横轴为编号:可以考察残差与编号次序之间的关系,常用于调查 数据错误. 横轴为解释变量:可以考察残差与解释变量的关系,常用于研究

下表列出了女大学生身高和体重的原始数据以及相应的残差数据。 编号 身高/cm 体重/kg 残差
8 6 4

1 165 48
-6.373

2 165 57
2.627

3 157 50
2.419

4 170 54
-4.618

5 175 64
1.137

6 165 61
6.627

7 155 43
-2.883

8 170 59
0.382

残 差 图

2 0 -2 0 -4 -6 -8 2 4 6 8 10

问 题 数 据

越 窄 越 好

注意:残差图的作用:
1)发现原始数据中的可疑数据,问题数据 2)判断模型的适用性,若模型选择的正确,残差图中的点应该比较均匀地落在 以横轴为中心的水平的带状区域中 带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高, 说明选用的模型较合适。

2.用相关指数R2来刻画回归的效果:
R2 ? 1? ? ( yi ? y ) 2 ? ( yi ? y ) 2 ?
i ?1 i ?1 n n

残差平方和 总体偏差平方和

注意:1) 取值范围在 [ 0 , 1 ] 之间,即0≤ R2 ≤1.
2)在线性回归模型中,相关指数R2表示解析变量x对预报变量y变化的贡献率。

代表自变量刻画预报变量的能力。
R2反映回归直线的拟合程度,是度量模型拟合效果的一种指标。 3)R2的值越大,说明残差平方和越小,模型拟合效果越好 R2的值越小,说明残差平方和越大,模型拟合效果越好 4) R2 ?1,说明回归方程拟合的越好,表示解析变量x和预报变量y的线性相 关性越强。 R2?0,说明回归方程拟合的越差 5)如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过 比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。 6)判定系数等于相关系数的平方,即R2=(r)2 注:本例中R2=0.64,表示解析变量x对预报变量y约贡献了64%,即,可以叙述为 “身高解析了64%的体重变化”,而随机误差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。

?

练习:关于x与y有如下数据:

x y

2 30

4 40

5 60

6 50

8 70

为了对x、y两个变量进行统计分析,现有以下两种线性模 型:y=6.5x+17.5,y=7x+17,试比较哪一个模型拟合的效

果更好.

小结
一.用身高预报体重时,需要注意下列问题:
——这些问题也使用于其他问题。 1、回归方程只适用于我们所研究的样本的总体; 2、我们所建立的回归方程一般都有时间性; 3、样本采集的范围会影响回归方程的适用范围; 4、不能期望回归方程得到的预报值就是预报变量的精确值。 事实上,它是预报变量的可能取值的平均值。

涉及到统计的一些思想:
模型适用的总体; 模型的时间性; 样本的取值范围对模型的影响; 模型预报结果的正确理解。

二.建立回归模型的基本步骤为: 1.确定变量 2.制作散点图,观察是否相关

3.确定回归方程的类型(线性回归、指数回归、对数回归等)

4.利用公式确定回归参数
5.利用残差分析回归是否合理或模型是否合适

三.回归分析的一般方法:
1).利用散点图观察两个变量是否线性相关 2).利用残差来判断模型拟合的效果(残差分析) 利用残差图来分析数据,对可疑数据(残差较大的数据)进行重新调查,有错误 就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因。

高二数学 选修1-2

1.1回归分析的基本思想及其初步应用(三)
——非线性回归模型

复习回顾
1、线性回归模型:y=bx+a+e
(其中a和b为模型的未知参数,e称为随机误差)。 2、数据点和它在回归直线上相应位置的差异 (yi ? ? i ) y ? ? 是随机误差的效应,称ei =yi ? y i 为残差。 3、对每名女大学生计算这个差异,然后分别将所得 n y ? ( yi ? ? i )2 的值平方后加起来,用数学符号表示为: i ?1 称为残差平方和,它代表了随机误差的效应。 4 、我们可以用相关指数R2来刻画回归的效果,其计算公式是: n n
R2 ? 1 ? ( yi ? ? i ) 2 y ? ( ? i ? y)2 ? y

?(y
i ?1

i ?1 n

?

i

? y)2

?(y
i ?1

i ?1 n

i

? y)2

注:R2 ?1,说明回归方程拟合的越好;
R2?0,说明回归方程拟合的越差。

5.回归分析的一般方法:
1).利用散点图观察两个变量是否线性相关 2).利用残差来判断模型拟合的效果(残差分析) 利用残差图来分析数据,对可疑数据(残差较大的数据)进行重新调查,有错误 就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因。

6.建立回归模型的基本步骤 1)确定解释变量x和预报变量y;

2)画出散点图;
3)确定回归方程类型; 4)求出回归方程; 5)利用相关指数或残差进行分析.

练习;关于x与y有如下数据:
x y (1) y ? 2 30 4 40 5 60 6 50 8 70

有如下的两个线性模型:

? 6.5x ? 17.5

;(2)

? y ? 7 x ? 17.

试比较哪一个拟合效果更好。

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

例2:一只红铃虫的产卵数y和温度x有关。现收集了7组观
测数据列于表中: 温度xoC 产卵数y/个 21 7 23 11 25 21 27 24 29 66 32 115 35 325

(1)试建立产卵数y与温度x之间的回归方程;并预测温度为

28oC时产卵数目。
(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

例2:一只红铃虫的产卵数y和温度x有关。现收集了7组观测数
据列于表中,试建立y与x之间的回归方程

温度x 21 产卵数y 7

23 11
350 300

25 21

27 24

29 66

32 115

35 325

解:作散点图;

250

200

产卵数
150 100 50 0 20 22 24 26 28 温度 30 32 34 36

从散点图中可以看出产卵数和温度之间的关系并不能用 线性回归模型来很好地近似。 这些散点更像是集中在一条指数曲线或二次曲线的附近。

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

方 法 一 : 一 元 函 数 模 型

选变量

350 300 250

解:选取气温为解释变量x,产卵数 为预报变量y。

画散点图

200 150

100

选模型

50 0 0 3 6 9 12 15 18 21 24 27 30 33 36 39

估计参数

假设线性回归方程为 :?=bx+a
由计算器得:线性回归方程为y=19.87x-463.73 相关指数R2=r2≈0.8642=0.7464

分析和预测

当x=28时,y =19.87×28-463.73≈ 当x=28时,y =19.87×28-463.73≈ 93 93
所以,一次函数模型中温度解释了74.64%的产卵数变化。

www.sxpyzx.com

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

思考: 93>66 ? 模型不好?
奇 怪 ?

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

问题1

选用y=c1x2+c2 ,还是y=c1x2+cx+c2 ? 如何求c1、c2?
y= c1 x2+c2 非线性关系 产卵数 变换
令 t=x2

方 法 二 , 二 元 函 数 模 型

问题2

问题3

y= c1 t+c2 线性关系

400 300 200 100

-40

-30

-20

0 -10 0 -100 -200

气 温
10 20 30 40

www.sxpyzx.com

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2) 平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a 就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a
温度 温度的平方t 产卵数y/个 21 441 7 23 529 11 25 625 21 27 729 24 29 841 66 32 1024 115 35 1225 325

作散点图,并由计算器得: y 和 t 之间的线性回归方程为 y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802 将t=x2代入线性回归方程得: y=0.367x2 -202.54 当x=28时,y=0.367×282202.54≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。
产卵数y/个 350 300 250 200 150 100 50 0 0 150 300 450 600 750 900 1050 1200 1350

t

www.sxpyzx.com

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

产卵数

方 法 三 : 指 数 函 数 模 型

-10

450 400 350 300 250 200 150 100 50 0 -5 -50 0

气 温

5

10

15

20

25

30

35

40

问题1

如何选取指数函数的底?
非线性关系
两边取对数

问题2

y ? c1ec2 x

变换

y=bx+a 线性关系

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

对数变换:在

ln y ? ln(c3ec4 x ) ? ln c3 ? ln ec4 x ? ln c3 ? c4 x ln e ? c3 x ? ln c4
令 z ? ln y, a ? ln c3 , b ? c4 ,则 就转换为z=bx+a
温度xoC z=lgy 产卵数y/个 21 0.85 7 23 1.04 11 25 1.32 21 27 1.38 24
2.8 2.4 2 1.6 1.2 0.8 0.4 0 0 3 6 9 12 15 18 21 24 27 30 33 36 39

y ? c3ec4 x

中两边取自然对数得

y ? c3ec4 x
29 1.82 66
z

32 2.06 115

35 2.51 325

由计算器得:z关于x的线性回归方程
为z=0.272x-3.849 , y ? e0.272x-3.849 相关指数R2=r2≈0.99252=0.98 当x=28oC 时,y ≈44 ,指数回归 模型中温度解释了98%的产卵数的变 化
www.sxpyzx.com

x

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)
400 300

400 300 200 100 0
0 5 10 15 20 25 30 35 40

产卵数

产卵数

200 100 0 -100

450 400 350 300 250

产卵数

-40

-30

-20

-10 0 -100 -200

10

20

30

气 温 40
-10

200 150 100 50 0 -5 -50 0

气 温
5 10 15 20 25 30 35 40

线性模型

二次函数模型

指数函数模型

函数模型

相关指数R2

线性回归模型
二次函数模型 指数函数模型
www.sxpyzx.com

0.7464
0.802 0.98

思考:最好的 模型是哪个?

(1)由上表显而易见,指数函数模型最好!

问题四:若两个变量呈现非线性回归关系,如何解决?(分析例2)

? ? (2)另外由计算可得:e0.272 x?3.849 , y(2) ? 0.367 x2 ? 202.543. y(1) ?
则回归方程的残差计算公式分别为:

?i(1) ? yi ? yi(1) ? yi ? e0.272 x ?3.849 , i ? 1, 2,..., 7; ? e ? ? ei(2) ? yi ? yi(2) ? yi ? 0.367 x 2 ? 202.543, i ? 1, 2,..., 7.
x y 21 7 0.557 23 11 -0.101 25 21 1.875 27 24 -8.950 29 66 9.230 32 115 -13.381 35 325 34.675

? e (1) ? (2) e

47.696

19.400

-5.832

-41.000 -40.104 -58.265

77.968

? ? Q(1) ? 1550.538, Q(2) ? 15448.431.
故指数函数模型的拟合效果比二次函数的模拟效果好.

解: 1)用y = c1ec2x 模型; 令 z = lny 则z=bx+a,(a=lnc1,b=c2),列出变换后数据表并画 出x与z 的散点图
x z 21 23 25 27 29 32 35 1.946 2.398 3.045 3.178 4.19 4.745 5.784
z 7 6 5 4 3 2 1 0 0 10 20 30 40

z

x和z之间的关系可以用线性回归模型来拟合 z = ax+b+e

注:应用统计方法解决实际问题需要注意的问题: 对于同样的数据,有不同的统计方法进行分析, 我们要用最有效的方法分析数据。——可以利用直观(散点
图和残差图)、相关指数来确定哪一个模型的拟合效果更好。
如本例中现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度 数据,他们分别是:

y ? ax ? b ? e, y ? c1e
c2 x ? e

,

y ? ?x ? ? ? e.
2

z ? c2 x ? b ? e y ?? t ?? ?e

我们可以利用直观(散点图和残差图)、相关指数来确定哪一个模型的拟 合效果更好。

小结:
1.对于给定的样本点

( x1 , y1 ),( x2 , y2 ),...,( xn , yn ), ? ? y (1) ? f ( x, a)和y (2) ? g ( x, b), 两个含有未知参数的模型:

其中a和b都是未知参数。用残差法对拟合效果比较的步骤为:

? y(1) ? f ( x, a) (1)分别建立对应于两个模型的回归方程 ?

? 与y

(2)

? ? g ( x, b),

其中

? ? a 和 b 分别是参数a和b的估计值;

(2)分别计算两个回归方程的残差平方和 (3)对两个回归方程的残差平方和比大小,残差平方和越

小的拟合效果越好,残差平方和越大的拟合效果越差。

注:当回归方程不是形如y=bx+a时,我们称之为非线性回归方程.

小结:
2.在散点图中,若样本点没有分布在某个带状区域内,则两个变量不呈现线
性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.所 以需要设非线性回归方程,进而通过一系列转化,将其转化为线性回归模型 区解决。用线性回归模型解决非线性相关问题思路:

(1)对数型非线性模型通过两边取对数可以转化为线性模型。 (2)二次函数型非线性模型通过两边设元法可以转化为线性模型。

如本例中,根据已有的函数知识,可以发现样本点分布在某一条 指数函数曲线y ? c e c2 x 的周围,其中c1和c2是待定参数. 1 令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2) 的周围. 进而利用线性回归模型建立了y和x之间的非线性回归方程.

例1

在一段时间内,某中商品的价格x元和需求量Y件之 间的一组数据为:

价格x

14

16

18

20

22

需求量Y

12
5

10

7
5

5
5

3

求出Y对的回归直线方程,并说明拟合效果的好坏。

解: x ? 18, y ? 7.4,
5 i i

xi2 ? 1660, ? yi2 ? 327, ? xi yi ? 620, ?
i ?1 i ?1 i ?1

? ?b ?

? x y ? 5x y
i ?1 5

?x
i ?1

2 i

? 5x

2

620 ? 5 ?18 ? 7.4 ? ? ?1.15. 2 1660 ? 5 ?18

? ? a ? 7.4 ? 1.15 ?18 ? 28.1.

? ?回归直线方程为:y ? ?1.15x ? 28.1.

例1

在一段时间内,某中商品的价格x元和需求量Y件之 间的一组数据为:

价格x

14

16

18

20

22

需求量Y

12

10

7

5

3

求出Y对的回归直线方程,并说明拟合效果的好坏。 解:列出残差表为

? yi ? yi
yi ? y
5 i ?1

0 4.6

0.3 2.6
5 i ?1

-0.4 -0.4

-0.1 -2.4

0.2 -4.4

? ? ? ( yi ? yi ) 2 ? 0.3,

R2 ? 1 ?

? ( yi ? yi ) 2 ? ( yi ? y ) 2 ?
i ?1 i ?1 5

5

( yi ? y )2 ? 53.2, ?

?

0.994

因而,拟合效果较好。

练习

假设关于某设备的使用年限x和所支出的维修费用 y(万 元),有如下的统计资料。
使用年限x 维修费用y 2 2.2 3 3.8 4 5.5 5 6.5 6 7.0

若由资料知,y对x呈线性相关关系。试求: (1)线性回归方程

? ? ? y ? bx ? a

的回归系数

? ? a、b ;

(2)求残差平方和;
(3)求相关系数

R;

2

(4)估计使用年限为10年时,维修费用是多少?

解: (1)由已知数据制成表格。

i
xi yi xi yi
xi2

1 2 2.2 4.4 4

2 3 3.8 11.4 9
5

3 4 5.5 22.0 16
5

4 5 6.5 32.5 25

5 6 7.0 42.0 36

合计 20 25 112.3 90

xi2 ? 90; ? xi yi ? 112.3. x ? 4; y ? 5; ?
i ?1 i ?1

? 所以有 b ? 1.23, a ? 0.08. ?

? ? y ? 1.23x ? 0.08.

回 归 分 析 基 本 思 想 及 其 初 步 应 用

基本思想

回归分析

相关性方法分析 实际应用 回归优劣分析

总偏差平方和 残差平方和 回归平方和


推荐相关:

1、1回归分析的基本思想及其初步应用

新课标 数学 选修 1-2 1.1 回归分析的基本思想及其初步应用 (教师用书独具)...分析散点图,求回归直线方程,分析回归效果,利 用方程进行预报. 3.情感、态度与...


3.1.1回归分析的基本思想及其初步应用(1)

3.1.1回归分析的基本思想及其初步应用(1)_高二数学_数学_高中教育_教育专区。编号...编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 ...


1.1.1_回归分析的基本思想及其初步应用教案

高中数学新课标选修 1-2 课时计划 授课时间: 2012 年月日(星期 )第节 总第 课时 第一课时 1.1 回归分析的基本思想及其初步应用(一) 教学要求:通过典型案例...


1.1回归分析的基本思想及其初步应用第2课时

1.1回归分析的基本思想及其初步应用第2课时_数学_高中教育_教育专区。巴东一中高二...(0,0) ,B(1,3) ,C(4,11) ,若用直线 AB 作为其 预测模型,则点 C ...


1.1回归分析的基本思想及其初步应用

1.1回归分析的基本思想及其初步应用_数学_高中教育_教育专区。阿尔山市一中高二年级...3.利用统计方法解决实际问题的基本步骤: (1)提出问题;(2)收集数据;(3)分析...


1.1 回归分析的基本思想及其初步应用 课时提升作业 学生版

1.1 回归分析的基本思想及其初步应用 课时提升作业 学生版_数学_高中教育_教育...(2)残差平方和越小的模型,拟合的效果越好. (3)用相关指数 R2 来刻画回归的...


1.1回归分析的基本思想及其初步应用导学案及答案

1.1回归分析的基本思想及其初步应用导学案及答案_数学_高中教育_教育专区。第04...2 、下列说法正确的有( C ) ①回归方程适用于一切样本和总体 ②回归方程一般...


1.1回归分析的基本思想及其初步应用第3课时

1.1回归分析的基本思想及其初步应用3课时_数学_高中教育_教育专区。巴东一中高二...x^2 1300 可看到 y 与 t 的散点图并不分布在条直线的周围,即不宜用...


1.1回归分析的基本思想及其初步应用第1课时

1.1回归分析的基本思想及其初步应用第1课时_数学_高中教育_教育专区。新课程教案...当 x 取值 1,2,3,4 时,通过观测得到 y 的值分别为 1.2,4.9,8.1,12...

网站首页 | 网站地图
3986 3986.net
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@qq.com