数理统计中的区间估计
最后更新于:2022-04-01 16:06:54
## 区间估计
用点估计θ^(X1,X2,…,Xn)来估计总体的未知参数 θ,一旦我们获得了样本观察值 (x1,x2,…,xn),将它代入θ^(X1,X2,…,Xn),即可得到θ的一个估计值。这很直观,也很便于使用。但是,点估计值只提供了θ的一个近似值,并没有反映这种近似的精确度。同时,由于θ本身是未知的,我们也无从知道这种估计的误差大小。因此,我们希望估计出一个真实参数所在的范围,并希望知道这个范围以多大的概率包含参数真值,这就是参数的区间估计问题。
### 定义
设θ为总体ξ的未知参数,ξ1,ξ2,…,ξn为ξ的一个子样,T1(ξ1,ξ2,…,ξn),T2(ξ1,ξ2,…,ξn) 为两个统计量。对于任意给定的α(0<α<1),若T1,T2满足
P{T1≤θ≤T2}=1−α
——(4)
则称随机区间[T1,T2]为θ的置信水平为1−α的区间估计,α为显著性水平,T1,T2分别称为置信下限和置信上限.
注意:也称T2−T1为该区间估计的精度。
值得注意的是,置信区间(θ^1,θ^2)是一个随机区间,对于给定的样本(X1,X2,…,Xn), 可能包含未知参数(θ^1,θ^2),也可能不包含θ。但(4)表明,在重复取样下,将得到许多不同的区间θ^1(x1,x2,…,xn)、θ^2(x1,x2,…,xn),根据贝努利大数定律,这些区间中大约有100(1−α) 的区间包含未知参数θ 。
置信度表示区间估计的可靠度,置信度1−α越接近于1越好。区间长度则表示估计的范围,即估计的精度,区间长度越短越好。当然,置信度和区间长度是相互矛盾的。在实际问题中,我们总是在保证可靠度的前提下,尽可能地提高精度。因此区间估计的问题,就是在给定α值的情况下,利用样本(X1,X2,…,Xn)去求两个估计量θ^1和θ^2 的问题。
### 置信区间的含义
以α=0.01为例,此时置信度为99。假设反复抽取样本1000次,则得到1000个随机区间[T1,T2],在这1000个区间中,包含值的大约有990个,而不包含θ值的大约有10个。
### 构造区间估计的步骤
1.构造一个与θ有关的函数
{U不含其它未知参数已知U的分布
2.对给定的
α(0<α<1)
,求
a,b
使得
P{a≤U≤b}=1−α
3.解不等式
a≤U≤b⇔T1≤θ≤T2
,得到区间
[T1,T2]
### 正态总体均值与方差的区间估计
设ξ~N(a,σ2),ξ1,…,ξn为ξ的一子样
### 单个总体ξ~N(a,σ2)的情形
#### σ2=σ20已知时,求a的区间估计
因为ξ¯是a的最优无偏估计,因此在求a的区间估计时,自然从ξ¯出发来构造一个适合的函数。因为
ξ~N(a,σ20)⇒ξ¯~N(a,σ20n)
令U=ξ¯−aσ0/n√,则U~N(0,1)
对给定的α(0<α<1),求uα,使得
P{|U|≤uα}=1−α——(∗)
临界值uα可由P{U≤uα}=1−α2,查N(0,1)分布表得到
(*)式变为
P{|ξ¯−aσ/n√|≤uα}=1−α
亦是
P{ξ¯−uασ0n√≤a≤ξ¯+uασ0n√}=1−α
因此a的置信水平为1−α的区间估计为
[ξ¯−uασ0n√,ξ¯+uασ0n√]
不同置信水平1−α下,a的区间估计为
![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc711e45.jpg "")
##### 例题
设某种清漆的9个样品,其干燥时间(以小时计)分别为6.0,5.7,5.8,6.5,7.0,6.3,5.6,6.1,5.0 ,
设干燥时间总体服从正态分布N(a,0.62),求a的置信
水平为0.95的置信区间。
解:
σ2=0.62已知,n=9,α=1−0.95=0.05
取U=ξ¯−aσ0/n√~N(0,1)
由P{|U|≤uα}=1−α可得P{U≤uα}=1−α2=0.975
查标准正态分布表得到uα=1.96,故所求的置信水平为0.95的置信区间为
[X¯¯¯−uασ0n√,X¯¯¯+uασ0n√]=[5.0608,6.392]
#### σ2未知时,求a的区间估计
取T=n−1−−−−−√ξ¯−aS~t(n−1)
对给定的α(0<α<1),求一个t(n−1)(α),使得
P{|T|≥tn−1(α)}=α
查t分布表可求得tn−1(α)
P{|n−1−−−−−√ξ¯−aS|≥tn−1(α)}=α
即
P{ξ¯−tn−1(α)Sn−1−−−−−√≤a≤ξ¯+tn−1(α)Sn−1−−−−−√}=α
得到a的置信度为1−α的置信区间为
[ξ¯−tn−1(α)Sn−1−−−−−√,ξ¯+tn−1(α)Sn−1−−−−−√]
##### 例题
设某种清漆的9个样品,其干燥时间(以小时计)分别为6.0,5.7,5.8,6.5,7.0,6.3,5.6,6.1,5.0 ,
设干燥时间总体服从正态分布N(a,σ2),σ2>0未知,求a的置信
水平为0.95的置信区间。
解:
σ2>0未知,n=9,α=1−0.95=0.05
取T=n−1−−−−−√ξ¯−aS~t(n−1)=t(8)
由P{|T|≥t8(α)}=α=0.05
查t(8)分布表可以得到t8(α)=2.306,故所求的区间估计为
[ξ¯−tn−1(α)Sn−1−−−−−√,ξ¯+tn−1(α)Sn−1−−−−−√]
计算得ξ¯=6.0 S2=0.29
故所求a的区间估计为[5.558,6.442]
#### (总体均值未知时)σ2的区间估计
取χ2=nS2σ2~χ2(n−1)
给定的α(0<α<1),求一个λ1,一个λ2,使得
P{λ1≤χ2≤λ2}=1−α
![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc72fc20.jpg "")
P{χ2n−1(1−α2)≤χ2≤χ2n−1(α2)}=1−α
P{χ2n−1(1−α2)≤nS2σ2≤χ2n−1(α2)}=1−α
即
P{nS2χ2n−1(1−α2)≤σ2≤nS2χ2n−1(α2)}=1−α
由此可得σ2的置信水平为1−α的区间估计为
[nS2χ2n−1(1−α2),nS2χ2n−1(α2)]
##### 例题
设某种清漆的9个样品,其干燥时间(以小时计)分别为6.0,5.7,5.8,6.5,7.0,6.3,5.6,6.1,5.0 ,
设干燥时间总体服从正态分布N(a,σ2),求σ2>0的置信
水平为0.95的置信区间。
解:
n=9,α=1−0.95=0.05,a未知
取χ2=nS2σ2~χ2(n−1)=χ2(8)
对给定的α(0<α<1),查χ2(8)表得
χ28(0.975)=2.180,χ28(0.025)=17.535
计算得ξ¯=6.0 S2=0.29
故σ2的置信度为1−α的置信区间为
[nS2χ2n−1(1−α2),nS2χ2n−1(α2)]
[9×0.2917.535,9×0.292.18]
[0.151,1.211]
因此σ2的置信区间为0.95的区间估计为[0.151,1.211]
### 二个正态总体的情形
#### 二个正态总体均值差a1−a2的区间估计
设ξ1,ξ2,…,ξn1与η1,η2,…,ηn1分别是来自正态总体N(a1,σ21)与N(a2,σ22)的子样,且这两个子样相互独立,ξ¯,η¯分别是这两个子样的均样,s21,s22分别是这两个子样的方差。
因为ξ¯,η¯分别为a1,a2的点估计,故取ξ¯−η¯为a1−a2的点估计。此时ξ¯−η¯服从正态分布,且
E(ξ¯−η¯)=a1−a2D(ξ¯−η¯)=D(ξ¯)+D(η¯)=σ21n1+σ22n2
对总体方差的不同情况可得a1−a2的不同置信区间。
##### 若σ21、σ22都已知
取U=ξ¯−η¯−(a1−a2)σ21n1+σ22n2√~N(0,1)
对于给定的α(0<α<1),查正态分布表得uα
从而得到a1−a2置信水平为1−α的区间估计
(ξ¯−η¯−uασ21n1+σ22n2−−−−−−−−√,ξ¯−η¯+uασ21n1+σ22n2−−−−−−−−√)
##### 若σ21=σ22=σ2都未知
取T=n1n2(n1+n2−2)n1+n2−−−−−−−−−−√ξ¯−η¯−(a1−a2)n1S21+n2S22√~t(n1+n2−2)
对于给定的α(0<α<1),由
P{|T|>t(n1+n2−2)(α)}=α
确认t(n1+n2−2)(α),从而得到a1−a2置信区间为1−α的区间估计是
(ξ¯−η¯±t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√)
##### 例题
为比较I, II 两种型号子弹的枪口速度,随机地取I 型子弹10 发, 得到枪口速度的平均值为x¯1=500(m/s),标准差s1=1.10(m/s),随机地取II 型子弹20 发, 得到枪口速度的平均值为x¯2=496(m/s),标准差s2=1.20(m/s),假设两总体都可认为近似地服从正态分布,且由生产过程可认为方差相等,求两总体均值差a1−a2的一个置信水平为0.95的区间.
解:
由假设两总体的方差相等, 但数值未知
故a1−a2置信度为1−α的置信区间是
(ξ¯−η¯±t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√)
n1=10,n2=20,n1+n2−2=28
α−1−0.95=0.05,t0.05(28)=2.048
t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√=2.048×10×1.102+20×1.202−−−−−−−−−−−−−−−−−−−√30200×28−−−−−−−−√=0.853
故a1−a2置信水平为1−α的区间估计是
(4−0.853,4+0.853)=(3.147,4.853)
#### 两个总体方差比的置信区间
设两正态总体N(a1,σ21)、N(a2,σ22)的参数都为未知的,子样容量分别为n1,n2,且两个子样相互独立,子样方差分别为S21,S22,求方差比σ21/σ22的置信区间
由n1S21σ21~χ2(n1−1),n2S22σ22~χ2(n2−1)构造
F=n1S21σ21/(n1−1)n2S22σ22/(n2−1)~F(n1−1,n2−1)
对于给定的α(0<α<1),取λ1,λ2使满足
P{λ1≤F≤λ2}=1−α
![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc757b8b.jpg "")
令P{F<λ1}=α/2,P{F>λ2}=α/2
即取λ1=F(n1−1,n2−1)(1−α2),λ2=F(n1−1,n2−1)(α2)
P{F(n1−1,n2−1)(1−α2)}≤(n2−1)n1S21(n1−1)n2S22.σ22σ21≤P{F(n1−1,n2−1)(α2)}=1−α
由此得σ21σ22的置信度为1−α的置信区间为
[(n2−1)n1S21(n1−1)n2S22.1F(n1−1,n2−1)(α2),(n2−1)n1S21(n1−1)n2S22.1F(n1−1,n2−1)(1−α2)]
注意如何查表得到F(n1−1,n2−1)(1−α2)
F(n1−1,n2−1)(1−α2)=1F(n2−1,n1−1)(α2)
##### 例子
研究机器A和机器B生产的钢管的内径,随机抽取机器A生产的管子18只,测得样本方差s21=0.34(mm2),抽取机器B生产的管子13只,测得样本方差s22=0.29(mm2),设两样本相互独立,且由机器A和机器B生产的钢管的内径分别服从正态分布N(a1,σ21),N(a2,σ22)试求方差比σ21/σ22的一个置信水平为0.90 的置信区间.
解:
现在n1=18,s21=0.34;n2=13,s22=0.29
α=0.10F(n1−1,n2−1)(α2)=F(17,12)(0.05)=2.59F(n1−1,n2−1)(α2)=F(17,12)(0.95)=1F(12,17)(0.05)=12.38
于是得σ21σ22的置信度为0.90的置信区间为
(73.4464.09×2.59,73.4464.09×12.38)=(0.44,2.73)
### 练习
假设随机变数X~N(a,2.8),现有X的10个观察值X1,…,X10,已知X¯¯¯=110∑10i=1xi=1500,
**1)求a的置信度为0.95置信区间**
解1)
由于σ2=2.82已知,故选U=X¯−aσ/n√~N(0,1)
由α=0.5⇒uα=1.96,a的置信度为0.95置信区间为
[X¯¯¯−uασn√,X¯¯¯+uασn√]=[1500−1.96×2.810−−√,1500+1.96×2.810−−√]=[1498.3,1501.7]
**2)要想使0.95的置信区间长度l小于1,观察值个数n最少应去多少?**
解2)
l=(X¯¯¯+uασn√)−(X¯¯¯−uασn√)=2uασn√
要使a的置信度为0.95置信区间的长度小于1,
即
2uασn√<1⇒2×1.96×2.8n<1
⇒n>(2×1.96×2.8)2=120.47
所以观察值个数n最少应取121
**3)如果样本容量n=100,那么区间(X¯¯¯−1,X¯¯¯+1)作为a的区间估计,其置信度是什么?**
解3)
置信区间若为(X¯¯¯−1,X¯¯¯+1),则l=2
即有等式2uασn√=2⇒uα=100√2.8=3.57
P(|U|≤uα)=P(|U|≤3.57)=2Φ(3.57)−1=2×0.9998−1=0.9996
置信度为0.9996