数理统计中的区间估计

最后更新于:2022-04-01 16:06:54

## 区间估计 用点估计θ^(X1,X2,…,Xn)来估计总体的未知参数 θ,一旦我们获得了样本观察值 (x1,x2,…,xn),将它代入θ^(X1,X2,…,Xn),即可得到θ的一个估计值。这很直观,也很便于使用。但是,点估计值只提供了θ的一个近似值,并没有反映这种近似的精确度。同时,由于θ本身是未知的,我们也无从知道这种估计的误差大小。因此,我们希望估计出一个真实参数所在的范围,并希望知道这个范围以多大的概率包含参数真值,这就是参数的区间估计问题。 ### 定义 设θ为总体ξ的未知参数,ξ1,ξ2,…,ξn为ξ的一个子样,T1(ξ1,ξ2,…,ξn),T2(ξ1,ξ2,…,ξn) 为两个统计量。对于任意给定的α(0<α<1),若T1,T2满足 P{T1≤θ≤T2}=1−α ——(4) 则称随机区间[T1,T2]为θ的置信水平为1−α的区间估计,α为显著性水平,T1,T2分别称为置信下限和置信上限. 注意:也称T2−T1为该区间估计的精度。 值得注意的是,置信区间(θ^1,θ^2)是一个随机区间,对于给定的样本(X1,X2,…,Xn), 可能包含未知参数(θ^1,θ^2),也可能不包含θ。但(4)表明,在重复取样下,将得到许多不同的区间θ^1(x1,x2,…,xn)、θ^2(x1,x2,…,xn),根据贝努利大数定律,这些区间中大约有100(1−α) 的区间包含未知参数θ 。 置信度表示区间估计的可靠度,置信度1−α越接近于1越好。区间长度则表示估计的范围,即估计的精度,区间长度越短越好。当然,置信度和区间长度是相互矛盾的。在实际问题中,我们总是在保证可靠度的前提下,尽可能地提高精度。因此区间估计的问题,就是在给定α值的情况下,利用样本(X1,X2,…,Xn)去求两个估计量θ^1和θ^2 的问题。 ### 置信区间的含义 以α=0.01为例,此时置信度为99。假设反复抽取样本1000次,则得到1000个随机区间[T1,T2],在这1000个区间中,包含值的大约有990个,而不包含θ值的大约有10个。 ### 构造区间估计的步骤 1.构造一个与θ有关的函数 {U不含其它未知参数已知U的分布 2.对给定的 α(0<α<1) ,求 a,b 使得 P{a≤U≤b}=1−α 3.解不等式 a≤U≤b⇔T1≤θ≤T2 ,得到区间 [T1,T2] ### 正态总体均值与方差的区间估计 设ξ~N(a,σ2),ξ1,…,ξn为ξ的一子样 ### 单个总体ξ~N(a,σ2)的情形 #### σ2=σ20已知时,求a的区间估计 因为ξ¯是a的最优无偏估计,因此在求a的区间估计时,自然从ξ¯出发来构造一个适合的函数。因为 ξ~N(a,σ20)⇒ξ¯~N(a,σ20n) 令U=ξ¯−aσ0/n√,则U~N(0,1) 对给定的α(0<α<1),求uα,使得 P{|U|≤uα}=1−α——(∗) 临界值uα可由P{U≤uα}=1−α2,查N(0,1)分布表得到 (*)式变为 P{|ξ¯−aσ/n√|≤uα}=1−α 亦是 P{ξ¯−uασ0n√≤a≤ξ¯+uασ0n√}=1−α 因此a的置信水平为1−α的区间估计为 [ξ¯−uασ0n√,ξ¯+uασ0n√] 不同置信水平1−α下,a的区间估计为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc711e45.jpg "") ##### 例题 设某种清漆的9个样品,其干燥时间(以小时计)分别为6.0,5.7,5.8,6.5,7.0,6.3,5.6,6.1,5.0 , 设干燥时间总体服从正态分布N(a,0.62),求a的置信 水平为0.95的置信区间。 解: σ2=0.62已知,n=9,α=1−0.95=0.05 取U=ξ¯−aσ0/n√~N(0,1) 由P{|U|≤uα}=1−α可得P{U≤uα}=1−α2=0.975 查标准正态分布表得到uα=1.96,故所求的置信水平为0.95的置信区间为 [X¯¯¯−uασ0n√,X¯¯¯+uασ0n√]=[5.0608,6.392] #### σ2未知时,求a的区间估计 取T=n−1−−−−−√ξ¯−aS~t(n−1) 对给定的α(0<α<1),求一个t(n−1)(α),使得 P{|T|≥tn−1(α)}=α 查t分布表可求得tn−1(α) P{|n−1−−−−−√ξ¯−aS|≥tn−1(α)}=α 即 P{ξ¯−tn−1(α)Sn−1−−−−−√≤a≤ξ¯+tn−1(α)Sn−1−−−−−√}=α 得到a的置信度为1−α的置信区间为 [ξ¯−tn−1(α)Sn−1−−−−−√,ξ¯+tn−1(α)Sn−1−−−−−√] ##### 例题 设某种清漆的9个样品,其干燥时间(以小时计)分别为6.0,5.7,5.8,6.5,7.0,6.3,5.6,6.1,5.0 , 设干燥时间总体服从正态分布N(a,σ2),σ2>0未知,求a的置信 水平为0.95的置信区间。 解: σ2>0未知,n=9,α=1−0.95=0.05 取T=n−1−−−−−√ξ¯−aS~t(n−1)=t(8) 由P{|T|≥t8(α)}=α=0.05 查t(8)分布表可以得到t8(α)=2.306,故所求的区间估计为 [ξ¯−tn−1(α)Sn−1−−−−−√,ξ¯+tn−1(α)Sn−1−−−−−√] 计算得ξ¯=6.0 S2=0.29 故所求a的区间估计为[5.558,6.442] #### (总体均值未知时)σ2的区间估计 取χ2=nS2σ2~χ2(n−1) 给定的α(0<α<1),求一个λ1,一个λ2,使得 P{λ1≤χ2≤λ2}=1−α ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc72fc20.jpg "") P{χ2n−1(1−α2)≤χ2≤χ2n−1(α2)}=1−α P{χ2n−1(1−α2)≤nS2σ2≤χ2n−1(α2)}=1−α 即 P{nS2χ2n−1(1−α2)≤σ2≤nS2χ2n−1(α2)}=1−α 由此可得σ2的置信水平为1−α的区间估计为 [nS2χ2n−1(1−α2),nS2χ2n−1(α2)] ##### 例题 设某种清漆的9个样品,其干燥时间(以小时计)分别为6.0,5.7,5.8,6.5,7.0,6.3,5.6,6.1,5.0 , 设干燥时间总体服从正态分布N(a,σ2),求σ2>0的置信 水平为0.95的置信区间。 解: n=9,α=1−0.95=0.05,a未知 取χ2=nS2σ2~χ2(n−1)=χ2(8) 对给定的α(0<α<1),查χ2(8)表得 χ28(0.975)=2.180,χ28(0.025)=17.535 计算得ξ¯=6.0 S2=0.29 故σ2的置信度为1−α的置信区间为 [nS2χ2n−1(1−α2),nS2χ2n−1(α2)] [9×0.2917.535,9×0.292.18] [0.151,1.211] 因此σ2的置信区间为0.95的区间估计为[0.151,1.211] ### 二个正态总体的情形 #### 二个正态总体均值差a1−a2的区间估计 设ξ1,ξ2,…,ξn1与η1,η2,…,ηn1分别是来自正态总体N(a1,σ21)与N(a2,σ22)的子样,且这两个子样相互独立,ξ¯,η¯分别是这两个子样的均样,s21,s22分别是这两个子样的方差。 因为ξ¯,η¯分别为a1,a2的点估计,故取ξ¯−η¯为a1−a2的点估计。此时ξ¯−η¯服从正态分布,且 E(ξ¯−η¯)=a1−a2D(ξ¯−η¯)=D(ξ¯)+D(η¯)=σ21n1+σ22n2 对总体方差的不同情况可得a1−a2的不同置信区间。 ##### 若σ21、σ22都已知 取U=ξ¯−η¯−(a1−a2)σ21n1+σ22n2√~N(0,1) 对于给定的α(0<α<1),查正态分布表得uα 从而得到a1−a2置信水平为1−α的区间估计 (ξ¯−η¯−uασ21n1+σ22n2−−−−−−−−√,ξ¯−η¯+uασ21n1+σ22n2−−−−−−−−√) ##### 若σ21=σ22=σ2都未知 取T=n1n2(n1+n2−2)n1+n2−−−−−−−−−−√ξ¯−η¯−(a1−a2)n1S21+n2S22√~t(n1+n2−2) 对于给定的α(0<α<1),由 P{|T|>t(n1+n2−2)(α)}=α 确认t(n1+n2−2)(α),从而得到a1−a2置信区间为1−α的区间估计是 (ξ¯−η¯±t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√) ##### 例题 为比较I, II 两种型号子弹的枪口速度,随机地取I 型子弹10 发, 得到枪口速度的平均值为x¯1=500(m/s),标准差s1=1.10(m/s),随机地取II 型子弹20 发, 得到枪口速度的平均值为x¯2=496(m/s),标准差s2=1.20(m/s),假设两总体都可认为近似地服从正态分布,且由生产过程可认为方差相等,求两总体均值差a1−a2的一个置信水平为0.95的区间. 解: 由假设两总体的方差相等, 但数值未知 故a1−a2置信度为1−α的置信区间是 (ξ¯−η¯±t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√) n1=10,n2=20,n1+n2−2=28 α−1−0.95=0.05,t0.05(28)=2.048 t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√=2.048×10×1.102+20×1.202−−−−−−−−−−−−−−−−−−−√30200×28−−−−−−−−√=0.853 故a1−a2置信水平为1−α的区间估计是 (4−0.853,4+0.853)=(3.147,4.853) #### 两个总体方差比的置信区间 设两正态总体N(a1,σ21)、N(a2,σ22)的参数都为未知的,子样容量分别为n1,n2,且两个子样相互独立,子样方差分别为S21,S22,求方差比σ21/σ22的置信区间 由n1S21σ21~χ2(n1−1),n2S22σ22~χ2(n2−1)构造 F=n1S21σ21/(n1−1)n2S22σ22/(n2−1)~F(n1−1,n2−1) 对于给定的α(0<α<1),取λ1,λ2使满足 P{λ1≤F≤λ2}=1−α ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc757b8b.jpg "") 令P{F<λ1}=α/2,P{F>λ2}=α/2 即取λ1=F(n1−1,n2−1)(1−α2),λ2=F(n1−1,n2−1)(α2) P{F(n1−1,n2−1)(1−α2)}≤(n2−1)n1S21(n1−1)n2S22.σ22σ21≤P{F(n1−1,n2−1)(α2)}=1−α 由此得σ21σ22的置信度为1−α的置信区间为 [(n2−1)n1S21(n1−1)n2S22.1F(n1−1,n2−1)(α2),(n2−1)n1S21(n1−1)n2S22.1F(n1−1,n2−1)(1−α2)] 注意如何查表得到F(n1−1,n2−1)(1−α2) F(n1−1,n2−1)(1−α2)=1F(n2−1,n1−1)(α2) ##### 例子 研究机器A和机器B生产的钢管的内径,随机抽取机器A生产的管子18只,测得样本方差s21=0.34(mm2),抽取机器B生产的管子13只,测得样本方差s22=0.29(mm2),设两样本相互独立,且由机器A和机器B生产的钢管的内径分别服从正态分布N(a1,σ21),N(a2,σ22)试求方差比σ21/σ22的一个置信水平为0.90 的置信区间. 解: 现在n1=18,s21=0.34;n2=13,s22=0.29 α=0.10F(n1−1,n2−1)(α2)=F(17,12)(0.05)=2.59F(n1−1,n2−1)(α2)=F(17,12)(0.95)=1F(12,17)(0.05)=12.38 于是得σ21σ22的置信度为0.90的置信区间为 (73.4464.09×2.59,73.4464.09×12.38)=(0.44,2.73) ### 练习 假设随机变数X~N(a,2.8),现有X的10个观察值X1,…,X10,已知X¯¯¯=110∑10i=1xi=1500, **1)求a的置信度为0.95置信区间** 解1) 由于σ2=2.82已知,故选U=X¯−aσ/n√~N(0,1) 由α=0.5⇒uα=1.96,a的置信度为0.95置信区间为 [X¯¯¯−uασn√,X¯¯¯+uασn√]=[1500−1.96×2.810−−√,1500+1.96×2.810−−√]=[1498.3,1501.7] **2)要想使0.95的置信区间长度l小于1,观察值个数n最少应去多少?** 解2) l=(X¯¯¯+uασn√)−(X¯¯¯−uασn√)=2uασn√ 要使a的置信度为0.95置信区间的长度小于1, 即 2uασn√<1⇒2×1.96×2.8n<1 ⇒n>(2×1.96×2.8)2=120.47 所以观察值个数n最少应取121 **3)如果样本容量n=100,那么区间(X¯¯¯−1,X¯¯¯+1)作为a的区间估计,其置信度是什么?** 解3) 置信区间若为(X¯¯¯−1,X¯¯¯+1),则l=2 即有等式2uασn√=2⇒uα=100√2.8=3.57 P(|U|≤uα)=P(|U|≤3.57)=2Φ(3.57)−1=2×0.9998−1=0.9996 置信度为0.9996
';