数理统计中的区间估计 | 计算机数学模型

## 区间估计用点估计θ^(X1,X2,…,Xn)来估计总体的未知参数 θ，一旦我们获得了样本观察值 (x1,x2,…,xn)，将它代入θ^(X1,X2,…,Xn)，即可得到θ的一个估计值。这很直观，也很便于使用。但是，点估计值只提供了θ的一个近似值，并没有反映这种近似的精确度。同时，由于θ本身是未知的，我们也无从知道这种估计的误差大小。因此，我们希望估计出一个真实参数所在的范围，并希望知道这个范围以多大的概率包含参数真值，这就是参数的区间估计问题。 ### 定义设θ为总体ξ的未知参数,ξ1,ξ2,…,ξn为ξ的一个子样，T1(ξ1,ξ2,…,ξn),T2(ξ1,ξ2,…,ξn) 为两个统计量。对于任意给定的α(0<α<1)，若T1,T2满足 P{T1≤θ≤T2}=1−α ——(4) 则称随机区间[T1,T2]为θ的置信水平为1−α的区间估计，α为显著性水平，T1,T2分别称为置信下限和置信上限. 注意：也称T2−T1为该区间估计的精度。值得注意的是，置信区间(θ^1,θ^2)是一个随机区间，对于给定的样本(X1,X2,…,Xn)，可能包含未知参数(θ^1,θ^2)，也可能不包含θ。但（4）表明，在重复取样下，将得到许多不同的区间θ^1(x1,x2,…,xn)、θ^2(x1,x2,…,xn)，根据贝努利大数定律，这些区间中大约有100(1−α) 的区间包含未知参数θ 。置信度表示区间估计的可靠度，置信度1−α越接近于1越好。区间长度则表示估计的范围，即估计的精度，区间长度越短越好。当然，置信度和区间长度是相互矛盾的。在实际问题中，我们总是在保证可靠度的前提下，尽可能地提高精度。因此区间估计的问题，就是在给定α值的情况下，利用样本(X1,X2,…,Xn)去求两个估计量θ^1和θ^2 的问题。 ### 置信区间的含义以α=0.01为例，此时置信度为99。假设反复抽取样本1000次，则得到1000个随机区间[T1,T2]，在这1000个区间中，包含值的大约有990个，而不包含θ值的大约有10个。 ### 构造区间估计的步骤 1.构造一个与θ有关的函数 {U不含其它未知参数已知U的分布 2.对给定的 α(0<α<1) ，求 a,b 使得 P{a≤U≤b}=1−α 3.解不等式 a≤U≤b⇔T1≤θ≤T2 ,得到区间 [T1,T2] ### 正态总体均值与方差的区间估计设ξ～N(a,σ2),ξ1,…,ξn为ξ的一子样 ### 单个总体ξ～N(a,σ2)的情形 #### σ2=σ20已知时，求a的区间估计因为ξ¯是a的最优无偏估计，因此在求a的区间估计时，自然从ξ¯出发来构造一个适合的函数。因为 ξ～N(a,σ20)⇒ξ¯～N(a,σ20n) 令U=ξ¯−aσ0/n√，则U～N(0,1) 对给定的α(0<α<1)，求uα，使得 P{|U|≤uα}=1−α——(∗) 临界值uα可由P{U≤uα}=1−α2，查N(0，1)分布表得到（*）式变为 P{|ξ¯−aσ/n√|≤uα}=1−α 亦是 P{ξ¯−uασ0n√≤a≤ξ¯+uασ0n√}=1−α 因此a的置信水平为1−α的区间估计为 [ξ¯−uασ0n√,ξ¯+uασ0n√] 不同置信水平1−α下，a的区间估计为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc711e45.jpg "") ##### 例题设某种清漆的9个样品，其干燥时间(以小时计)分别为6.0，5.7，5.8，6.5，7.0，6.3，5.6，6.1，5.0 , 设干燥时间总体服从正态分布N(a,0.62)，求a的置信水平为0.95的置信区间。解： σ2=0.62已知，n=9,α=1−0.95=0.05 取U=ξ¯−aσ0/n√～N(0,1) 由P{|U|≤uα}=1−α可得P{U≤uα}=1−α2=0.975 查标准正态分布表得到uα=1.96，故所求的置信水平为0.95的置信区间为 [X¯¯¯−uασ0n√,X¯¯¯+uασ0n√]=[5.0608，6.392] #### σ2未知时，求a的区间估计取T=n−1−−−−−√ξ¯−aS～t(n−1) 对给定的α(0<α<1)，求一个t(n−1)(α)，使得 P{|T|≥tn−1(α)}=α 查t分布表可求得tn−1(α) P{|n−1−−−−−√ξ¯−aS|≥tn−1(α)}=α 即 P{ξ¯−tn−1(α)Sn−1−−−−−√≤a≤ξ¯+tn−1(α)Sn−1−−−−−√}=α 得到a的置信度为1−α的置信区间为 [ξ¯−tn−1(α)Sn−1−−−−−√,ξ¯+tn−1(α)Sn−1−−−−−√] ##### 例题设某种清漆的9个样品，其干燥时间(以小时计)分别为6.0，5.7，5.8，6.5，7.0，6.3，5.6，6.1，5.0 , 设干燥时间总体服从正态分布N(a,σ2)，σ2>0未知，求a的置信水平为0.95的置信区间。解： σ2>0未知，n=9,α=1−0.95=0.05 取T=n−1−−−−−√ξ¯−aS～t(n−1)=t(8) 由P{|T|≥t8(α)}=α=0.05 查t(8)分布表可以得到t8(α)=2.306，故所求的区间估计为 [ξ¯−tn−1(α)Sn−1−−−−−√,ξ¯+tn−1(α)Sn−1−−−−−√] 计算得ξ¯=6.0 S2=0.29 故所求a的区间估计为[5.558,6.442] #### （总体均值未知时）σ2的区间估计取χ2=nS2σ2～χ2(n−1) 给定的α(0<α<1)，求一个λ1，一个λ2，使得 P{λ1≤χ2≤λ2}=1−α ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc72fc20.jpg "") P{χ2n−1(1−α2)≤χ2≤χ2n−1(α2)}=1−α P{χ2n−1(1−α2)≤nS2σ2≤χ2n−1(α2)}=1−α 即 P{nS2χ2n−1(1−α2)≤σ2≤nS2χ2n−1(α2)}=1−α 由此可得σ2的置信水平为1−α的区间估计为 [nS2χ2n−1(1−α2)，nS2χ2n−1(α2)] ##### 例题设某种清漆的9个样品，其干燥时间(以小时计)分别为6.0，5.7，5.8，6.5，7.0，6.3，5.6，6.1，5.0 , 设干燥时间总体服从正态分布N(a,σ2)，求σ2>0的置信水平为0.95的置信区间。解： n=9,α=1−0.95=0.05，a未知取χ2=nS2σ2～χ2(n−1)=χ2(8) 对给定的α(0<α<1)，查χ2(8)表得 χ28(0.975)=2.180,χ28(0.025)=17.535 计算得ξ¯=6.0 S2=0.29 故σ2的置信度为1−α的置信区间为 [nS2χ2n−1(1−α2)，nS2χ2n−1(α2)] [9×0.2917.535，9×0.292.18] [0.151,1.211] 因此σ2的置信区间为0.95的区间估计为[0.151,1.211] ### 二个正态总体的情形 #### 二个正态总体均值差a1−a2的区间估计设ξ1,ξ2,…,ξn1与η1,η2,…,ηn1分别是来自正态总体N(a1,σ21)与N(a2,σ22)的子样，且这两个子样相互独立，ξ¯,η¯分别是这两个子样的均样，s21,s22分别是这两个子样的方差。因为ξ¯,η¯分别为a1,a2的点估计，故取ξ¯−η¯为a1−a2的点估计。此时ξ¯−η¯服从正态分布，且 E(ξ¯−η¯)=a1−a2D(ξ¯−η¯)=D(ξ¯)+D(η¯)=σ21n1+σ22n2 对总体方差的不同情况可得a1−a2的不同置信区间。 ##### 若σ21、σ22都已知取U=ξ¯−η¯−(a1−a2)σ21n1+σ22n2√～N(0,1) 对于给定的α(0<α<1)，查正态分布表得uα 从而得到a1−a2置信水平为1−α的区间估计 (ξ¯−η¯−uασ21n1+σ22n2−−−−−−−−√,ξ¯−η¯+uασ21n1+σ22n2−−−−−−−−√) ##### 若σ21=σ22=σ2都未知取T=n1n2(n1+n2−2)n1+n2−−−−−−−−−−√ξ¯−η¯−(a1−a2)n1S21+n2S22√～t(n1+n2−2) 对于给定的α(0<α<1)，由 P{|T|>t(n1+n2−2)(α)}=α 确认t(n1+n2−2)(α)，从而得到a1−a2置信区间为1−α的区间估计是 (ξ¯−η¯±t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√) ##### 例题为比较I, II 两种型号子弹的枪口速度,随机地取I 型子弹10 发, 得到枪口速度的平均值为x¯1=500(m/s)，标准差s1=1.10(m/s)，随机地取II 型子弹20 发, 得到枪口速度的平均值为x¯2=496(m/s)，标准差s2=1.20(m/s)，假设两总体都可认为近似地服从正态分布,且由生产过程可认为方差相等,求两总体均值差a1−a2的一个置信水平为0.95的区间. 解：由假设两总体的方差相等, 但数值未知故a1−a2置信度为1−α的置信区间是 (ξ¯−η¯±t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√) n1=10,n2=20,n1+n2−2=28 α−1−0.95=0.05,t0.05(28)=2.048 t(n1+n2−2)(α)n1S21+n2S22−−−−−−−−−−−√n1+n2n1n2(n1+n2−2)−−−−−−−−−−−−−−−√=2.048×10×1.102+20×1.202−−−−−−−−−−−−−−−−−−−√30200×28−−−−−−−−√=0.853 故a1−a2置信水平为1−α的区间估计是 (4−0.853,4+0.853)=(3.147,4.853) #### 两个总体方差比的置信区间设两正态总体N(a1,σ21)、N(a2,σ22)的参数都为未知的，子样容量分别为n1,n2，且两个子样相互独立，子样方差分别为S21,S22，求方差比σ21/σ22的置信区间由n1S21σ21～χ2(n1−1),n2S22σ22～χ2(n2−1)构造 F=n1S21σ21/(n1−1)n2S22σ22/(n2−1)～F(n1−1,n2−1) 对于给定的α(0<α<1)，取λ1,λ2使满足 P{λ1≤F≤λ2}=1−α ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc757b8b.jpg "") 令P{F<λ1}=α/2,P{F>λ2}=α/2 即取λ1=F(n1−1,n2−1)（1−α2）,λ2=F(n1−1,n2−1)（α2） P{F(n1−1,n2−1)(1−α2)}≤(n2−1)n1S21(n1−1)n2S22．σ22σ21≤P{F(n1−1,n2−1)(α2)}=1−α 由此得σ21σ22的置信度为1−α的置信区间为 [(n2−1)n1S21(n1−1)n2S22．1F(n1−1,n2−1)(α2),(n2−1)n1S21(n1−1)n2S22．1F(n1−1,n2−1)(1−α2)] 注意如何查表得到F(n1−1,n2−1)(1−α2) F(n1−1,n2−1)(1−α2)=1F(n2−1,n1−1)(α2) ##### 例子研究机器A和机器B生产的钢管的内径，随机抽取机器A生产的管子18只，测得样本方差s21=0.34(mm2),抽取机器B生产的管子13只，测得样本方差s22=0.29(mm2）,设两样本相互独立，且由机器A和机器B生产的钢管的内径分别服从正态分布N(a1,σ21),N(a2,σ22)试求方差比σ21/σ22的一个置信水平为0.90 的置信区间. 解：现在n1=18,s21=0.34;n2=13,s22=0.29 α=0.10F(n1−1,n2−1)(α2)=F(17,12)(0.05)=2.59F(n1−1,n2−1)(α2)=F(17,12)(0.95)=1F(12,17)(0.05)=12.38 于是得σ21σ22的置信度为0.90的置信区间为 (73.4464.09×2.59,73.4464.09×12.38)=(0.44,2.73) ### 练习假设随机变数X～Ｎ(a,2.8)，现有X的10个观察值X1,…,X10，已知X¯¯¯=110∑10i=1xi=1500, **1)求a的置信度为0.95置信区间** 解1）由于σ2=2.82已知，故选U=X¯−aσ/n√～N(0,1) 由α=0.5⇒uα=1.96，a的置信度为0.95置信区间为 [X¯¯¯−uασn√,X¯¯¯+uασn√]=[1500−1.96×2.810−−√,1500+1.96×2.810−−√]=[1498.3,1501.7] **2)要想使0.95的置信区间长度l小于1，观察值个数n最少应去多少？** 解2） l=(X¯¯¯+uασn√)−(X¯¯¯−uασn√)=2uασn√ 要使a的置信度为0.95置信区间的长度小于1, 即 2uασn√<1⇒2×1.96×2.8n<1 ⇒n>(2×1.96×2.8)2=120.47 所以观察值个数n最少应取121 **3）如果样本容量n=100，那么区间(X¯¯¯−1,X¯¯¯+1)作为a的区间估计，其置信度是什么？** 解3）置信区间若为(X¯¯¯−1,X¯¯¯+1)，则l=2 即有等式2uασn√=2⇒uα=100√2.8=3.57 P(|U|≤uα)=P(|U|≤3.57)=2Φ(3.57)−1=2×0.9998−1=0.9996 置信度为0.9996