数理统计中的点估计 | 计算机数学模型

• 统计推断的基本问题有二：估计问题，和假设检验问题. • 本章讨论总体参数的点估计和区间估计.理解这两种估计的思想，掌握求参数估计量的方法和评判估计量好坏的标准. ### 点估计 ### 问题的提出设灯泡寿命T～N(μ,σ2)，但参数μ和σ2未知. 现在要求通过对总体抽样得到的样本，构造两样本函数分别μ和σ2作出估计,称为估计量, 记为μ′和σ2′,代入观察值x=(x1,…,xn)，得相应估计值.在不致混淆时统称为**估计**. 借助于总体的一个样本，构造适当的样本函数来估计总体S未知参数的值的问题称为参数的点估计问题. • 两种常用的构造估计量的方法: 矩估计法和极大似然估计法. ### 矩估计 #### 思想与方法设总体k阶矩存在，对于连续型总体X，它的m阶原点矩为 μk:=E(Xk)=∫+∞−∞xkdF(x,θ) 若X为离散型的，则 μk:=E(Xk)=∑i=1nxkF(x,θ) 这里θ为未知参数向量. 可见μk是θ的函数，改记为μk(θ) . 设测得10个灯泡寿命(失效时间)分别为 166，185，232，242，264，268，270，275，285，312 (小时）. 那么自然想到平均寿命为 (166+185+...+312)/10=249.9（小时）即用样本均值的观测值x¯来估计总体的平均寿命(期望寿命) μ 即 μ^=X¯¯¯=1n(X1+X2+⋯+Xn) 对μk(θ),k阶样本原点矩为 μk^(θ)=Mk=1n(Xk1+Xk2+⋯+Xkn) 这就是矩估计的思想：用样本的k阶矩作为总体k阶矩的估计量.如果未知参数有m个，则可建立m个方程 μ^k(θ1,…,θm)=Mk,k=1,…,m (如总体μm存在). 从中解出θj=θj(X1,X2,…,Xn), 改记为θ^,并作为θj的估计量. 称这种估计量为**矩估计量**, 相应观察值称为**矩估计值**. 由上一篇文章讲得经验df函数性质可以知道样本矩几乎处处收敛于总体矩， ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc478981.jpg "") • 样本矩的连续函数也几乎处处收敛于总体矩的相应的连续函数,它保证:几乎每次从容量足够大的样本观测值，都可得到相应总体参数的近似值. #### 例题1 设总体X的二阶矩存在，求总体X的期望和方差的矩估计量. 解： m=2，可得 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc491bdb.jpg "") （将μ^和σ^2当做未知量，将Xi当做已知量，解方程组）解得 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc4a85fd.jpg "") 结论：不论总体有什麽样的分布，只要它的*期望*和*方差*存在，则它们的矩估计量都分别是其样本均值和样本的二阶中心矩. 为突出是矩估计量，也常加下标M，例如μ^M #### 例题2 设总体X～U(0,θ), θ未知，(X1,…,Xn)是一个样本, 试求θ的矩估计量. 解: 直接由上例结果，令解得θ的矩估计量 θ^M=2X¯¯¯ #### 例题3 设总体，即具有概率密度 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc4c0b01.jpg "") 这里a，b为未知参数，(X1,X2,…,Xn)为抽自X的简单随机样本由于E(X)=a+b2, D(X)=(b−a)212 令 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc4dbdd5.jpg "") 由此可解得a和b的矩估计为 a^=X¯¯¯−3√Snb^=X¯¯¯+3√Sn 其中S2n=1n∑ni=1(Xi−X¯¯¯)2 ### 极大似然估计法 #### 思想和方法假设在一个罐中放着许多黑球和白球，并假定已知它们的数目之比为，但不知哪种颜色的球多。如果我们有放回地从罐中抽取个球，则其中的黑球数服从二项分布： P(X=k)=Ck3pkq3−k,k=0,1,2,3 其中p=罐中黑球数目罐中全部球的数目,q=1−p，由假设知道p可能取值为14或34. 现在根据样本中的黑球数，来估计未知参数，也就是说在14和34之间作一选择。对抽样的四种可能结果计算出相应的概率： ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc4f3254.jpg "") 从表1中可见，如果样本中的黑球数为0，那么具有X=0的样本来自p=14的总体的可能性比来自p=34的总体的可能性大，这时应当估计p为14而不是 34。如果样本中黑球数为2，那么具有X=2的样本来自p=34的总体的可能性比来自p=14的总体的可能性大，这时应当估计p为34而不是14。从而可以选择估计量： ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc51cf97.jpg "") 也就是说根据样本的具体情况来选择估计量 p^，使得出现该样本的可能性最大。一般地，若总体X具有概率密度p(x,θ1,θ2,…,θk)，其中θ1,θ2,…,θk为未知参数，又设(x1,x2,…,xn)是样本的一组观察值，那么样本(X1,X2,…,Xn)落在点(x1,x2,…,xn)的邻域内的概率为∏ni=1p(xi;θ1,θ2,…,θk)dxi，它是θ1,θ2,…,θk的函数。最大似然估计的直观想法是：既然在一次试验中得到了观察值(x1,x2,…,xn)，那么我们认为样本落入该观察值(x1,x2,…,xn) 的邻域内这一事件应具有最大的可能性，所以应选取使这一概率达到最大的参数值作为参数真值的估计。记离散型时θ应使 L(x,θ):=L(x1,…,xn;θ)=∏i=1np(xi;θ) 最大; 连续型时θ应使 f(x1,…,xn;θ)dx1…dxn=∏i=1nf(xi;θ)dxi 也即, 使L(x,θ)=∏ni=1f(xi;θ)最大. 称L(x,θ)为样本的似然函数. ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc5349db.jpg "") 这样得到的估计值, 称为参数θ的极大似然估计值, 而相应的统计量称为参数θ的极大似然估计量. 求θ的最大似然估计就是求似然函数L(x;θ)的最大值点的问题。如L(x;θ)关于θ可微, 这时也可以从方程 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc55807e.jpg "") 解出. (1.12)和(1.13)都称为**似然方程**. 由于在许多情况下，求lnL(x;θ)的最大值点比较简单，而且lnx是x的严格增函数，因此在lnL(x;θ)对θi（i=1,2,…,k）的偏导数存在的情况下，可由(1.13)式求得. 解这一方程组，若lnL(x;θ)的驻点唯一，又能验证它是一个极大值点，则它必是lnL(x;θ)的最大值点，即为所求的最大似然估计。但若驻点不唯一，则需进一步判断哪一个为最大值点。还需指出的是，若 lnL(x;θ)对 θi（i=1,2,…,k）的偏导数不存在，则我们无法得到方程组（1.13），这时必须根据最大似然估计的定义直接求L(x,θ)的最大值点。有时我们需要估计g(θ1,θ2,…,θk)，如果θ^1,θ^2,…,θ^k分别是θ1,θ2,…,θk 的最大似然估计，且g(θ1,θ2,…,θk)为连续函数，则g(θ^1,θ^2,…,θ^k) 是g(θ1,θ2,…,θk) 的最大似然估计。 #### 例题1 设X～N(μ,σ2)， x1,…,xn 为一个样本值求未知参数μ和σ2的极大似然估计量. 解：似然函数为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc5738e7.jpg "") 它的对数为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc58fb05.jpg "") 解对数似然方程组（见1.13）： ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc5b08a7.jpg "") 可得 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc5cf370.jpg "") 由于对数似然方程组有唯一解，且它一定是最大值点，于是 μ和σ2的最大似然估计为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc5e742c.jpg "") #### 例题2 求事件发生的概率的最大似然估计。解：若事件A发生的概率P(A)=p，定义随机变量 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc614119.jpg "") 则X～B(1,p)，其概率分布为 P(X=xi)=pxi(1−p)1−xi,xi=0,1 设(X1,X2,…,Xn)为抽自X的样本，则似然函数为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc6379bb.jpg "") 由对数似然方程 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc653b14.jpg "") 解得 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc66c507.jpg "") 注意到∑ni=1xi≤n，容易验证d2lnLdp2在x¯处取得负值，于是x¯是lnL的最大值点，因而p的最大似然估计为p^=X¯¯¯ 于是我们有结论：频率是概率的最大似然估计。 #### 例题3 设总体 X～U[a,b]，(X1,X2,…,Xn) 为抽自X的样本，求未知参数a,b的最大似然估计。解：由于X的密度函数为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc682152.jpg "") 因此似然函数为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc69ada1.jpg "") 显然，作为a,b的二元函数，L是不连续的。这时我们不能用方程组（1.13）来求最大似然估计，而必须从最大似然估计的定义出发来求L的最大值点。为使L达到最大，b-a应尽量地小，但b又不能小于max{x1,x2,…,x3}，否则L(x1,x2,…,x3;a,b)=0 ；类似地，a 又不能大于min{x1,x2,…,x3}。因此a,b的最大似然估计为 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc6b3cee.jpg "") ## 估计的优良性准则同一个未知参数，可以有几种不同的估计，这时就存在采用哪一种估计的问题。另一方面，对同一个参数，用矩估计法和最大似然估计法，即使得到同一个估计，也存在衡量该估计量优劣的问题。设θ为未知参数， θ^是θ的估计，直观上讲，θ^与θ越接近越好，为了度量θ^与θ的接近程度，我们可以采用|θ^−θ|作为衡量的标准，但由于θ^(X1,X2,…,Xn)依赖于样本，它本身是随机变量，而θ又是未知的，因此很难采用。下面我们从不同的角度，提出几种衡量估计优劣的标准。 ### 一致性 #### **定义1：** 设θ^(X1,X2,…,Xn)是总体X分布的未知参数θ的估计量，若θ^依概率收敛于θ，即对任意的ε>0， limn→∞P(|θ^−θ|<ε)=1 则称θ^是θ的一致估计。满足一致性的估计量 θ^，当样本容量n 不断增大时， θ^观察值能越来越接近参数真值。这很容易理解，当样本容量n越大时，信息越多，当然估计就越准确。由大数定律知，样本均值X¯¯¯是总体均值 μ（即 E(X)）的一致估计。还有，样本修正方差S2是总体方差σ2（即D(X)）的一致估计。 #### 例题1 若总体X服从正态分布N(μ,σ2)， (X1,X2,…,Xn)是来自总体 X的容量为n的样本，EXi=μ ，DXi=σ2 ，i=1,2,…,n ，则由大数定律知，X¯¯¯依概率收敛于μ，即 limn→∞P(|X¯¯¯−μ|<ε)=1 也即未知参数μ的最大似然估计或矩估计μ^=X¯¯¯是μ的一致估计。 #### 例题2 若总体X服从泊松分布P(λ)，(X1,X2,…,Xn) 是从总体X中抽取的容量为n的样本，且EXi=λ ，DXi=λ ，i=1,2,…,n，则 X¯¯¯依概率收敛于 λ，故未知参数λ 的最大似然估计或矩估计 λ^=X¯¯¯是 λ的一致估计。 #### 例题3 若总体X服从0-1分布，P(X=1)=p,0<p<1， (X1,X2,…,Xn) 是从X中抽取的容量为n的样本EXi=p ，DXi=p(1−p) ，i=1,2,…,n则 X¯¯¯依概率收敛于 p，故未知参数p 的最大似然估计或矩估计 p^=X¯¯¯是 p的一致估计。 ### 无偏性设θ为总体分布的未知参数，θ^(X1,X2,…,Xn) 是θ的一个估计，它是一个统计量。对于不同的样本 (X1,X2,…,Xn)，θ^(X1,X2,…,Xn) 取不同的值。 #### 定义2 如果θ^(X1,X2,…,Xn)的均值等于未知参数θ ，即E[θ^(X1,X2,…,Xn)]=θ 对一切可能的θ成立 ————（3）则称θ^(X1,X2,…,Xn)为θ 的无偏估计。无偏估计的意义是：用θ^(X1,X2,…,Xn)去估计未知参数 θ，有时候可能偏高，有时候可能偏低，但是平均说来等于未知参数 θ。在（3）式中，对一切可能的θ ，是指在每个具体的参数估计问题中，参数θ取值范围内的一切可能的值。例如，若θ是正态总体N(μ,σ2)的均值μ，那么它的一切可能取值范围是 (−∞,+∞)。若θ是方差 σ2，则它的取值范围为(0,+∞)。我们之所以要求（3）对一切可能的θ 都成立，是因为在参数估计中，我们并不知道参数的真值。因此，当我们要求一个估计量具有无偏性时，自然要求它在参数的一切可能取值范围内处处都是无偏的。 #### 例题1 设(X1,X2,…,Xn) 是抽自均值为μ的总体的样本，考虑μ的如下估计量： μ^1=X1μ^2=X1+X22μ^3=X1+X2+Xn−1+Xn4 假设n≥4 因为EXi=μ，容易验证Eμ^i=μ,i=1,2,3 ，所以μ都是的的无偏估计，但是 μ^4=2X1μ^5=X1+X23 都不是μ的的无偏估计。对于任一总体 X，由于EX¯¯¯=μ，所以X¯¯¯ 是μ的的无偏估计，但由于 ES2n=E[1n∑ni=1(Xi−X¯¯¯)2]=n−1nσ2，故S2n不是总体方差σ2的无偏估计，而修正的样本方差是总体方差 S2n=1n−1∑ni=1(Xi−X¯¯¯)2的无偏估计。若 θ^是 θ的估计， g(θ)为θ 的实函数，通常我们总是用g(θ^) 去估计g(θ) ，但是值得注意的是，即使 Eθ^=θ，也不一定有E(g(θ^))=g(θ) 。 #### 例题2 修正样本方差的标准差S不是总体标准差σ的无偏估计。事实上，由于 σ2=E(S2)=DS2+[ES]2≥[ES]2，从而σ≥ES ，即 S不是σ的无偏估计。若θ的估计θ^不是无偏的，但当n→∞ 时，Eθ^→θ ，则称θ^ 是θ的**渐近无偏估计**。显然，样本方差S2n是总体方差的一个渐近无偏估计。无偏性对估计量而言是很基本的要求，它的直观意义是没有系统误差。由上例知，对于一个未知参数，它的无偏估计可以不止一个。那么，怎么来比较它们的好坏呢？我们很自然地想到，一个好的估计量应该方差比较小，只有这样才能得到比较稳定的估计值。 ### 有效性 #### 定义3 设θ^1(X1,X2,…,Xn)和θ^2(X1,X2,…,Xn)均为参数θ的无偏估计，如果 Dθ^1<Dθ^2 则称**θ^1较θ^2有效**。当θ^(X1,X2,…,Xn)是所有无偏估计中方差最小时，称θ^(X1,X2,…,Xn) 为最小方差无偏估计。 #### 例题设(X1,X2,…,Xn) 是来自总体X的容量为n的样本，证明总体均值μ （即 EX）的估计量μ^1=X¯¯¯比μ^2=∑ni=1aiXi有效，其中ai≥0,i=1,2,…,n且∑ni=1ai=1 。证明由于 Eμ^1=μ，Eμ^2=E(∑ni=1aiXi)=μ∑ni=1ai=μ ，所以μ^1,μ^2均是μ的无偏估计。又 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc6cb772.jpg "") 从而 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc6eced8.jpg "") 所以X¯¯¯比∑ni=1aiXi有效。由上例和一致性知，样本均值X¯¯¯是总体均值 μ（即EX）的一致最小方差无偏估计。同样还可以证明，样本修正方差S2是总体方差σ2 （即DX ）的一致最小方差无偏估计。