数理统计
最后更新于:2022-04-01 16:06:50
当研究并解决一个实际问题时, 我们会
遇到下面问题:
• 1. 这个随机现象可以用什么样的分布律
来刻划,这种分布律的选用合理吗?
• 2. 所选用的这一分布律的参数是多少?
如何估计和确定这些参数?
如何利用数据资料,作出尽可能精确可
靠的统计结论(统计推断):
1) **估计**——从局部观测资料的统计特征,推断总体的特征(分布与矩);
2)**假设检验**——依据抽样数据资料,对总体的某种假设作检验,从而决定对此假定是拒绝抑或接受.
### 数理统计的基本概念
**总体**:研究对象全体; 也称母体, 记作S.
**样本**:总体中抽出作观测的个体;也称子样,记ω
**样本容量**:抽取的个体数目;也称样本大小.
### 例子
随机抽5支,得寿命数据(称为观察[测]值):
725,520,683,992,742.(小时)
一般记为,x1 x2 x3 x4 x5.
又抽5支, x′1 x′2 x′3 x′4 x′5.
再抽5支, x′′1 x′′2 x′′3 x′′4 x′′5 .
…… ……
如此继续. 各组观察值彼此不同.
如此继续. 每组中的第一支灯的寿命,
也彼此不同. 这样,泛指所抽取的第一支荧光灯的寿命应是一个rv,记为
X1 . 同样第二支的寿命是rv X2 ,…
如此得一组rv : X1,X2,X3,X4,X5
称为大小为5的样本.
一般地则有大小(容量)为n 的样本,称x1,x2,...,xn为**样本观察值**[*现实*].
抽取的样本如能切实保证其随机性,那么应该彼此独立,且能反映总体的随机规律性,即所有样本彼此独立且与总体同分布.
这样的样本,我们称之为**简单样本**. 这种抽样方法,叫**简单抽样**.
注意,在有限总体中,各观察结果可能不独立.
### 样本的数字特征与分布
最简单又方便的样本函数g(X1,…,Xn)是Xi们的一次和二次的线性组合.
由于样本“平等”,线性组合中应有相等的权系数.
**一次时:**样本的算术平均值X¯¯¯;
**二次时:**中心化后的样本二阶中心矩S2n.
设X1,…,Xn为总体S的大小为n的样本, 分别称
X¯¯¯=1n∑i=1nXi S2=1n−1∑i=1n(Xi−X¯¯¯)2
为
**样本均值**
和
样本方差[(样本方差除以n-1的原因)](http://www.dutor.net/index.php/2009/10/sample-variance/)
,而依次称
Mk=1n∑i=1nXki S2n=1n∑i=1n(Xi−X¯¯¯)2
为
**样本的k阶矩**
和
**样本的二阶中心矩**
.
记号:**总体k阶矩**:
μk=EXk∫+∞−∞xkdFX(x)
**总体的k阶中心矩**
:
σk=∫+∞−∞(x−EX)kdFX(x)
μ=μ1,σ2=σ2
.
注意
1)M1=X¯¯¯,S2n没叫样本方差.
2) 比较总体的期望μ、方差σ2与矩μk:
1. 样本的均值、方差及k阶矩等都是rv,并且因n有限而总是存在的.
2. 总体的期望、方差及k阶矩等不一定存在.且即便存在,也是实数值, 而非rv.
3.代入观察值, 有相应的**样本矩的观察值**x,m以及s2 等.
性质 如果总体k阶矩存在,则样本的k阶矩的数学期望等于总体的k阶矩,而当n趋于无穷时,样本的k阶矩以概率收敛到总体的k阶矩,即
![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc3e8731.jpg "")
### 顺序统计量与经验df
仍从观察值出发设法求总体分布. 以五支荧光灯寿命数据725,520,683,992,742为例,构造
![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc416622.jpg "")
其df 函数(如后图)称为**经验df函数**.
设{xi}观察值重新依序排列为{x(n)}: x(1)≤x(2)≤⋯≤xn
令![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc45d159.jpg "")
称为由{xi}决定的**经验df**, 简记为F∗n(x).
将以从小到大为序重新排列的一个样本,称为**顺序统计量**,专记为x(1) x(2) … xn
下面一个非常重要的定理确立经验df 的重要地位. 此定理保证,几乎由每一组观察值得到的经验df,只要n足够大,都可作为总体df的近似. 定理中一致收敛性和几乎处处收敛性,给了我们充分的自由.从而由样本去找总体df,理论上有一个完满的解决.
limn→∞F∗n(x)=F(x)
### 抽样分布与统计量
#### 正态总体常用的样本函数
1.设总体S~N(μ,σ2). 则
样本均值X¯¯¯~N(μ,σ2n),从而
Z:=X¯¯¯−μσ/n√~N(0,1)
2.K2n:=∑n1(Xi−μσ)2的分布χ2(n)
K2n是n个独立的标准正态变量的平方和,称n个独立的标准正态变量的平方和的分布为自由度为n的[χ2分布](http://baike.baidu.com/link?url=Nu_ktFPjY7pDAtSiJt5IXx6pOjijIZhxJp1RvQ1yFDskdSmu1gnhk6QLk9JRPZqXIorAfySMJqg2yQCo4Fo_mq).
3.(n−1)S2σ2~χ2(n−1)
样本均值与样本方差独立, 且
K2=(n−1)S2σ2=∑1n(Xi−X¯¯¯σ)2 ~ χ2(n−1)
在K2n=∑n1(Xi−μσ)2中用X¯¯¯易μ得K2.
4.T:=X¯−μS/n√~ t(n−1)
Z:=X¯−μσ/n√~N(0,1)中如σ未知,S2是σ2的无偏估计,自然用S代替Z中的σ引入T
如果Z ~N(0,1),Y~χ2(n)且独立,则称
t=ZY/N−−−−√~t(n)
即自由度n的[t分布](http://baike.baidu.com/link?url=scKS9Aozzu4_3ydPC18Kg4S5jrD4nkyvensgS2exsIZW-SgpuEXxDOw64SgbKV3UjdE3CNKH7bvVqfcMxD_jfq).
5.Fnm:=S21σ22S22σ21~F(n−1,m−1)
如果X~χ2(n),Y~χ2(n),且两者相互独立,则称F=χ2(n)/nχ2(m)/m~F(n,m)
为自由度为n,m的[F分布](http://baike.baidu.com/view/1173064.htm)
#### 性质
• t 分布是对称的,且n→∞极限为正态(n≥30时近似的效果就很好) .
• t 分布只有k<n阶矩.
• κ2分布和F分布不对称,且x<0 时为0.
• κ2 分布的可加性:设U 与V 独立,且分别~κ2(n)和κ2(m),则U+V~κ2(n+m).
对给定的实数α∈(0,0.5), 使
P(X>y)=∫∞yfX(x)=α
成立的点y, 称为X 或其分布的上百分位α点. 特别对N(0,1)、t(n)、κ2(n)和F(n,m)分布, 分别记为
zα,tα(n),χ2α(n),Fα(n,m)
使
P(X>y)=∫∞yfX(x)=1−α
成立的点y, 称为X 或其分布的下百分位α点. 特别对N(0,1)、t(n)、κ2(n)和F(n,m)分布, 分别记为
z1−α,t1−α(n),χ21−α(n),F1−α(n,m)
百分位点的值,可由表查得.
#### 例题:
##### 例题1:
设X1,X2,…,Xn, 是来自总体X~N(0,σ2)的简单随机样本,求统计量
∑10i=1(−1)iXi∑20i=11X2i−−−−−−−−√
的分布。
解:
由题意可知Xk~N(0,σ2)可得
∑10i=1(−1)iXi~N(0,10σ2)
∑10i=1(−1)iXi /10−−√σ~N(0,1)
又因为∑20i=11(X2iσ)~χ2(10)
故由t分布定义可得
∑10i=1(−1)iXi∑20i=11X2i−−−−−−−−√ = ∑10i=1(−1)iXi10−−√σ(∑20i=11(X2i/10)σ)−1~t(10)
##### 例题2:
设X1,X2,…,Xn+1是正态总体的简单样本,前面容量为n的样本均值和样本二阶中心矩分别为X¯¯¯ 和S2n
试求下列样本函数的分布
1)(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2
2)Xn+1−X¯Snn−1n+1−−−√
解:
1)
(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2=(Xi−μ)2σ2∑ni=2(Xi−μσ)2n−1
分子服从χ2(1),分母服从χ2(n−1)
所以整个式子服从F(1,n−1)
2)
Xn+1−X¯Snn−1n+1−−−√
分母部分变成:
S2n(n−1)σ2~χ2(n−1)
分子部分变成:
Xn+1−X¯σ~N(0,1)
因此原式变成:
Xn+1−X¯σS2n(n−1)σ2√ / n−1√
服从t(n−1)