数理统计 | 计算机数学模型

当研究并解决一个实际问题时，我们会遇到下面问题： • 1. 这个随机现象可以用什么样的分布律来刻划，这种分布律的选用合理吗？ • 2. 所选用的这一分布律的参数是多少？如何估计和确定这些参数？如何利用数据资料，作出尽可能精确可靠的统计结论(统计推断): 1） **估计**——从局部观测资料的统计特征，推断总体的特征(分布与矩)； 2）**假设检验**——依据抽样数据资料，对总体的某种假设作检验，从而决定对此假定是拒绝抑或接受. ### 数理统计的基本概念 **总体**：研究对象全体; 也称母体, 记作S. **样本**：总体中抽出作观测的个体;也称子样，记ω **样本容量**：抽取的个体数目;也称样本大小. ### 例子随机抽5支,得寿命数据(称为观察[测]值）： 725，520，683，992，742.(小时) 一般记为，x1 x2 x3 x4 x5. 又抽5支， x′1 x′2 x′3 x′4 x′5. 再抽5支， x′′1 x′′2 x′′3 x′′4 x′′5 . …… …… 如此继续. 各组观察值彼此不同. 如此继续. 每组中的第一支灯的寿命，也彼此不同. 这样，泛指所抽取的第一支荧光灯的寿命应是一个rv，记为 X1 . 同样第二支的寿命是rv X2 ，… 如此得一组rv : X1,X2,X3,X4,X5 称为大小为5的样本. 一般地则有大小（容量）为n 的样本,称x1,x2,...,xn为**样本观察值**[*现实*]. 抽取的样本如能切实保证其随机性，那么应该彼此独立，且能反映总体的随机规律性，即所有样本彼此独立且与总体同分布. 这样的样本，我们称之为**简单样本**. 这种抽样方法，叫**简单抽样**. 注意，在有限总体中，各观察结果可能不独立. ### 样本的数字特征与分布最简单又方便的样本函数g(X1,…,Xn)是Xi们的一次和二次的线性组合. 由于样本“平等”，线性组合中应有相等的权系数. **一次时:**样本的算术平均值X¯¯¯; **二次时:**中心化后的样本二阶中心矩S2n. 设X1,…,Xn为总体S的大小为n的样本，分别称 X¯¯¯=1n∑i=1nXi S2=1n−1∑i=1n(Xi−X¯¯¯)2 为 **样本均值** 和样本方差[（样本方差除以n-1的原因）](http://www.dutor.net/index.php/2009/10/sample-variance/) ，而依次称 Mk=1n∑i=1nXki S2n=1n∑i=1n(Xi−X¯¯¯)2 为 **样本的k阶矩** 和 **样本的二阶中心矩** . 记号：**总体k阶矩**： μk=EXk∫+∞−∞xkdFX(x) **总体的k阶中心矩** ： σk=∫+∞−∞(x−EX)kdFX(x) μ=μ1,σ2=σ2 . 注意 1)M1=X¯¯¯,S2n没叫样本方差. 2) 比较总体的期望μ、方差σ2与矩μk: 　　　 1. 样本的均值、方差及k阶矩等都是rv，并且因n有限而总是存在的. 　　　 2. 总体的期望、方差及k阶矩等不一定存在.且即便存在，也是实数值，而非rv. 3.代入观察值, 有相应的**样本矩的观察值**x,m以及s2 等. 性质如果总体k阶矩存在，则样本的k阶矩的数学期望等于总体的k阶矩，而当n趋于无穷时，样本的k阶矩以概率收敛到总体的k阶矩，即 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc3e8731.jpg "") ### 顺序统计量与经验df 仍从观察值出发设法求总体分布. 以五支荧光灯寿命数据725,520,683,992,742为例，构造 ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc416622.jpg "") 其df 函数(如后图)称为**经验df函数**. 设{xi}观察值重新依序排列为{x(n)}: x(1)≤x(2)≤⋯≤xn 令![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-07-25_5795bdc45d159.jpg "") 称为由{xi}决定的**经验df**, 简记为F∗n(x). 将以从小到大为序重新排列的一个样本，称为**顺序统计量**，专记为x(1) x(2) … xn 下面一个非常重要的定理确立经验df 的重要地位. 此定理保证，几乎由每一组观察值得到的经验df，只要n足够大，都可作为总体df的近似. 定理中一致收敛性和几乎处处收敛性，给了我们充分的自由.从而由样本去找总体df，理论上有一个完满的解决. limn→∞F∗n(x)=F(x) ### 抽样分布与统计量 #### 正态总体常用的样本函数 1.设总体S～N(μ,σ2). 则样本均值X¯¯¯～N(μ,σ2n)，从而 Z:=X¯¯¯−μσ/n√～N(0,1) 2.K2n:=∑n1(Xi−μσ)2的分布χ2(n) K2n是n个独立的标准正态变量的平方和,称n个独立的标准正态变量的平方和的分布为自由度为n的[χ2分布](http://baike.baidu.com/link?url=Nu_ktFPjY7pDAtSiJt5IXx6pOjijIZhxJp1RvQ1yFDskdSmu1gnhk6QLk9JRPZqXIorAfySMJqg2yQCo4Fo_mq). 3.(n−1)S2σ2～χ2(n−1) 样本均值与样本方差独立, 且 K2=(n−1)S2σ2=∑1n(Xi−X¯¯¯σ)2　～　χ2(n−1) 在K2n=∑n1(Xi−μσ)2中用X¯¯¯易μ得K2. 4.T:=X¯−μS/n√～　t(n−1) Z:=X¯−μσ/n√～N(0,1)中如σ未知，S2是σ2的无偏估计，自然用S代替Z中的σ引入T 如果Z　～Ｎ（０，１），Y～χ2(n)且独立，则称 t=ZY/N−−−−√～t(n) 即自由度n的[t分布](http://baike.baidu.com/link?url=scKS9Aozzu4_3ydPC18Kg4S5jrD4nkyvensgS2exsIZW-SgpuEXxDOw64SgbKV3UjdE3CNKH7bvVqfcMxD_jfq). 5.Fnm:=S21σ22S22σ21～F(n−1,m−1) 如果X～χ2(n),Y～χ2(n)，且两者相互独立，则称F=χ2(n)/nχ2(m)/m～Ｆ(n,m) 为自由度为n,m的[F分布](http://baike.baidu.com/view/1173064.htm) #### 性质 • t 分布是对称的,且n→∞极限为正态(n≥30时近似的效果就很好) . • t 分布只有k<n阶矩. • κ2分布和F分布不对称，且x<0 时为0. • κ2 分布的可加性：设U 与V 独立，且分别~κ2(n)和κ2(m)，则U＋V～κ2(n+m). 对给定的实数α∈(0,0.5), 使 P(X>y)=∫∞yfX(x)=α 成立的点y, 称为X 或其分布的上百分位α点. 特别对N(0,1)、t(n)、κ2(n)和F(n,m)分布, 分别记为 zα,tα(n),χ2α(n),Fα(n,m) 使 P(X>y)=∫∞yfX(x)=1−α 成立的点y, 称为X 或其分布的下百分位α点. 特别对N(0,1)、t(n)、κ2(n)和F(n,m)分布, 分别记为 z1−α,t1−α(n),χ21−α(n),F1−α(n,m) 百分位点的值，可由表查得. #### 例题： ##### 例题1：设X1,X2,…,Xn, 是来自总体X～N(0,σ2)的简单随机样本，求统计量 ∑10i=1(−1)iXi∑20i=11X2i−−−−−−−−√ 的分布。解：由题意可知Xk～N(0,σ2)可得 ∑10i=1(−1)iXi～N(0,10σ2) ∑10i=1(−1)iXi /10−−√σ～N(0,1) 又因为∑20i=11(X2iσ)～χ2(10) 故由t分布定义可得 ∑10i=1(−1)iXi∑20i=11X2i−−−−−−−−√ = ∑10i=1(−1)iXi10−−√σ(∑20i=11(X2i/10)σ)−1～t(10) ##### 例题2：设X1,X2,…,Xn+1是正态总体的简单样本，前面容量为n的样本均值和样本二阶中心矩分别为X¯¯¯ 和S2n 试求下列样本函数的分布 1)(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2 2)Xn+1−X¯Snn−1n+1−−−√ 解： 1) (n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2=(Xi−μ)2σ2∑ni=2(Xi−μσ)2n−1 分子服从χ2(1)，分母服从χ2(n−1) 所以整个式子服从F(1,n−1) 2) Xn+1−X¯Snn−1n+1−−−√ 分母部分变成： S2n(n−1)σ2～χ2(n−1) 分子部分变成： Xn+1−X¯σ～Ｎ(0,1) 因此原式变成： Xn+1−X¯σS2n(n−1)σ2√ / n−1√ 服从t(n−1)