三大抽样分布

🔖 math
🔖 probability and statistics
Author

Guangyao Zhao

Published

Aug 15, 2022

1 卡方分布(\(\chi^2\)

假设 \(X_1,X_2,...,X_n\) 来自正态总体 \(N(0,1)\) 的样本(注意事件 \(X_i\) 可能都含有多个样本),则称统计量:

\[ \chi^2 = X_1^2+X_2^2+...+X_n^2 \]

服从自由度为 \(n\)\(\chi^2\)分布,记作 \(\chi^2\sim\chi^2(n)\)。其中 \(\chi^2(n)\)分布的概率密度

\[ f(y)=\left\{\begin{array}{ll} \frac{1}{2^{n / 2} \Gamma(n / 2)} y^{n / 2-1} e^{-y / 2}, & y>0 \\ 0, & \text { other } \end{array}\right. \]

由以上定义可知,卡方分布是建立在正态分布构造而成的新的分布,卡方分布的参数只有『自由度一个』(期望为 \(n\),方差为 \(2n\)),当自由度很大时,\(\chi^2\) 近似服从正态分布。

1.1 卡方分布的期望

\[ E(\chi^2)=E(X_1^2+X_2^2+...+X_n^2)=\sum_{ i=1}^{n}E(X_i^2)=nE(X^2) \]

在求卡方分布的期望时,需要用到:\(D(X)=E(X^2)-E^2(X)\),即:

\[ nE(X^2) = n\left(D(X) + E^2(X)\right) = n(1 + 0^2) = n \]

即,卡方分布的期望就是其自由度。

1.2 卡方分布的方差

因为彼此独立,则根据 \(D(X+Y) = D(X)+D(Y)\) 可得:

\[ \begin{aligned} D(\chi^2)&=D(X_1^2+X_2^2+...+X_n^2)\\ &=\sum_{ i=1}^{n}D(X_i^2)=nD(X^2)\\ &=nD(X^2)\\ &=n\{E(X^4)-E^2(X^2)\}\\ &=n\left\{\int_{-\infty}^{+\infty}x^4\frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx-1\right\}\\ &=n(3-1)=2n \end{aligned} \]

1.3 一个有意思的例子

证明:\(X_1^2+\frac{1}{2}(X_2+X_3)^2\sim \chi^2(2)\)

因为 \(X\sim N(0,1)\),所以 \(X_2+X_3 \sim N(0,2)\),将 \(X_2+X_3\) 转化为标准正态分布后 \(\frac{X_2+X_3-0}{\sqrt{2}}\),即原问题可以转化为:

\[ X_1^2+\frac{1}{2}(X_2+X_3)^2=X_1^2+\left(\frac{X_2+X_3}{\sqrt{2}}\right) \]

2 \(t\) 分布

假设 \(X\sim N(0,1), Y\sim \chi^2(n)\),且 \(X,Y\) 相互独立,则称统计量

\[ t=\frac{X}{\sqrt{Y/n}} \]

服从自由度为 \(n\)\(t\) 分布,记作 \(t\sim t(n)\)\(t\) 的概率密度函数为:

\[ h(t)=\frac{\Gamma[(n+1) / 2]}{\sqrt{\pi n} \Gamma(n / 2)}\left(1+\frac{t^{2}}{n}\right)^{-(n+1) / 2},-\infty<t<+\infty \]

图像如下:

2.1 性质

  • \(t\) 分布图形关于 \(t=0\) 对称。
  • \(n\) 足够大的时候,趋于标准正态分布。

3 \(F\) 分布

假设 \(U\sim \chi^2(n_1), V\sim \chi^2(n_2)\),且 \(U,V\) 相互独立,则定义分布:

\[ F=\frac{U/n_1}{V/n_2} \]

服从自由度为 \((n_1,n_2)\)\(F\) 分布,记作 \(F\sim F(n_1,n_2)\)。图像如下:

3.1 \(F\) 分布的性质

\(F\sim F(n_1,n_2)\),则 \(\frac{1}{F}\sim F(n_2,n_1)\),证明过程如下:

\[ F=\frac{\frac{\chi^2(n_1)}{n_1}}{\frac{\chi^2(n_2)}{n_2}}\\ \frac{1}{F}=\frac{\frac{\chi^2(n_2)}{n_2}}{\frac{\chi^2(n_1)}{n_1}}\,\sim F(6,3)\\ \]

3.2 例子

假设 \(X_1,X_2,...,X_20\) 是来自总体 \(N(0,4)\) 的样本,统计量 \(Y=\sum_{k=1}^{9}X_k^2, Z=\frac{3X_{20}}{\sqrt{Y}}, W=\frac{Y}{\sum_{k=11}^{18}X_k^2}\),则:

  • \(\frac{Y}{4} \sim \chi^2(9)\)
  • \(Z\sim t(9)\)
  • \(W\sim F(9,8)\)

证明:

在三大分布中,一定要注意变量是否是标准正态分布,若不是,则需要转化为正态分布。变量 \(X\) 转化为标准正态分布后为 \(\frac{X-0}{2}\),对于

\[ \frac{Y}{4}=\frac{1}{4}\sum_{k=1}^{9}X_k^2=\sum_{k=1}^{9}\left(\frac{X_k}{2}\right)^2\sim \chi^2(9) \]

\[ Z=\frac{3X_{20}}{\sqrt{Y}}=\frac{\frac{X_{20}}{2}}{\frac{1}{3}\frac{1}{2}\sqrt{Y}}=\frac{\frac{X_{20}}{2}}{\sqrt{\frac{\frac{1}{4}Y}{9}}}\sim t(9) \]

\[ W=\frac{Y}{\sum_{k=11}^{18}X_k^2}=\frac{Y}{4\chi^2(9)}=\frac{\frac{Y}{4}}{\chi^2(9)}\sim F(9,8) \]