点估计

🔖 math
🔖 probability and statistics
Author

Guangyao Zhao

Published

Aug 18, 2022

1 定义

假设总体 \(X\) 的分布函数的形式已经知道,但一个或多个参数未知。借助于总体 \(X\) 的一个样本来估计总体未知参数的值的问题,称之为参数的点估计问题。

  • 已知:总体 \(X\) 的分布函数的 \(F(x;\theta)\) 的形式
  • 未知:待估参数 \(\theta\)

\(X_1,X_2,...,X_n\)\(X\) 的一个样本;\(x_1,x_2,...,x_n\) 是响应的样本值。在点估计中最常用的是矩估计和最大似然估计。

2 矩估计

样本的 \(k\) 阶矩依概率收敛于总体的 \(k\) 阶矩。即:

\[ A^k=E(X^k)=\frac{1}{n}\sum_{i=1}^{n}X^k \]

  • 总体中有几个未知参数,就建立几个方程。对于均匀分布有未知数 \(a,b\),所以需要 \(2\) 个方程;对于求解分布的 \(\mu\)\(\sigma^2\) 时需要建立 \(2\) 个方程。
  • 常用公式:\(E(X^2)=D(X)+E^2(X)\)

2.1 例子1

假设总体 \(X\)\([a,b]\)上服从均匀分布,试着求 \(a,b\) 的矩估计量。

因为有两个未知参数,所以需要两个方程式,即:

一阶矩:

\[ E(X)=\frac{1}{n}\sum_{i=1}^{n}X_i=\frac{b-a}{2}\\ \]

二阶矩:

\[ E(X^2)=\frac{1}{n}\sum_{i=1}^{n}X_i^2=D(X)+E^2(X)=\frac{b-a}{12}+\left(\frac{b-a}{2}\right) \]

根据以上两个方程式即可求解出 \(a,b\)

\[ \hat{a}=\bar{X}-\sqrt{\frac{3}{n}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2}\\ \hat{b}=\bar{X}+\sqrt{\frac{3}{n}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2}\\ \]

2.2 例子2

尝试求均值 \(\mu\) 和 方差 \(\sigma^2\) 的矩估计量。

\[ A_1=E(X)=\frac{1}{n}\sum_{i=1}^{n}X_i=\bar{X}=\mu\\ A_2=E(X^2)=\frac{1}{n}\sum_{i=1}^{n}X_i^2=D(X)+E^2(X)=\sigma^2+\mu^2 \]

求解得:

\[ \hat{\mu}=\bar{X}\\ \sigma^2=\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2 \]

该结论适用于任意分布的数据集。

3 最大似然估计 (Maximum Likelihood Estimation, MLE)

最大似然估计的思想很简单:在已知分布的前提下,既然抽样的时候抽到了样本值 \(x_1,x_2,...,x_n\),那么就可以感性地认为这一组样本值的概率 \(L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_m)\) 比较大(最大),因此可以求出一组 \(\theta_2,...,\theta_m\),使得概率 \(L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_m)\) 最大。求解步骤(离散)如下:

写出似然函数:

\[ L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_m)=\prod_{i=1}^{n}P\{X=x_1\} \]

因为多个数相乘时,取对数时可以轻松地化简但单调性不变,所以对数似然更加方便。对似然函数两边取对数,得到对数似然函数:

\[ \ln L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_m)=\sum_{i=1}^{n}P\{X=x_1\} \]

对每一个参数求偏导:

\[ \left\{\begin{array}{l} \frac{\partial \ln L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right)}{\partial \theta_{1}}=0 \\ \frac{\partial \ln L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right)}{\partial \theta_{2}}=0 \\ \cdots \\ \frac{\partial \ln L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right)}{\partial \theta_{m}}=0 \end{array}\right. \]

求解对数似然方程:

\[ \left\{\begin{array} { l } { \theta _ { 1 } = \theta _ { 1 } ( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ) } \\ { \theta _ { 2 } = \theta _ { 2 } ( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ) } \\ { \vdots } \\ { \theta _ { m } = \theta _ { m } ( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ) } \end{array} \text { ,则 } \left\{\begin{array}{l} \hat{\theta}_{1}=\theta_{1}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \\ \hat{\theta}_{2}=\theta_{2}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \\ \vdots \\ \hat{\theta}_{m}=\theta_{m}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \end{array}\right.\right. \]

4 矩估计 vs 最大似然估计

  • 矩估计:不需要知道总体分布,只要求各阶矩存在即可。但是精度差
  • 最大似然估计:需要提前知道分布,计算繁琐。但是精度比矩估计高,应用也比其广泛

5 估计量的评选标准

5.1 无偏性(估计量和真实值尽量接近)

假设 \(\hat{\theta}=\theta(X_1,X_2,...,X_n)\)\(\theta\) 的估计量,若 \(E(\hat{\theta})=\theta\),则称 \(\hat{\theta}=\theta(X_1,X_2,...,X_n)\)\(\theta\) 的无偏估计。

5.2 有效性(估计量和真实值的离散程度要小)

假设 \(\hat{\theta_1}, \hat{\theta_2}\) 均为 \(\theta\) 的无偏估计,若 \(D(\hat{\theta_1}) < D(\hat{\theta_2})\),则称 \(\hat{\theta_1}\)\(\hat{\theta_2}\) 有效。(注意前提)

5.3 相合性

相合性说的是虽然 \(\hat{\theta} \ne \theta\) 但是可依概率收敛于 \(\theta\) 时,就称作相合估计量。