点估计
1 定义
假设总体 \(X\) 的分布函数的形式已经知道,但一个或多个参数未知。借助于总体 \(X\) 的一个样本来估计总体未知参数的值的问题,称之为参数的点估计问题。
- 已知:总体 \(X\) 的分布函数的 \(F(x;\theta)\) 的形式
- 未知:待估参数 \(\theta\)
\(X_1,X_2,...,X_n\) 是 \(X\) 的一个样本;\(x_1,x_2,...,x_n\) 是响应的样本值。在点估计中最常用的是矩估计和最大似然估计。
2 矩估计
样本的 \(k\) 阶矩依概率收敛于总体的 \(k\) 阶矩。即:
\[ A^k=E(X^k)=\frac{1}{n}\sum_{i=1}^{n}X^k \]
- 总体中有几个未知参数,就建立几个方程。对于均匀分布有未知数 \(a,b\),所以需要 \(2\) 个方程;对于求解分布的 \(\mu\) 和 \(\sigma^2\) 时需要建立 \(2\) 个方程。
- 常用公式:\(E(X^2)=D(X)+E^2(X)\)
2.1 例子1
假设总体 \(X\) 在 \([a,b]\)上服从均匀分布,试着求 \(a,b\) 的矩估计量。
因为有两个未知参数,所以需要两个方程式,即:
一阶矩:
\[ E(X)=\frac{1}{n}\sum_{i=1}^{n}X_i=\frac{b-a}{2}\\ \]
二阶矩:
\[ E(X^2)=\frac{1}{n}\sum_{i=1}^{n}X_i^2=D(X)+E^2(X)=\frac{b-a}{12}+\left(\frac{b-a}{2}\right) \]
根据以上两个方程式即可求解出 \(a,b\):
\[ \hat{a}=\bar{X}-\sqrt{\frac{3}{n}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2}\\ \hat{b}=\bar{X}+\sqrt{\frac{3}{n}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2}\\ \]
2.2 例子2
尝试求均值 \(\mu\) 和 方差 \(\sigma^2\) 的矩估计量。
\[ A_1=E(X)=\frac{1}{n}\sum_{i=1}^{n}X_i=\bar{X}=\mu\\ A_2=E(X^2)=\frac{1}{n}\sum_{i=1}^{n}X_i^2=D(X)+E^2(X)=\sigma^2+\mu^2 \]
求解得:
\[ \hat{\mu}=\bar{X}\\ \sigma^2=\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2 \]
该结论适用于任意分布的数据集。
3 最大似然估计 (Maximum Likelihood Estimation, MLE)
最大似然估计的思想很简单:在已知分布的前提下,既然抽样的时候抽到了样本值 \(x_1,x_2,...,x_n\),那么就可以感性地认为这一组样本值的概率 \(L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_m)\) 比较大(最大),因此可以求出一组 \(\theta_2,...,\theta_m\),使得概率 \(L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_m)\) 最大。求解步骤(离散)如下:
写出似然函数:
\[ L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_m)=\prod_{i=1}^{n}P\{X=x_1\} \]
因为多个数相乘时,取对数时可以轻松地化简但单调性不变,所以对数似然更加方便。对似然函数两边取对数,得到对数似然函数:
\[ \ln L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_m)=\sum_{i=1}^{n}P\{X=x_1\} \]
对每一个参数求偏导:
\[ \left\{\begin{array}{l} \frac{\partial \ln L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right)}{\partial \theta_{1}}=0 \\ \frac{\partial \ln L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right)}{\partial \theta_{2}}=0 \\ \cdots \\ \frac{\partial \ln L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right)}{\partial \theta_{m}}=0 \end{array}\right. \]
求解对数似然方程:
\[ \left\{\begin{array} { l } { \theta _ { 1 } = \theta _ { 1 } ( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ) } \\ { \theta _ { 2 } = \theta _ { 2 } ( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ) } \\ { \vdots } \\ { \theta _ { m } = \theta _ { m } ( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ) } \end{array} \text { ,则 } \left\{\begin{array}{l} \hat{\theta}_{1}=\theta_{1}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \\ \hat{\theta}_{2}=\theta_{2}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \\ \vdots \\ \hat{\theta}_{m}=\theta_{m}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \end{array}\right.\right. \]
4 矩估计 vs 最大似然估计
- 矩估计:不需要知道总体分布,只要求各阶矩存在即可。但是精度差
- 最大似然估计:需要提前知道分布,计算繁琐。但是精度比矩估计高,应用也比其广泛
5 估计量的评选标准
5.1 无偏性(估计量和真实值尽量接近)
假设 \(\hat{\theta}=\theta(X_1,X_2,...,X_n)\) 是 \(\theta\) 的估计量,若 \(E(\hat{\theta})=\theta\),则称 \(\hat{\theta}=\theta(X_1,X_2,...,X_n)\) 是 \(\theta\) 的无偏估计。
5.2 有效性(估计量和真实值的离散程度要小)
假设 \(\hat{\theta_1}, \hat{\theta_2}\) 均为 \(\theta\) 的无偏估计,若 \(D(\hat{\theta_1}) < D(\hat{\theta_2})\),则称 \(\hat{\theta_1}\) 比 \(\hat{\theta_2}\) 有效。(注意前提)
5.3 相合性
相合性说的是虽然 \(\hat{\theta} \ne \theta\) 但是可依概率收敛于 \(\theta\) 时,就称作相合估计量。