统计推断中的参数估计理论

统计推断中的参数估计理论

该部分内容对应Hogg课本的第6-8章,主要讨论参数估计的几种常用方法。

一、参数的点估计

设随机样本$X_i \sim f(x;\theta)$,其中$\theta \in \Omega$,我们期望构造统计量$Y_1=u_1(X_1,X_2,\cdots,X_n)$对参数$\theta$有良好的估计,即寻找参数$\theta$的点估计,这主要通过两种方法:最大似然估计和矩法估计,且它们分别对应不同的准则.

概念1: 最大似然估计

从概率论的观点看,小概率事件在一次试验中是几乎不发生的,即如果在一次试验中事件$A$发生了,我们则认为$p(A)$较大. 在这一准则下,参数的取法应使概率密度(即事件发生的可能性)最大,于是我们引出最大似然估计的定义:

定义1. 参数$\theta$的最大似然估计(maximum likelihood estimate)记为$\hat{\theta}_L$,它满足

$$
\hat{\theta}_L = \arg\max_{\theta \in \Omega} L(x_1,x_2,\cdots,x_n;\theta) = \arg\max_{\theta \in \Omega} \ln L(x_1,x_2,\cdots,x_n;\theta)
$$

其中$L(x_1,x_2,\cdots,x_n;\theta)=\prod f(x_i;\theta)$称为$\theta$的似然函数(likelihood function).

性质1. 最大似然估计具有不变性(invariance property),即对于可逆函数$h$,$\eta=h(\theta)$的最大似然估计为

$$
\hat{\eta}_L=\widehat{h(\theta)}_L=h(\hat{\theta}_L)
$$

例1 (ex 6.1). 求下列密度函数中$\theta$的最大似然估计量:

(a) $f(x;\theta)=\frac{1}{\theta} e^{-\frac{x}{\theta}},0<x<\infty,0<\theta<\infty$;

(b) $f(x;\theta)=\frac{1}{2}e^{-|x-\theta|},-\infty<x<\infty,-\infty<\theta<\infty$;

(c) $f(x;\theta)=e^{-(x-\theta)},\theta \leq x < \infty,-\infty<\theta<\infty$.

解: (a) 似然函数为$L(\theta)=\prod f(x_i;\theta)=\theta^{-n} e^{-\frac{1}{\theta}\sum x_i}$,由

$$
\frac{\partial \ln L(\theta)}{\partial \theta} = \frac{\partial}{\partial \theta} \left[ -n\ln \theta-\frac{1}{\theta}\sum_{i=1}^n x_i \right] = -\frac{n}{\theta} + \frac{1}{\theta^2} \sum_{i=1}^n x_i = 0
$$

解得$\hat{\theta}_L = \frac{1}{n}\sum X_i = \overline{X}$.

(b) 似然函数为$L(\theta)=\prod f(x_i;\theta)=2^{-n} e^{-\sum|x_i-\theta|}$,取对数得

$$
\ln L(\theta)=-n \ln 2-\sum_{i=1}^n |x_i-\theta|
$$

则$\ln L(\theta)$取最大值当且仅当$\theta$取$x_1,x_2,\cdots,x_n$的中位数,所以$\hat{\theta}_L$为$X_1,X_2,\cdots,X_n$的中位数.

(c) 似然函数为$L(\theta)=\prod f(x_i;\theta)=e^{n\theta-\sum x_i}$,由

$$
\frac{\partial \ln L(\theta)}{\partial \theta} = \frac{\partial}{\partial \theta} \left[ n\theta-\sum_{i=1}^n x_i \right]=n>0
$$

知似然函数$L(\theta)$为$\theta$的单增函数,所以$\hat{\theta}_L = \min(X_i)$. $\square$

概念2: 矩法估计

首先我们给出辛钦大数定律的推广形式:设$X_1,X_2,\cdots,X_n$相互独立,与随机变量$X \sim f(x;\theta)$同分布,且$E[|X|^k]<\infty$,则$\forall \varepsilon > 0$,有

$$
\lim_{n \to \infty} P \left( \left| \frac{1}{n}\sum_{i=1}^n X_i^k - E[X^k] \right| \geq \varepsilon \right) = 0
$$

以此为准则,我们得到两种形式的矩法估计:

  • 用样本$k$阶原点矩$\overline{X^k}=\sum_{i=1}^n X_i^k$估计总体$k$阶原点矩$E[X^k]$;
  • 用样本$k$阶中心矩$\sum\limits_{i=1}^n (X_i-\overline{X})^k$估计总体$k$阶中心矩$E[(X-E[X])^k]$.

其中最常用的两类矩法估计为:

  • 用样本均值$\overline{X}=\frac{1}{n}\sum\limits_{i=1}^n X_i$估计总体均值$E[X]$;
  • 用样本方差$S_n^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^2$估计总体方差$\operatorname{var}[X]$.

性质2. 根据辛钦大数定律,参数$\theta$的矩法估计一定为相合估计,相合估计的具体定义将在本节的最后给出.

例2 (ex 6.7). 设$X \sim f(x;\theta)=\theta x^{\theta-1},0<x<1,0<\theta<\infty$,求$\theta$的矩法估计$\hat{\theta}_M$,并证明$\hat{\theta}_M$为$\theta$的相合估计.

解: 计算得总体均值为$E[X]=\int_0^1 x \cdot \theta x^{\theta-1} \mathrm{d}x=\frac{\theta}{\theta+1}$. 用样本均值估计总体均值:

$$
E[X]=\frac{\theta}{\theta+1}=\frac{1}{n}\sum_{i=1}^n X_i=\overline{X}
$$

故$\hat{\theta}_M=\frac{\overline{X}}{1-\overline{X}}$. 由强大数定律可知:$\overline{X} \stackrel{\text{a.s.}}{\rightarrow} E[X]$,于是

$$
\hat{\theta}_M=\frac{\overline{X}}{1-\overline{X}} \stackrel{\text{a.s.}}{\rightarrow} \frac{E[X]}{1-E[X]}=\theta \quad (n \to \infty) \Rightarrow \hat{\theta}_M \stackrel{p}{\rightarrow} \theta
$$

即$\hat{\theta}_M$为$\theta$的相合估计. $\square$


二、参数的区间估计

设$X \sim f(x;\theta)$,对给定置信度$1-\alpha(0<\alpha \ll 1)$,区间估计要求我们找到统计量$T_1(X_1,X_2,\cdots,X_n)$和$T_2(X_1,X_2,\cdots,X_n)$,满足

$$
P(T_1 \leq \theta \leq T_2) = 1-\alpha
$$

其中$[T_1,T_2]$称为$\theta$的置信度为$1-\alpha$的置信区间(confidence interval). 下面我们将重点放在正态总体参数的区间估计上.

概念1: 抽样分布基本定理

定理1 (抽样分布基本定理). 设$X \sim N(\mu,\sigma^2)$,$(X_1,X_2,\cdots,X_n)$是$X$的样本,则

(1) $\overline{X}$与$S_n^2$独立;

(2) $\frac{nS_n^2}{\sigma^2} \sim \chi^2(n-1), \frac{n(\overline{X}-\mu)^2}{\sigma^2} \sim \chi^2(n)$.

推论2. 设$X \sim N(\mu,\sigma^2)$,则$\sqrt{n-1}\frac{\overline{X}-\mu}{S_n} \sim t(n-1)$.

证明: $X \sim N(\mu,\sigma^2) \Rightarrow \overline{X} \sim N(\mu,\sigma^2/n)$. 由抽样分布基本定理知$\overline{X}$与$S_n^2$独立,且$\frac{nS_n^2}{\sigma^2} \sim \chi^2(n-1)$,从而

$$
\frac{\frac{\overline{X}-\mu}{\sqrt{\sigma^2/n}}}{\sqrt{\frac{nS_n^2}{\sigma^2(n-1)}}}=\sqrt{n-1}\frac{\overline{X}-\mu}{S_n} \sim t(n-1)
$$

推论3. 设$X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$,$X$与$Y$独立且$\sigma_1^2=\sigma_2^2=\sigma^2$.

设$(X_1,X_2,\cdots,X_m)$是$X$的样本,记$\overline{X}=\frac{1}{m}\sum\limits_{i=1}^m X_i$,$S_{1m}^2=\frac{1}{m}\sum\limits_{i=1}^m (X_i-\overline{X})^2$;

设$(Y_1,Y_2,\cdots,Y_n)$是$Y$的样本,记$\overline{Y}=\frac{1}{n}\sum\limits_{i=1}^n Y_i$,$S_{2n}^2=\frac{1}{n}\sum\limits_{i=1}^n (Y_i-\overline{Y})^2$.

则$T=\dfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sqrt{\frac{mS_{1m}^2+nS_{2n}^2}{m+n-2}}} \sim t(m+n-2)$.

证明: 由于$X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$,所以

$$
\overline{X}-\overline{Y} \sim N \left(\mu_1-\mu_2,\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n} \right)
$$

由抽样分布基本定理知:$\frac{mS_{1m}^2}{\sigma_1^2} \sim \chi^2(m-1),\frac{nS_{2n}^2}{\sigma_2^2} \sim \chi^2(n-1)$且二者独立,所以

$$
\frac{mS_{1m}^2}{\sigma_1^2}+\frac{nS_{2n}^2}{\sigma_2^2} \sim \chi^2(m+n-2)
$$

结合$\sigma_1^2=\sigma_2^2=\sigma^2$则有

$$
T=\frac{\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}}}{\sqrt{\frac{\frac{mS_{1m}^2}{\sigma_1^2}+\frac{nS_{2n}^2}{\sigma_2^2}}{m+n-2}}}=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sqrt{\frac{mS_{1m}^2+nS_{2n}^2}{m+n-2}}} \sim t(m+n-2)
$$

推论4. 设$X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$,$X$与$Y$独立,则

$$
F=\frac{mS_{1m}^2 (n-1)}{nS_{2n}^2(m-1)} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(m-1,n-1)
$$

证明: 由抽样分布基本定理知$\frac{mS_{1m}^2}{\sigma_1^2} \sim \chi^2(m-1),\frac{nS_{2n}^2}{\sigma_2^2} \sim \chi^2(n-1)$且二者独立,则

$$
F=\frac{\frac{mS_{1m}^2}{\sigma_1^2(m-1)}}{\frac{nS_{2n}^2}{\sigma_2^2(n-1)}}=\frac{mS_{1m}^2 (n-1)}{nS_{2n}^2(m-1)} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(m-1,n-1)
$$

概念2: 正态总体参数的区间估计

对于区间估计,只需找到包含参数的统计量且服从标准正态分布、$t$分布、$\chi^2$分布或$F$分布,就可以通过这些分布的分位数构造出相应的置信区间,下面分别对单个总体的参数$\mu,\sigma^2$以及两个总体的参数$\mu_1-\mu_2,\frac{\sigma_2^2}{\sigma_1^2}$构造区间估计所需的统计量,它们的构造全部基于上述的抽样分布基本定理.

单个总体

关于参数$\mu$:

  • $\sigma^2=\sigma_0^2$已知:$\frac{\overline{X}-\mu}{\sqrt{\sigma_0^2/n}} \sim N(0,1)$
  • $\sigma^2$未知:$\sqrt{n-1}\frac{\overline{X}-\mu}{S_n} \sim t(n-1)$

关于参数$\sigma^2$:

  • $\mu=\mu_0$已知:$\frac{\sum (X_i-\mu)^2}{\sigma^2} \sim \chi^2(n)$
  • $\mu$未知:$\frac{nS_n^2}{\sigma^2} \sim \chi^2(n-1)$

两个总体

关于参数$\mu_1-\mu_2$:

  • $\sigma_1^2,\sigma_2^2$已知:$\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \sim N(0,1)$
  • $\sigma_1^2=\sigma_2^2=\sigma^2$未知:$\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sqrt{\frac{mS_{1m}^2+nS_{2n}^2}{m+n-2}}} \sim t(m+n-2)$

关于参数$\frac{\sigma_2^2}{\sigma_1^2}$:

  • $\mu_1,\mu_2$已知:$\frac{n \sum (X_i-\mu_1)^2}{m \sum (Y_j-\mu_2)^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(m,n)$
  • $\mu_1,\mu_2$未知:$\frac{mS_{1m}^2 (n-1)}{nS_{2n}^2(m-1)} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(m-1,n-1)$

三、参数估计的优劣评价

对于参数$\theta$的点估计$\hat{\theta}$,我们需要引入一套评价标准来评判点估计的优劣,它包括:无偏性、相合性、有效性;而正是优劣评价标准的引入,促使我们去寻求参数“最好的点估计”,即一致最小方差无偏估计(UMVUE),在下一节中我们将详细探讨寻找一致最小方差无偏估计的方法.

概念1: 无偏性

定义2. 设$Y_1=u_1(X_1,X_2,\cdots,X_n)$,称$Y_1$为$\theta$的无偏估计量(unbiased estimator),如果$E[Y_1]=\theta$. 不然,称$Y_1$为$\theta$的有偏估计量(biased estimator).

概念2: 相合性

定义3. 设$Y_1=u_1(X_1,X_2,\cdots,X_n)$,称$Y_1$为$\theta$的相合估计量(consistent estimator),如果$Y_1 \stackrel{p}{\to} \theta$,即对$\forall \epsilon > 0$,有$\lim\limits_{n\to\infty} P(|Y_1-\theta| \geq \varepsilon)=0$.

概念3: 有效性

定义4. 设$Y_1,Y_2$为$\theta$的无偏估计量,即$E[Y_1]=E[Y_2]=\theta$,称$Y_1$比$Y_2$更有效(efficient),如果$\operatorname{var}[Y_1]<\operatorname{var}[Y_2]$.


四、Bayes估计

在Bayes理论中,我们对$\theta$有先验认知,即$X \sim f(x;\theta)$,$\theta$是随机变量$\Theta \sim h(\theta)$的取值. 给定充分统计量$Y=u(X_1,X_2,\cdots,X_n)$的取值$y$,关于$\theta$作预测$\delta(y)$,其最佳预测取决于损失函数$\mathscr{L}[\theta,\delta(y)]$的选取,该最佳预测称为$\theta$的Bayes估计量(Bayesian estimator),Bayes估计量$\delta(y)$将最小化风险系数(risk function)

$$
R(\theta,\delta)=E[\mathscr{L}[\theta,\delta(y)]]=\int_{-\infty}^{\infty} \mathscr{L}[\theta,\delta(y)]k(\theta|y)\mathrm{d}\theta
$$

  • 当$\mathscr{L}[\theta,\delta(y)]=[\theta-\delta(y)]^2$时,$\theta$的Bayes估计量为

$$
\delta(y)=E[\Theta|y]
$$

  • 当$\mathscr{L}[\theta,\delta(y)]=|\theta-\delta(y)|$时,$\theta$的Bayes估计量为

$$
\delta(y)=\text{median of the conditional distribution } F_{\Theta|Y}(\theta|y)
$$

要求解Bayes估计量,首先需要确定$\theta$的后验分布$k(\theta|y)$,事实上只需注意到

$$
k(\theta|y) \propto g(y|\theta)h(\theta)
$$

便可观察或计算出$k(\theta|y)$.

例3 (ex 8.4). $X_i \sim f(x|\theta)=1/\theta,0<x<\theta$,$\Theta \sim h(\theta)=\frac{\beta\alpha^{\beta}}{\theta^{\beta+1}},\alpha<\theta<\infty$的取值,其中$\alpha>0,\beta>0$. 令$Y_n=\max(X_i)$,并取损失函数$\mathscr{L}[\theta,\delta(y_n)]=[\theta-\delta(y)]^2$,求$\theta$关于$Y_n$的Bayes估计$\delta(\theta|y_n)$.

解: 给定$\Theta=\theta$时,$Y_n$的条件密度函数为

$$
g(y_n|\theta)=n[F(y_n)]^{n-1} f(y_n)=\frac{n}{\theta^n} y_n^{n-1}, \quad 0<y_n<\theta
$$

于是$k(\theta|y_n) \propto g(y_n|\theta)h(\theta)=\frac{n\beta \alpha^{\beta}}{\theta^{n+\beta+1}}y_n^{n-1}$,消去常系数及仅含$y_n$的系数得到

$$
k(\theta|y_n) \propto \frac{1}{\theta^{n+\beta+1}} , \quad \max(y_n,\alpha)<\theta<\infty
$$

于是求得

$$
k(\theta|y_n)=\frac{(n+\beta) \max(y_n,\alpha)^{n+\beta}}{\theta^{n+\beta+1}}
$$

由于$\mathscr{L}[\theta,\delta(y_n)]=[\theta-\delta(y)]^2$,所以$\theta$关于$Y_n$的Bayes估计为

$$
\delta(y_n) = E[\Theta|y_n] = \int_{\max(y_n,\alpha)}^{\infty} \theta \cdot k(\theta|y_n) \mathrm{d}\theta = \frac{n+\beta}{n+\beta-1}\max(y_n,\alpha)
$$

$\square$


参考文献

  1. Hogg, R. V., & Craig, A. T. (. T. (1995). Introduction to mathematical statistics (5th ed.). Englewood Cliffs, N.J.: Prentice Hall.
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×