2020-01-12

数学 / 数理统计

8 minutes read (About 1252 words)

统计推断中的参数估计理论

该部分内容对应Hogg课本的第6-8章，主要讨论参数估计的几种常用方法。

一、参数的点估计

设随机样本$X_i \sim f(x;\theta)$，其中$\theta \in \Omega$，我们期望构造统计量$Y_1=u_1(X_1,X_2,\cdots,X_n)$对参数$\theta$有良好的估计，即寻找参数$\theta$的点估计，这主要通过两种方法：最大似然估计和矩法估计，且它们分别对应不同的准则.

概念1: 最大似然估计

从概率论的观点看，小概率事件在一次试验中是几乎不发生的，即如果在一次试验中事件$A$发生了，我们则认为$p(A)$较大. 在这一准则下，参数的取法应使概率密度（即事件发生的可能性）最大，于是我们引出最大似然估计的定义：

定义1. 参数$\theta$的最大似然估计(maximum likelihood estimate)记为$\hat{\theta}_L$，它满足

$$
\hat{\theta}_L = \arg\max_{\theta \in \Omega} L(x_1,x_2,\cdots,x_n;\theta) = \arg\max_{\theta \in \Omega} \ln L(x_1,x_2,\cdots,x_n;\theta)
$$

其中$L(x_1,x_2,\cdots,x_n;\theta)=\prod f(x_i;\theta)$称为$\theta$的似然函数(likelihood function).

性质1. 最大似然估计具有不变性(invariance property)，即对于可逆函数$h$，$\eta=h(\theta)$的最大似然估计为

$$
\hat{\eta}_L=\widehat{h(\theta)}_L=h(\hat{\theta}_L)
$$

例1 (ex 6.1). 求下列密度函数中$\theta$的最大似然估计量：

(a) $f(x;\theta)=\frac{1}{\theta} e^{-\frac{x}{\theta}},0<x<\infty,0<\theta<\infty$；

(b) $f(x;\theta)=\frac{1}{2}e^{-|x-\theta|},-\infty<x<\infty,-\infty<\theta<\infty$；

解: (a) 似然函数为$L(\theta)=\prod f(x_i;\theta)=\theta^{-n} e^{-\frac{1}{\theta}\sum x_i}$，由

$$
\frac{\partial \ln L(\theta)}{\partial \theta} = \frac{\partial}{\partial \theta} \left[ -n\ln \theta-\frac{1}{\theta}\sum_{i=1}^n x_i \right] = -\frac{n}{\theta} + \frac{1}{\theta^2} \sum_{i=1}^n x_i = 0
$$

解得$\hat{\theta}_L = \frac{1}{n}\sum X_i = \overline{X}$.

(b) 似然函数为$L(\theta)=\prod f(x_i;\theta)=2^{-n} e^{-\sum|x_i-\theta|}$，取对数得

$$
\ln L(\theta)=-n \ln 2-\sum_{i=1}^n |x_i-\theta|
$$

则$\ln L(\theta)$取最大值当且仅当$\theta$取$x_1,x_2,\cdots,x_n$的中位数，所以$\hat{\theta}_L$为$X_1,X_2,\cdots,X_n$的中位数.

$$
\frac{\partial \ln L(\theta)}{\partial \theta} = \frac{\partial}{\partial \theta} \left[ n\theta-\sum_{i=1}^n x_i \right]=n>0
$$

知似然函数$L(\theta)$为$\theta$的单增函数，所以$\hat{\theta}_L = \min(X_i)$. $\square$

概念2: 矩法估计

首先我们给出辛钦大数定律的推广形式：设$X_1,X_2,\cdots,X_n$相互独立，与随机变量$X \sim f(x;\theta)$同分布，且$E[|X|^k]<\infty$，则$\forall \varepsilon > 0$，有

$$
\lim_{n \to \infty} P \left( \left| \frac{1}{n}\sum_{i=1}^n X_i^k - E[X^k] \right| \geq \varepsilon \right) = 0
$$

以此为准则，我们得到两种形式的矩法估计：

用样本$k$阶原点矩$\overline{X^k}=\sum_{i=1}^n X_i^k$估计总体$k$阶原点矩$E[X^k]$；
用样本$k$阶中心矩$\sum\limits_{i=1}^n (X_i-\overline{X})^k$估计总体$k$阶中心矩$E[(X-E[X])^k]$.

其中最常用的两类矩法估计为：

用样本均值$\overline{X}=\frac{1}{n}\sum\limits_{i=1}^n X_i$估计总体均值$E[X]$；
用样本方差$S_n^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^2$估计总体方差$\operatorname{var}[X]$.

性质2. 根据辛钦大数定律，参数$\theta$的矩法估计一定为相合估计，相合估计的具体定义将在本节的最后给出.

例2 (ex 6.7). 设$X \sim f(x;\theta)=\theta x^{\theta-1},0<x<1,0<\theta<\infty$，求$\theta$的矩法估计$\hat{\theta}_M$，并证明$\hat{\theta}_M$为$\theta$的相合估计.

解: 计算得总体均值为$E[X]=\int_0^1 x \cdot \theta x^{\theta-1} \mathrm{d}x=\frac{\theta}{\theta+1}$. 用样本均值估计总体均值：

$$
E[X]=\frac{\theta}{\theta+1}=\frac{1}{n}\sum_{i=1}^n X_i=\overline{X}
$$

故$\hat{\theta}_M=\frac{\overline{X}}{1-\overline{X}}$. 由强大数定律可知：$\overline{X} \stackrel{\text{a.s.}}{\rightarrow} E[X]$，于是

$$
\hat{\theta}_M=\frac{\overline{X}}{1-\overline{X}} \stackrel{\text{a.s.}}{\rightarrow} \frac{E[X]}{1-E[X]}=\theta \quad (n \to \infty) \Rightarrow \hat{\theta}_M \stackrel{p}{\rightarrow} \theta
$$

即$\hat{\theta}_M$为$\theta$的相合估计. $\square$

二、参数的区间估计

设$X \sim f(x;\theta)$，对给定置信度$1-\alpha(0<\alpha \ll 1)$，区间估计要求我们找到统计量$T_1(X_1,X_2,\cdots,X_n)$和$T_2(X_1,X_2,\cdots,X_n)$，满足

$$
P(T_1 \leq \theta \leq T_2) = 1-\alpha
$$

其中$[T_1,T_2]$称为$\theta$的置信度为$1-\alpha$的置信区间(confidence interval). 下面我们将重点放在正态总体参数的区间估计上.

概念1: 抽样分布基本定理

定理1 (抽样分布基本定理). 设$X \sim N(\mu,\sigma^2)$，$(X_1,X_2,\cdots,X_n)$是$X$的样本，则

(1) $\overline{X}$与$S_n^2$独立；

(2) $\frac{nS_n^2}{\sigma^2} \sim \chi^2(n-1), \frac{n(\overline{X}-\mu)^2}{\sigma^2} \sim \chi^2(n)$.

推论2. 设$X \sim N(\mu,\sigma^2)$，则$\sqrt{n-1}\frac{\overline{X}-\mu}{S_n} \sim t(n-1)$.

证明: $X \sim N(\mu,\sigma^2) \Rightarrow \overline{X} \sim N(\mu,\sigma^2/n)$. 由抽样分布基本定理知$\overline{X}$与$S_n^2$独立，且$\frac{nS_n^2}{\sigma^2} \sim \chi^2(n-1)$，从而

$$
\frac{\frac{\overline{X}-\mu}{\sqrt{\sigma^2/n}}}{\sqrt{\frac{nS_n^2}{\sigma^2(n-1)}}}=\sqrt{n-1}\frac{\overline{X}-\mu}{S_n} \sim t(n-1)
$$

推论3. 设$X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$，$X$与$Y$独立且$\sigma_1^2=\sigma_2^2=\sigma^2$.

设$(X_1,X_2,\cdots,X_m)$是$X$的样本，记$\overline{X}=\frac{1}{m}\sum\limits_{i=1}^m X_i$，$S_{1m}^2=\frac{1}{m}\sum\limits_{i=1}^m (X_i-\overline{X})^2$；

设$(Y_1,Y_2,\cdots,Y_n)$是$Y$的样本，记$\overline{Y}=\frac{1}{n}\sum\limits_{i=1}^n Y_i$，$S_{2n}^2=\frac{1}{n}\sum\limits_{i=1}^n (Y_i-\overline{Y})^2$.

则$T=\dfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sqrt{\frac{mS_{1m}^2+nS_{2n}^2}{m+n-2}}} \sim t(m+n-2)$.

证明: 由于$X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$，所以

$$
\overline{X}-\overline{Y} \sim N \left(\mu_1-\mu_2,\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n} \right)
$$

由抽样分布基本定理知：$\frac{mS_{1m}^2}{\sigma_1^2} \sim \chi^2(m-1),\frac{nS_{2n}^2}{\sigma_2^2} \sim \chi^2(n-1)$且二者独立，所以

$$
\frac{mS_{1m}^2}{\sigma_1^2}+\frac{nS_{2n}^2}{\sigma_2^2} \sim \chi^2(m+n-2)
$$

结合$\sigma_1^2=\sigma_2^2=\sigma^2$则有

$$
T=\frac{\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}}}{\sqrt{\frac{\frac{mS_{1m}^2}{\sigma_1^2}+\frac{nS_{2n}^2}{\sigma_2^2}}{m+n-2}}}=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sqrt{\frac{mS_{1m}^2+nS_{2n}^2}{m+n-2}}} \sim t(m+n-2)
$$

推论4. 设$X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$，$X$与$Y$独立，则

$$
F=\frac{mS_{1m}^2 (n-1)}{nS_{2n}^2(m-1)} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(m-1,n-1)
$$

证明: 由抽样分布基本定理知$\frac{mS_{1m}^2}{\sigma_1^2} \sim \chi^2(m-1),\frac{nS_{2n}^2}{\sigma_2^2} \sim \chi^2(n-1)$且二者独立，则

$$
F=\frac{\frac{mS_{1m}^2}{\sigma_1^2(m-1)}}{\frac{nS_{2n}^2}{\sigma_2^2(n-1)}}=\frac{mS_{1m}^2 (n-1)}{nS_{2n}^2(m-1)} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(m-1,n-1)
$$

概念2: 正态总体参数的区间估计

对于区间估计，只需找到包含参数的统计量且服从标准正态分布、$t$分布、$\chi^2$分布或$F$分布，就可以通过这些分布的分位数构造出相应的置信区间，下面分别对单个总体的参数$\mu,\sigma^2$以及两个总体的参数$\mu_1-\mu_2,\frac{\sigma_2^2}{\sigma_1^2}$构造区间估计所需的统计量，它们的构造全部基于上述的抽样分布基本定理.

单个总体

关于参数$\mu$：

$\sigma^2=\sigma_0^2$已知：$\frac{\overline{X}-\mu}{\sqrt{\sigma_0^2/n}} \sim N(0,1)$
$\sigma^2$未知：$\sqrt{n-1}\frac{\overline{X}-\mu}{S_n} \sim t(n-1)$

关于参数$\sigma^2$：

$\mu=\mu_0$已知：$\frac{\sum (X_i-\mu)^2}{\sigma^2} \sim \chi^2(n)$
$\mu$未知：$\frac{nS_n^2}{\sigma^2} \sim \chi^2(n-1)$

两个总体

关于参数$\mu_1-\mu_2$：

$\sigma_1^2,\sigma_2^2$已知：$\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \sim N(0,1)$
$\sigma_1^2=\sigma_2^2=\sigma^2$未知：$\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sqrt{\frac{mS_{1m}^2+nS_{2n}^2}{m+n-2}}} \sim t(m+n-2)$

关于参数$\frac{\sigma_2^2}{\sigma_1^2}$：

$\mu_1,\mu_2$已知：$\frac{n \sum (X_i-\mu_1)^2}{m \sum (Y_j-\mu_2)^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(m,n)$
$\mu_1,\mu_2$未知：$\frac{mS_{1m}^2 (n-1)}{nS_{2n}^2(m-1)} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(m-1,n-1)$

三、参数估计的优劣评价

对于参数$\theta$的点估计$\hat{\theta}$，我们需要引入一套评价标准来评判点估计的优劣，它包括：无偏性、相合性、有效性；而正是优劣评价标准的引入，促使我们去寻求参数“最好的点估计”，即一致最小方差无偏估计(UMVUE)，在下一节中我们将详细探讨寻找一致最小方差无偏估计的方法.

概念1: 无偏性

定义2. 设$Y_1=u_1(X_1,X_2,\cdots,X_n)$，称$Y_1$为$\theta$的无偏估计量(unbiased estimator)，如果$E[Y_1]=\theta$. 不然，称$Y_1$为$\theta$的有偏估计量(biased estimator).

概念2: 相合性

定义3. 设$Y_1=u_1(X_1,X_2,\cdots,X_n)$，称$Y_1$为$\theta$的相合估计量(consistent estimator)，如果$Y_1 \stackrel{p}{\to} \theta$，即对$\forall \epsilon > 0$，有$\lim\limits_{n\to\infty} P(|Y_1-\theta| \geq \varepsilon)=0$.

概念3: 有效性

定义4. 设$Y_1,Y_2$为$\theta$的无偏估计量，即$E[Y_1]=E[Y_2]=\theta$，称$Y_1$比$Y_2$更有效(efficient)，如果$\operatorname{var}[Y_1]<\operatorname{var}[Y_2]$.

四、Bayes估计

在Bayes理论中，我们对$\theta$有先验认知，即$X \sim f(x;\theta)$，$\theta$是随机变量$\Theta \sim h(\theta)$的取值. 给定充分统计量$Y=u(X_1,X_2,\cdots,X_n)$的取值$y$，关于$\theta$作预测$\delta(y)$，其最佳预测取决于损失函数$\mathscr{L}[\theta,\delta(y)]$的选取，该最佳预测称为$\theta$的Bayes估计量(Bayesian estimator)，Bayes估计量$\delta(y)$将最小化风险系数(risk function)

$$
R(\theta,\delta)=E[\mathscr{L}[\theta,\delta(y)]]=\int_{-\infty}^{\infty} \mathscr{L}[\theta,\delta(y)]k(\theta|y)\mathrm{d}\theta
$$

当$\mathscr{L}[\theta,\delta(y)]=[\theta-\delta(y)]^2$时，$\theta$的Bayes估计量为

$$
\delta(y)=E[\Theta|y]
$$

当$\mathscr{L}[\theta,\delta(y)]=|\theta-\delta(y)|$时，$\theta$的Bayes估计量为

$$
\delta(y)=\text{median of the conditional distribution } F_{\Theta|Y}(\theta|y)
$$

要求解Bayes估计量，首先需要确定$\theta$的后验分布$k(\theta|y)$，事实上只需注意到

$$
k(\theta|y) \propto g(y|\theta)h(\theta)
$$

便可观察或计算出$k(\theta|y)$.

例3 (ex 8.4). $X_i \sim f(x|\theta)=1/\theta,0<x<\theta$，$\Theta \sim h(\theta)=\frac{\beta\alpha^{\beta}}{\theta^{\beta+1}},\alpha<\theta<\infty$的取值，其中$\alpha>0,\beta>0$. 令$Y_n=\max(X_i)$，并取损失函数$\mathscr{L}[\theta,\delta(y_n)]=[\theta-\delta(y)]^2$，求$\theta$关于$Y_n$的Bayes估计$\delta(\theta|y_n)$.

解: 给定$\Theta=\theta$时，$Y_n$的条件密度函数为

$$
g(y_n|\theta)=n[F(y_n)]^{n-1} f(y_n)=\frac{n}{\theta^n} y_n^{n-1}, \quad 0<y_n<\theta
$$

于是$k(\theta|y_n) \propto g(y_n|\theta)h(\theta)=\frac{n\beta \alpha^{\beta}}{\theta^{n+\beta+1}}y_n^{n-1}$，消去常系数及仅含$y_n$的系数得到

$$
k(\theta|y_n) \propto \frac{1}{\theta^{n+\beta+1}} , \quad \max(y_n,\alpha)<\theta<\infty
$$

于是求得

$$
k(\theta|y_n)=\frac{(n+\beta) \max(y_n,\alpha)^{n+\beta}}{\theta^{n+\beta+1}}
$$

由于$\mathscr{L}[\theta,\delta(y_n)]=[\theta-\delta(y)]^2$，所以$\theta$关于$Y_n$的Bayes估计为

$$
\delta(y_n) = E[\Theta|y_n] = \int_{\max(y_n,\alpha)}^{\infty} \theta \cdot k(\theta|y_n) \mathrm{d}\theta = \frac{n+\beta}{n+\beta-1}\max(y_n,\alpha)
$$

$\square$

参考文献

Hogg, R. V., & Craig, A. T. (. T. (1995). Introduction to mathematical statistics (5th ed.). Englewood Cliffs, N.J.: Prentice Hall.

# 数理统计

统计推断中的参数估计理论

一、参数的点估计

概念1: 最大似然估计

概念2: 矩法估计

二、参数的区间估计

概念1: 抽样分布基本定理

概念2: 正态总体参数的区间估计

单个总体

两个总体

三、参数估计的优劣评价

概念1: 无偏性

概念2: 相合性

概念3: 有效性

四、Bayes估计

参考文献

Like this article? Support the author with

Catalogue

Links

Categories

Tag Cloud

Recent

Archives

Tags

Recent

Archives

Tags

Your browser is out-of-date!