12月 04

PRML Chapter 2.3 The Gaussian Distribution

部分内容参考《Methods of Multivariate Analysis》简称MMA

1. preliminary (Matrix Algebra — Methods of Multivariate Analysis C H A P T E R 2)

加入一些其他内容,调整至http://www.xperseverance.net/blogs/2012/12/1579/

2.多元情况下的协方差

我觉得PRML上2.3中的多元高斯分布为啥让人觉得虎,就是因为相对于单元高斯分布,多元情况下的方差令人迷惑和费解,所以本节只记录《MMA》中第三章讲述的多元协方差矩阵。

bivariate case:现在假设只在二维情况下讨论问题,则每个随机变量表示为$(x_i,y_i)^T$,则两者的协方差:

$\sigma_{xy}=E[(x-\mu_x)(y-\mu_y)]$ 在任何统计或概率书上都有定义。

同时相关系数:$\rho_{xy}=corr(x,y)=\frac{\sigma_{xy}}{\sigma_x\sigma_y}=\frac{E[(x-\mu_x)(y-\mu_y)]}{\sqrt{E(x-\mu_x)^2}\sqrt{E(y-\mu_y)^2}}$

对于两个变量的相关性的理解可以用下面一个例子来描述:

设有二维随机变量(x,y),x表示升高,y表示体重,则凭经验就可以想到,身高是和体重相关的,所以讲这个随机变量画成二维点图应该如下(点集中在两个象限,展现出很高的相关性):

而如果把x换成智力,y换成身高,那么就会变成下面这个样子(所有点四个象限都有,展现出无关性):

3. 多元高斯分布

啊啊待写

11月 27

概率论复习 – ML vs. MAP vs. Bayesian Inference

距离上次好好看这些概念大概半年过去了,很不幸,真的把他们忘记了。果真是不用则费,即使是简单的概念。

这次要写下来,以后再忘记则看看就容易回忆起来,事实上我现在觉得不太可能再忘记了……

参考资料:

《统计学完全教程》、《PR&ML》、《Parameter estimation for text analysis》

1. 极大似然估计(Maximum likelihood estimation)

假设有一堆独立同分布数据$X_1,…,X_n$,其PDF为$p(x;\theta)$,其中$\theta$为模型参数,则其似然函数为:
$L_n(\theta)=\prod\limits_{i=1}^n p(X_i; \theta)$
而极大似然估计就是要找到参数$\theta$,使得似然函数的值最大。这意思就是找到一个参数$\theta$,使得使用分布$p(x;\theta)$来估计这一堆数据$X_i$的效果最好。
为啥捏,因为假设X都是离散值的情况下,$L_n(X_i; \theta)$表达的含义是:从参数$\theta$通过模型$p(x;\theta)$产生这一堆数据的概率(把所有单个数据产生的概率乘起来就是产生这一堆数据的概率)。所以$p(x;\theta)=P_\theta(x=\{X_i\})$,那么如果当有两个参数$\theta_1$和$\theta_2$时,$P_{\theta_1}(x=\{X_i\})>P_{\theta_2}(x=\{X_i\})$,则说明$\theta_1$更好的描述了这组数据,因此要找到一个$\theta$使得整似然函数的值最大!
所以只要将似然函数对$\theta$求导,就可以找到这样的$\theta$。
例子:求N次伯努利分布的最大似然估计:
$Bern(x|\mu)=\mu^x(1-\mu)^{1-x}$
$L(X|\mu)=\prod\limits_{i=1}^N \mu^{X_i}(1-\mu)^{1-X_i}=\mu^S(1-\mu)^{N-S}$, 其中$S=\sum\limits_{i=1}^N X_i$
将$log L(X|\mu)$对$\mu$求导得 $\frac{S}{\mu}-\frac{N-S}{1-\mu}=0$
得$\hat{\mu}_N=\frac{1}{N} S=\bar{X}_N$
2. 极大后验估计(Maximum a posteriori estimation)

极大后验估计中加入了一些先验知识,它最大化的是一个后验函数。具体来说,因为贝叶斯定律:

$p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)}$

那么极大后验估计就是要求:

$\hat{\theta}_{MAP}=\underset{\theta}{argmax}~ p(x|\theta)p(\theta)=\underset{\theta}{argmax}\{\sum\limits_{X_i} log ~p(X_i|\theta) + log~p(\theta)\}$

可见,极大后验估计中相对于最大似然估计,多了$log~p(\theta)$,也就是先验的影响。这一点在Beta分布的后验估计上就能看出来,由于这部分已经写在了这里,所以就不再赘述。

3. 贝叶斯推断(Bayesian Inference)

前面的MAP是一个点估计,只估计似然函数达到最大点的情况下,参数$\theta$的值。Bayesian inference extends the MAP approach by allowing a distribution over the parameter set $\theta$ instead of making a direct estimate. Not only encodes this the maximum(a posteriori) value of the data-generated parameters, but it also incorporates expectation as another parameter estimate as well as variance information as a measure of estimation quality or confidence. ——《Parameter estimation for text analysis》

具体来说,给定数据X和需要求的参数$\theta$,贝叶斯推断需要求出一个具体的分布:

$p(\theta|X)=P(X|\theta)P(\theta)/P(X)$

这里和MAP的区别就在于,MAP忽略了P(X)因为它是常量,对于MAP的过程:求导后再求等于0来获得最好的$\theta$,这个常量是没有用的。但是贝叶斯推断要的是整个$p(\theta|X)$的分布,所以P(X)这个normalisation term是需要被求出来的。在获得具体的分布之后,所要求的参数值可以通过估计期望或方差得到。

11月 14

概率论复习 – 各种不等式

一、马尔科夫不等式

$P(X>t)\leq \frac{E(X)}{t}$
这个不等式物理意义表示:一个随机变量的取值离期望不会太远。因为:
若令$t=k\mu$,$\mu=E(X)$的话,那么上式变为$P(X>k\mu)\leq 1/k$,所以$P(X>2\mu)\leq 0.5$,$P(X>3\mu)\leq 0.33$,意即随机变量X离期望值越远的概率越小。
 
二、切比雪夫不等式
切比雪夫不等式可以用马尔科夫不等式推出,但是切比雪夫是马尔科夫的老师,这两不等式到底哪个先有就不得而知啦。
$P\{|X-\mu|)\geq k\}\leq \frac{\sigma^2}{k^2}$
物理意义表示,$\sigma^2$越大,随机变量远离期望的概率越大(方差用于度量随机变量围绕均值的散布程度),$\sigma^2$越小,随机变量在期望附近,远离期望的概率越小。可用来证明样本均值会在其期望附近。
 

 

 

Continue reading

3月 29

概率论复习 – 条件概率与条件期望

这部分内容是我最近一直想仔细看的基础,没想到在翻《应用随机过程-概率模型导论》(这本书翻译的太差,豆瓣上也有人这么说,不如直接看Introduction to Probability Models,找了半天才找到)中找到了关于条件概率、条件期望非常详细的内容,看来这本书没有白买~

在统计机器学习很多比较复杂模型的推导中,都有对条件期望表达式求边缘或求积分的,所以这个基础一定要学扎实!

1. 条件期望

首先对于随机变量Y=y给定条件下,X的条件期望定义为:

离散:$E[X|Y=y]=\sum\limits_{x}xP\{X=x|Y=y\}=\sum\limits_{x}xp_{X|Y}(x|y)$

连续:$E[X|Y=y]=\int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx$

这个表达式其实和期望的表达式一样,只不过把$p_X$换成了$p_{X|Y}$,事实上当X与Y独立时,有没有条件Y=y对于X没有影响。

这部分例题可以看《应用随机过程》P75。

2. 取条件计算期望

条件期望的重要性质:

E[X]=E[E[X|Y]]

注意,上面这个式子中,内层红色的E是已知Y对X取条件期望,因此是枚举X值,而外层蓝色的E是对E[X|Y]取期望,枚举的是Y值,这个一定要搞明白!也就是:

$E[X]=\sum\limits_{y}E[X|Y=y]P\{Y=y\}$  (离散)

$E[X]=\int_{-\infty}^{\infty}E[X|Y=y]f_Y(y)dy$  (连续)

要记好这个结论,下次再在论文里看到类似表达式,不用再仔细想为啥了。

下面给出一个离散时的证明:

上面这个是离散的,我自己又写了一个连续的证明:

$\int_{-\infty}^{\infty}E[X|Y=y]f_Y(y)dy=\int_{-\infty}^{\infty}[\int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx]f_Y(y)dy=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf_{X|Y}(x|y)f_Y(y)dydx$

$\because f_{X|Y}(x|y)f_Y(y)=f(x,y)$ 即x,y的联合概率密度

因此上式$=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf(x,y)dydx=\int_{-\infty}^{\infty}xdx\int_{-\infty}^{\infty}f(x,y)dy=\int_{-\infty}^{\infty}xf(x)dx=E(X)$,其中$\int_{-\infty}^{\infty}f(x,y)dy=f(x)$就是对y取x的边缘概率

然后是一个非常直观的题目很好的解释了上面这个结果:山姆读两本书A和B,A中印刷错误数为均值2的泊松分布,B中错误数位均值5的泊松分布,山姆选书等可能,则他读到印刷错误的期望是多少?
解:E[X]=E[X|Y=A]P{Y=A} + E[X|Y=B]P{Y=B} = 5*0.5+2*0.5 = 3.5  发现E[X]的确等于枚举所有Y的概率乘以E[X|Y]然后取和。
 

3. 取条件计算方差

条件方差公式:

$Var[X]=E[Var(X|Y)] + Var(E(X|Y))$

证明:

$E[Var(X|Y)]=E[E[X^2|Y]-(E[X|Y])^2]=E[E[X^2|Y]]-E[(E[X|Y])^2]=E[X^2]-E[(E[X|Y])^2]$   (1)

而 $Var(E[X|Y])=E[(E[X|Y])^2]-(E[E[X|Y]])^2=E[(E[X|Y])^2]-(E[X])^2$    (2)

$(1)+(2) = E[X^2]-(E[X])^2=Var(X)$ 得证

4. 取条件计算概率

$P(X)= \left \{ \begin{array}{ll} \sum\limits_{y}P(X|Y=y)P(Y=y) & Y离散 \\ \int_{-\infty}^{\infty}P(X|Y=y)f_Y(y)dy & Y连续 \end{array} \right.$

(仅对latex公式说明,注意公式右边是\right. 一开始只打了\right没有加点,错误)

其实上式也很好理解,上式中每一个P(X|Y=y)P(Y=y)就是P(X,Y),然后对所有Y值累加就等于求边缘概率,结果不就是P(X)嘛

3月 21

概率论复习 – 基础概率分布

发现对概率论的基本概念理解不是很深入,导致看后面的东西时常有些莫名其妙的疑惑,回头来看看概率论与统计

1. 累积分布函数(CDF – Cumulative distribution function 或直接就叫 distribution function)

        CDF其定义为

$F_X(x)=\mathbb{P}(X\leq x)$

        正如统计学完全教程里说的,这个CDF函数是很有迷惑性的,有必要仔细理解它。我以前每次看这个表达式都是一闪而过,没有好好理解,而它的真正的意义应该是表示随机变量小于或等于其某一个取值x的概率。设一个例子,抛一枚均匀的硬币两次,设随机变量X表示出现正面的次数,那么$P(X=0)=P(X=2)=1/4$,$P(X=1)=1/2$,所以这个函数的曲线如下图:

        对于这个图,要想清楚清楚如下两个问题:

        1)为什么函数始终是右连续的? 因为根据CDF的表达式中的小于等于号,当X=x时,P(X=x)的那部分应该被加到$F_X$上,因此在X=x处有一个值的跃升。如X=1时,P(X=1)已经是1/2了

        2)为什么$F_X(1.4)=0.75$?  要注意$P(1\le X < 2)=1/2$(虽然其实X只能取整数值),但是$F_X$是值x之前所有概率的累加,所以$F_X(1.4)$可不是1/2,而是3/4 !!

因此F函数始终是非降的,右连续的,且$\lim\limits_{x\to \infty}F(x)=1$

2. 概率密度函数(PDF – Probability density function

       对于离散随机变量的PDF为:

$f_X(x)=\mathbb{P}(X=x)$

       对于连续随机变量,若存在一个函数$f_X$对所有x均满足$f_X(x)\ge 0$,$\int_{a}^{b}f_X(x)dx=1$,并且有

$\mathbb{P}(a<X<b)=\int_{a}^{b}f_X(x)dx$

则$f_X$就是$F_X(x)$的PDF,并且$F_X(x)=\int_{-\infty}^{x}f_X(t)dt$, $f_X(x)=\frac{d}{dx}F_X(x)$

表面看起来这个定义简单,但是要深入理解这些式子的含义,这个定义对后面整个机器学习的内容都是最基础最重要的。

其实后面所谓的 density estimation(EM algorithm和Sampling Methods)都是要估计出一个PDF来。

最简单的PDF就是比如翻硬币的例子,假如翻正面概率0.4,反面0.6,则这个模型的PDF就是{0.4, 0.6}

稍微复杂点的PDF就是univariate Gaussian啦,其实也不复杂,高中就见过

3. 伯努利、二项分布、多项分布

伯努利分布就是对单次抛硬币的建模,X~Bernoulli(p)的PDF为$f(x)=p^x(1-p)^{1-x}$,随机变量X只能取{0, 1}。对于所有的pdf,都要归一化!而这里对于伯努利分布,已经天然归一化了,因此归一化参数就是1。

很多次抛硬币的建模就是二项分布了。注意二项分布有两个参数,n和p,要考虑抛的次数。

二项分布的取值X一般是出现正面的次数,其PDF为:

$f(x)=\mathbb{P}(X=x)=P(X=x|n,p)=C_n^xp^x(1-p)^{n-x}$

$C_n^x$就是二项分布pdf的归一化参数。如果是beta分布,把$C_n^x$换成beta函数分之一即可,这样可以从整数情况推广为实数情况。所以beta分布是二项分布的实数推广!

多项分布则更进一层,抛硬币时X只能有两种取值,当X有多种取值时,就应该用多项分布建模。

这时参数p变成了一个向量$\vec{p}=(p_1, … , p_k)$表示每一个取值被选中的概率,那么X~Multinomial(n,p)的PDF为:

$f(x)=P(x_1,~…,~x_k|n, \vec{p})={n \choose {x_1,~…,~x_k}}p_1^{x_1}…p_k^{x_k}=\frac{n!}{\prod_{i=1}^{k}x_i!}\prod p_x^{x_i}$