随机过程(1)——绪论

1.吐槽选课那点事

感觉自己写博客还是三天打鱼两天晒网的(不,我一定会补齐的),所以想找个有主线的事情来写,给自己一点定期更新的动力。
这学期学院的随机过程不开了,让我们一个工科学院的学生去上数学学院的随机过程,不仅学分高了,一下午连上四节课,还得去郊区校区上课,心里真是一万只*奔腾。
然而再怎么奔腾也没啥用。老师上课的时候就diss了一下国内教材,然后让我们用Ross的教材,并且表示配合英文版食用更佳。查了查网络上中文的系统的文字资料也不太多,所以干脆在这里做做笔记吧。

2.文章的结构

因为是为了做笔记,所以主要围绕老师讲课的内容来写。书上有意义的内容(说白了是我还能看得懂的内容)我也会说一说。
主要以离散的为主,毕竟打公式太累啦,我又不是出书的~~
如果提到了书上的例子,以第二版英文版书为准。

3.正文开始

3.1 概率和随机变量

3.1.1概率定义

取值[0,1];P(整个样本空间)=1;两两无交事件具有可列可加性
P(mnEn)=Σmn(En)P(\cup_m^nE_n)=\Sigma_m^n(E_n)
U为并集,表示有限个这样的事件发生的概率=这些事件单独发生的概率和
若去掉两两无交,上述等号变为小于等于号,称为次可加性

3.1.2概率连续性

对于单调递增或者递减的集合EnE_n,具有如下性质
limn+P(En)=P(limn+En)\lim_{n \to +\infty}P(E_n)=P(\lim_{n \to +\infty}E_n)
简单来说就是上面这个公式,老师说概率的连续性和函数的连续性有异曲同工之妙,但是我的确没看出来同在何处,我只是理解为当n趋向于无穷的时候,极限符号可以拿到里面去。
公式的证明,考虑递增情形。将集合EnE_n(且n>0)拆分为两两无交的事件FnF_n,这种拆分可以考虑令Fn=EnEn1F_n=E_n-E_{n-1},即增量,且E0=0E_{0}=0。那么就有
P(limn+En)=P(n=1Fn)=Σn=1P(Fn)=limn+Σi=1nP(Fi)=limn+P(n=1Fi)=limn+P(En)P(\lim_{n \to +\infty}E_n) =P(\cup_{n=1}^\infty F_n)=\Sigma_{n=1}^\infty P(F_n)=\lim_{n \to +\infty}\Sigma_{i=1}^n P(F_i)=\lim_{n \to +\infty} P(\cup_{n=1}^\infty F_i)=\lim_{n \to +\infty}P(E_n)
第一和最后一个等号都是显然成立的,因为我们定义的FnF_n就有这个关系。第二和倒数第二个等号都是可列可加性。第三个等号也是显然成立的。
终归来说,就是把EnE_n拆成不相交的集合,然后利用可列可加性把极限符号拿出来,然后再合并回EnE_n

3.1.3 上下极限集相关知识

上极限集的定义为:
lim supnEn=n=1k=nEk\limsup_{n \to \infty}E_n=\bigcap_{n=1}^\infty \cup_{k=n}^\infty E_k
集合交可以解释为“对于任意的”,集合并可以解释为“存在”。因此上极限集的概率解释为:对于任意的n,都存在k,使得k>=n时, EkE_k发生。
用平实一点的语言说就是,一个事件的序列里,有无穷多个事件会发生。这里我借用同一节课的同学的例子来说明上极限集:质数。
下极限集的定义则是把上极限集的交并交换一下。
lim supnEn=n=1k=nEk\limsup_{n \to \infty}E_n=\bigcup_{n=1}^\infty \cap_{k=n}^\infty E_k
用平实一点的语言说就是,一个事件的序列,从n时间点开始,所有的事件都会发生。
可以很直观地看出,下极限集是包含于上极限集的。

3.1.4 Borel-Cantelli引理

对于E1,E2,...E_1,E_2,...若有Σn=1P(En)<\Sigma_{n=1}^\infty P(E_n) < \infty则有P(lim supnEn)=0P(\limsup_{n \to \infty}E_n)=0
反之,对于独立的E1,E2,...E_1,E_2,...若有Σn=1P(En)=\Sigma_{n=1}^\infty P(E_n) = \infty则有P(lim supnEn)=1P(\limsup_{n \to \infty}E_n)=1
证明略去,这一篇博客有。证明里使用到了上极限集的知识。

3.2 条件期望E(XY)E(X|Y)

条件期望定义如下
E(XY=y)=ΣxxP(X=x,Y=y)E(X|Y=y) = \Sigma_x xP(X=x,Y=y)
可以看出,条件期望是y的函数。

3.2.1条件期望的一些性质和理解

1.条件期望是局部的期望(局部的平均)。
E(X)=Ey[Ex(XY=y)]E(X)=E_y[E_x(X|Y=y)]

2.条件期望不一定存在;X的期望存在,X关于Y的条件期望不一定存在;如果条件期望存在,那么条件期望的期望一定存在。
但是对于离散的随机变量,条件期望一定存在。

3.期望具有线性性
E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)
条件期望也具有线性性
E(X1+X2Y=y)=E(X1Y=y)+E(X2Y=y)E(X_1+X_2|Y=y)=E(X_1|Y=y)+E(X_2|Y=y)
证明:
E(X1+X2Y=y)=Σx1Σx2p(x1,x2,y)p(y)×(x1+x2) E(X_1+X_2|Y=y)=\Sigma_{x_1}\Sigma_{x_2}\frac{p(x_1,x_2,y)}{p(y)}\times(x_1+x_2)

=Σx1x1Σx2p(x1,x2,y)p(y)+Σx2x2Σx1p(x1,x2,y)p(y) =\Sigma_{x_1} x_1\Sigma_{x_2}\frac{p(x_1,x_2,y)}{p(y)}+\Sigma_{x_2} x_2\Sigma_{x_1}\frac{p(x_1,x_2,y)}{p(y)}

=Σx1x1Σx2p(x1,x2y)+Σx2x2Σx1p(x1,x2y) =\Sigma_{x_1} x_1\Sigma_{x_2}p(x_1,x_2|y)+\Sigma_{x_2} x_2\Sigma_{x_1}p(x_1,x_2|y)

=Σx1x1p(x1y)+Σx2x2p(x2y)=E(X1Y=y)+E(X2Y=y) =\Sigma_{x_1} x_1p(x_1|y)+\Sigma_{x_2} x_2p(x_2|y)=E(X_1|Y=y)+E(X_2|Y=y)

3.2.2 期望和条件概率的例子

书上P10页例1.3举了个例子:

Example1.3(a):假设n个同学参加一个聚会,每人头上都戴着一顶帽子。聚会的有一个环节要把他们的帽子放在一起打乱。假设每一顶帽子都是完全一样的,同学只能随机从里面挑帽子,求同学选出自己原来帽子的人数的期望以及方差。

这个问题我不多解释了,也没涉及到条件期望的东西,都是协方差之类的运算。但是后面这个深入讨论的问题是在这个情景之上讨论的。

P26 Example1.4(F):情境同上一题,但是需要求取k位同学选中自已帽子的概率。

首先考虑第一个挑帽子的同学。假如他挑中了,那么剩下的n-1个同学挑帽子的问题就和一开始n个同学是类似的,这种情况具有递归特性。
我们假设有k个同学挑对了自己的帽子,那么意味着剩下n-k个同学都挑错了。这个概率为
1n1n1...1nk+1×Cnk×Pnk \frac{1}{n} \frac{1}{n-1} ...\frac{1}{n-k+1}\times C_n^k\times P_{n-k}
其中PnkP_{n-k}为仅有n-k个同学且他们全都挑错的概率,CnkC_n^k是组合。接下来只需要计算这个概率即可。
假设第一个同学A挑错了,我们就先把他的帽子归为他挑的帽子的帽主,以下简称这个人为B,也就是说,A挑走了B的帽子,那A的帽子暂时归B,这样便于分析问题。放心,这个问题不会出现CDEFG的。
然后我们再考虑n-1个同学挑帽子的问题。如果这位B同学挑走了A的帽子(情况类似于前面),那就n-2个同学继续这个游戏;但是:
如果他没有挑走A的帽子,而且剩下的同学也都没有挑到自己的帽子,这个情况等价于n-1个同学都没有挑中自己帽子
这句话拗口但是很重要。因为现在我们把A的帽子归给B了,B没挑中A,其他人也没挑中自己的,那不就是所有人都没挑中自己的吗!
所以我们写出下面的递归式子:
Pn=P(A)[P(BA)×Pn2+Pn1]P_n=P(第一个人A没挑中)[P(B挑走了A的帽子)\times P_{n-2}+P_{n-1}]
也就是
Pn=n1n[1n1×Pn2+Pn1]=1nPn2+n1nPn1P_n=\frac{n-1}{n}[\frac{1}{n-1}\times P_{n-2}+P_{n-1}]=\frac{1}{n} P_{n-2}+\frac{n-1}{n}P_{n-1}
这个式子可以改写为:
PnPn1=1n(Pn2Pn1)P_n-P_{n-1}=\frac{1}{n}( P_{n-2}-P_{n-1})
后面的尽管递推就是了,算几个P就能找出规律来。

3.3 指数分布

指数分布的概率密度函数具有如下形式
f(x)={λeλx,x00,x<0f(x)= \begin{cases} \lambda e^{-\lambda x},x \geq 0 \\ 0,x<0 \end{cases}
其概率分布函数(即概率密度函数的积分)具有如下形式
F(x)={1eλx,x00,x<0F(x)= \begin{cases} 1- e^{-\lambda x},x \geq 0 \\ 0,x<0 \end{cases}

3.3.1 指数分布具有无记忆性

虽然只有一个性质,但是还是要在标题里突出出来。
无记忆性是指对于任意的s,t>0s,t>0,都有
P(X>s+tX>t)=P(X>s)P(X>s+t|X>t)=P(X>s)
证明很简单,因为P(X>s)=1P(Xs)=F(x)P(X>s)=1-P(X\geq s)=F(x)
指数分布的这个性质很重要,后面的平稳增量,独立增量还有泊松过程都和这个有些联系。

3.4 概率不等式

3.4.1 Markov不等式

对于任意的非负随机变量和任意正数a
P(Xa)E(X)a,a>0P(|X| \geq a)\leq \frac{E(|X|)}{a},a>0

3.4.2 Jensen不等式

对于凸函数ff,有:
E(f(X))f(E(X))E(f(X)) \geq f(E(X))
这个不等式很好理解,只要注意凸函数定义,画个函数图算算积分面积就明白了。

3.5 随机过程

随机过程可以理解为,在一系列时间点tt上,X(t)X(t)都是随机变量。

3.5.1独立增量和平稳增量

独立增量是指任意不重叠的时间段之间,随机变量的增量相互独立。
X(t1)X(t0)X(t3)X(t2),t0<t1<t2<t3X(t_1)- X(t_0) \perp X(t_3)- X(t_2),t_0<t_1<t_2<t_3
平稳增量是指对于具有相同时间间隔的增量
X(s+t)X(t)X(s+t)- X(t)
都服从相同分布。这些在学习泊松分布的时候有用处。

3.5.2 随机过程例题:粒子沿圆环运动问题

P42 Example1.9(A):有一个粒子沿着圆环运动。圆环具有m+1个点,编号为0~m。任意时刻,粒子都会有50%概率顺时针或者逆时针从当前位置沿着圆环运动一格。假如粒子从0点出发,访问完完整的圆环就停止运动,请问停止时停留在1(因为0是起点,所以不可能是终点)到m中每个点的概率是多少?
随机过程(1)——绪论

这个问题像是一个脑筋急转弯。书上的解题思路是这样的:假设粒子最后停留在i点,那么我们观察这一过程,一定存在唯一的某一时刻,粒子第一次访问i的邻域i+1或者i-1.只要从这时候开始,粒子反向运动积累m次在正向运动积累1次之前发生,粒子最后就会停留在i点。
由于不管粒子从哪里开始,反向运动积累m次在正向运动积累1次之前发生的概率都相同,所以粒子停留在每个点的概率都相同。

这个问题我一开始考虑了很久也没有明白。我不明白的是:粒子先到到达某个点,然后再从这个点开始反向balabala,那先到达这个点的概率能一样吗?
后来在老师三番五次的指点之下外加自己苦心思考我明白了。在这个随机过程中,粒子一定会访问到每个点;而且一定存在唯一的一个时刻,访问到第i个点的邻域。这个时刻可能有早晚,但是一定会到来。只要从这时候开始,反向运动m次就能最终停留在i点。

3.6 极限理论

标题党

3.6.1 大数定理

3.6.2 中心极限定理

3.7 课后习题

P46 problem1.2:若X是一个连续的随机变量,且服从F分布。请证明
1.F(x)服从(0,1)之间的均匀分布
2.若U是服从(0,1)之间的均匀分布的随机变量,那么F1(U)F^{-1}(U)服从F分布,其中F1(x)F^{-1}(x)是F的反函数

单拎出这道题是因为从这道题我明白了概率分布函数到底有什么用了。本科的时候我只觉得概率密度函数有用,毕竟密度越高,事件发生概率越大嘛。但是从这道题,我知道了概率分布函数可以用来生成服从该分布的随机变量。只需要先生成[0,1]之间均匀分布的值,这个是一句话就可以编程实现的。然后计算F的反函数就可以了。
直观解释嘛,可以先画一个概率密度函数图,曲线下积分为1,然后应该就有点理解了。