概率论与数理统计复习笔记(待续)

概率论基础

基础分布

分布	说明	表达式	期望	方差
二项分布	$n$ 次伯努利试验	$P(X=k)=C^k_np^k(1-p)^{(n-k)}$	$np$	$np(1-p)$
泊松分布	$X\sim \pi(\lambda)$ ，多用于描述事件的发生次数的概率	$P(X=k) = \frac{\lambda^ke^{-\lambda}}{k!}$	$\lambda$	$\lambda$
指数分布	具有无记忆性，常用于可靠性理论和排队论中	$P(x) = \frac{1}{\theta}e^{-\frac{x}{\theta}}, x>0$
正态分布	$X \sim N(\mu, \sigma^2)$	$P(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$	$\mu$	$\sigma^2$

指数分布的无记忆性
- $P(X> s+t \mid X > s)=P(X > T)$
- 举个例子，一个零件用了 $s$ 小时后，它还能再用 $t$ 小时的概率与这个零件没用过时能用 $t$ 小时的概率相同。很显然这个性质是指数函数带来的。
泊松定律：
- 固定 $k$ ，对于任意正整数 $n$ ，令 $np_n=\lambda$ ，则 $\lim_{n\rightarrow \infin} C^k_np^k_n(1-p_n)^{n-k}=\frac{\lambda^ke^{-k}}{k!}$
- 这个式子必须选定 $k$ ，令 $n$ 趋于无穷大才成立，对应的 $p_n$ 会趋近于无穷小
- 泊松定理是二项分布的一种极限情况：试验次数非常大，而每次试验的成功概率 $p$ 非常小，这也符合生活中的很多例子，例如每天的顾客数量、每天的事故发生数量等等。当然，当 $k$ 的大小开始接近 $n$ 的时候，泊松分布就会失效，应该改用二项分布。这个理解也可以在两个分布的期望与方差上得到印证
函数的概率分布:
- 已知 $X$ 的概率分布函数 $f_X$ ，如果有 $Y=g(X)$ ，要求 $Y$ 的概率分布函数 $f_Y$ ，可以通过边缘分布函数 $F_X$ 求得 $F_Y$ , 然后对 $F_Y$ 求导得到 $F_y$

88页

样本与抽样分布

箱线图，对于一组抽样，分别求出中位数 $M$ 、第一四分位点 $Q_1$ 、第三四分位点 $Q_3$ ，画出下面这张图（图片来源《概率论与数理统计》第四版 133页）。
概率分布的分位点：给定 $\alpha$ ，概率分布函数 $f(x)$ ，如果 $\int^{+\infin}_{\beta}f(x)dx=\alpha$ , 则 $\beta$ 则为该分布的 $\alpha$ 分位点。
样本分布：主要是注意样本方差 $S^2 = \frac{1}{n-1}\sum^n_{i=1}(X_i-\overline{X})$ 中的系数是 $\frac{1}{n-1}$ 。实际上如果公式中不用样本均值 $\overline{X}$ 来近似 $\mu$ 而是直接用 $\mu$ 的话，系数还是直观的 $\frac{1}{n}$ 。然而可以证明， $E[(\overline{X}-\mu)^2]=\frac{1}{n}\sigma^2$ ，所以系数要予以修正。
$\chi^2$ 分布： $\chi^2=X^2_1+X^2_2+\ldots+X^2_n$ ，其中 $X_i$ 为标准正态分布的样本，则 $\chi^2 \sim \chi^2(n)$ ，即*度为 $n$ 的卡方分布
$\Gamma$ 函数： $\Gamma(x) = \int^{+\infin}_0 t^{x-1}e^{-t}dt , x>0$ ，其历史可以参考这里
- 这个函数是阶乘函数在实数乃至复数域上的扩展，对于正整数 $n$ ， $\Gamma(n+1) = n!$ , 如果修改伽马函数让 $\Gamma(n) = n!$ ，只需要将 $t^{x-1}$ 改为 $t^{x}$ 即可；
- 其满足阶乘的性质： $\Gamma(x+1) = x\Gamma(x)$ (分部积分证明)。
$t$ 分布： $t=\frac{X}{\sqrt{Y/n}}$ ，记为 $t\sim t(n)$ , 其中 $X\sim N(0,1), Y\sim\chi^2(n)$ , $X,Y$ 相互独立；
- 概率密度函数为 $h(t) = \frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma[n/2]}(1+\frac{t^2}{n})^{-(n+1)/2}$ ，其关于 $y$ 轴对称；
- $\lim_{n\rightarrow +\infin}h(t)=\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}$ ，也就是说， $n$ 变大时， $t$ 分布将逐渐趋向于标准正态分布， $n>45$ 时就几乎一样了
$F$ 分布： $F=\frac{U/n_1}{V/n_2}$ ，记为 $F(n_1, n_2)$ ,*度为 $(n_1, n_2)$ , 其中 $U\sim\chi^2(n_1)，V\sim\chi^2(n_2)$ ， $U，V$ 相互独立。
- 概率分布函数只在正半轴非 $0$ ，太复杂了，好像也没必要记住？
正态分布样本的若干性质，假设正态分布 $N(\mu,\sigma^2)$ 有 $n$ 个采样的均值，样本均值为 $\overline{X}$ ，样本方差为 $S^2$ :
- $\overline{X}$ 与 $S^2$ 相互独立
- $\overline{X} \sim N(\mu, \sigma^2/n)$
- $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$ , (很有意思， $(n-1)S^2$ 其实和卡方分布的定义很像，但是里面用的是样本均值，可能也就是如此使得得到的*度为 $n-1$ )
- $\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ ，可以由前两条推出
- 如果有两个正态分布的样本 $X, Y$ ，则 $\frac{S^2_1/S^2_2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1，n_2-2)$

参数估计

点估计分为矩估计和最大似然估计，后者见得很多了，前者是指，如果分布具有 $n$ 个参数，则分别求出 $1$ 至 $n$ 阶矩关于参数的表达式，然后计算样本中 $1$ 至 $n$ 阶矩的具体值，最后联立方程得到结果。当参数只有两个时，用的就是均值和方差。在一些简单的分布中，矩估计和最大似然估计的结果似乎是一样的。

假设检验

确定原假设 $H_0$ 和备择假设 $H_1$ ，使用一个检验统计量来表示 $H_0$ ，利用这个统计量的分布和显著性水平来判断假设是否成立。根据检验统计量的不同，可以分为 $Z$ 检验(正态分布)， $t$ 检验, $\chi^2$ 检验， $F$ 检验。
概率论与数理统计复习笔记(待续)

分布拟合检验、秩和检验：待读

其他

切比雪夫不等式： $P(|x-\mu| \geq \epsilon) \leq \frac{\delta^2}{\epsilon^2}$
- 证明方法是写出 $P(|x-\mu| \geq \epsilon)$ 的定义，然后在定义中用 $f(x) \leq \frac{(x-\mu)^2}{\epsilon^2}f(x)$ 进行放缩即可。
协方差： $Cov(X, Y) = E[(X-E[X])(Y-E[Y])]$
- 相关系数: $\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(x)}\sqrt{D(Y)}}$
- $\rho_{XY}\leq 1$
- $\rho_{XY}= 1$ 当且仅当存在常数 $a, b$ 使得 $P(X=a+bY)=1$
- 多维随机变量中，两两的协方差构成协方差矩阵

概率论与数理统计复习笔记(待续)

概率论基础

基础分布

样本与抽样分布

参数估计

假设检验

其他

相关推荐