概率论与数理统计复习笔记(待续)

概率论基础

基础分布

分布 说明 表达式 期望 方差
二项分布 nn次伯努利试验 P(X=k)=Cnkpk(1p)(nk)P(X=k)=C^k_np^k(1-p)^{(n-k)} npnp np(1p)np(1-p)
泊松分布 Xπ(λ)X\sim \pi(\lambda),多用于描述事件的发生次数的概率 P(X=k)=λkeλk!P(X=k) = \frac{\lambda^ke^{-\lambda}}{k!} λ\lambda λ\lambda
指数分布 具有无记忆性,常用于可靠性理论和排队论中 P(x)=1θexθ,x>0P(x) = \frac{1}{\theta}e^{-\frac{x}{\theta}}, x>0
正态分布 XN(μ,σ2)X \sim N(\mu, \sigma^2) P(x)=12πσe(xμ)22σ2P(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} μ\mu σ2\sigma^2
  • 指数分布的无记忆性

    • P(X>s+tX>s)=P(X>T)P(X> s+t \mid X > s)=P(X > T)
    • 举个例子,一个零件用了ss小时后,它还能再用tt小时的概率与这个零件没用过时能用tt小时的概率相同。很显然这个性质是指数函数带来的。
  • 泊松定律:

    • 固定kk,对于任意正整数nn, 令npn=λnp_n=\lambda,则limnCnkpnk(1pn)nk=λkekk!\lim_{n\rightarrow \infin} C^k_np^k_n(1-p_n)^{n-k}=\frac{\lambda^ke^{-k}}{k!}
    • 这个式子必须选定kk,令nn趋于无穷大才成立,对应的pnp_n会趋近于无穷小
    • 泊松定理是二项分布的一种极限情况:试验次数非常大,而每次试验的成功概率pp非常小,这也符合生活中的很多例子,例如每天的顾客数量、每天的事故发生数量等等。当然,当kk的大小开始接近nn的时候,泊松分布就会失效,应该改用二项分布。这个理解也可以在两个分布的期望与方差上得到印证
  • 函数的概率分布:

    • 已知XX的概率分布函数fXf_X,如果有Y=g(X)Y=g(X),要求YY的概率分布函数fYf_Y,可以通过边缘分布函数FXF_X求得FYF_Y, 然后对FYF_Y求导得到FyF_y

88页

样本与抽样分布

  • 箱线图,对于一组抽样,分别求出中位数MM、第一四分位点Q1Q_1、第三四分位点Q3Q_3,画出下面这张图(图片来源《概率论与数理统计》第四版 133页)。概率论与数理统计复习笔记(待续)

  • 概率分布的分位点:给定α\alpha,概率分布函数f(x)f(x),如果β+f(x)dx=α\int^{+\infin}_{\beta}f(x)dx=\alpha, 则β\beta则为该分布的α\alpha分位点。

  • 样本分布:主要是注意样本方差S2=1n1i=1n(XiX)S^2 = \frac{1}{n-1}\sum^n_{i=1}(X_i-\overline{X})中的系数是1n1\frac{1}{n-1}。实际上如果公式中不用样本均值X\overline{X}来近似μ\mu而是直接用μ\mu的话,系数还是直观的1n\frac{1}{n}。然而可以证明E[(Xμ)2]=1nσ2E[(\overline{X}-\mu)^2]=\frac{1}{n}\sigma^2,所以系数要予以修正。

  • χ2\chi^2分布:χ2=X12+X22++Xn2\chi^2=X^2_1+X^2_2+\ldots+X^2_n,其中XiX_i为标准正态分布的样本,则χ2χ2(n)\chi^2 \sim \chi^2(n),即*度为nn的卡方分布

  • Γ\Gamma函数:Γ(x)=0+tx1etdt,x>0\Gamma(x) = \int^{+\infin}_0 t^{x-1}e^{-t}dt , x>0,其历史可以参考这里

    • 这个函数是阶乘函数在实数乃至复数域上的扩展,对于正整数nnΓ(n+1)=n!\Gamma(n+1) = n!, 如果修改伽马函数让Γ(n)=n!\Gamma(n) = n!,只需要将tx1t^{x-1}改为txt^{x}即可;
    • 其满足阶乘的性质: Γ(x+1)=xΓ(x)\Gamma(x+1) = x\Gamma(x)(分部积分证明)。
  • tt 分布:t=XY/nt=\frac{X}{\sqrt{Y/n}},记为tt(n)t\sim t(n), 其中XN(0,1),Yχ2(n)X\sim N(0,1), Y\sim\chi^2(n), X,YX,Y相互独立;

    • 概率密度函数为h(t)=Γ[(n+1)/2]πnΓ[n/2](1+t2n)(n+1)/2h(t) = \frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma[n/2]}(1+\frac{t^2}{n})^{-(n+1)/2},其关于yy轴对称;
    • limn+h(t)=12πet22\lim_{n\rightarrow +\infin}h(t)=\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}},也就是说,nn变大时,tt分布将逐渐趋向于标准正态分布,n>45n>45时就几乎一样了
  • FF分布:F=U/n1V/n2F=\frac{U/n_1}{V/n_2},记为F(n1,n2)F(n_1, n_2),*度为(n1,n2)(n_1, n_2), 其中Uχ2(n1)Vχ2(n2)U\sim\chi^2(n_1),V\sim\chi^2(n_2)UVU,V相互独立。

    • 概率分布函数只在正半轴非00,太复杂了,好像也没必要记住?
  • 正态分布样本的若干性质,假设正态分布N(μ,σ2)N(\mu,\sigma^2)nn个采样的均值,样本均值为X\overline{X},样本方差为S2S^2:

    • X\overline{X}S2S^2相互独立
    • XN(μ,σ2/n)\overline{X} \sim N(\mu, \sigma^2/n)
    • (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) , (很有意思,(n1)S2(n-1)S^2其实和卡方分布的定义很像,但是里面用的是样本均值,可能也就是如此使得得到的*度为n1n-1)
    • XμS/nt(n1)\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1),可以由前两条推出
    • 如果有两个正态分布的样本X,YX, Y,则S12/S22σ12/σ22F(n11n22)\frac{S^2_1/S^2_2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-2)

参数估计

  • 点估计分为矩估计和最大似然估计,后者见得很多了,前者是指,如果分布具有nn个参数,则分别求出11nn阶矩关于参数的表达式,然后计算样本中11nn阶矩的具体值,最后联立方程得到结果。当参数只有两个时,用的就是均值和方差。在一些简单的分布中,矩估计和最大似然估计的结果似乎是一样的。

假设检验

确定原假设H0H_0和备择假设H1H_1,使用一个检验统计量来表示H0H_0,利用这个统计量的分布和显著性水平来判断假设是否成立。根据检验统计量的不同,可以分为ZZ检验(正态分布),tt检验, χ2\chi^2检验,FF检验。
概率论与数理统计复习笔记(待续)
概率论与数理统计复习笔记(待续)
分布拟合检验、秩和检验:待读

其他

  • 切比雪夫不等式: P(xμϵ)δ2ϵ2P(|x-\mu| \geq \epsilon) \leq \frac{\delta^2}{\epsilon^2}

    • 证明方法是写出P(xμϵ)P(|x-\mu| \geq \epsilon)的定义,然后在定义中用f(x)(xμ)2ϵ2f(x)f(x) \leq \frac{(x-\mu)^2}{\epsilon^2}f(x)进行放缩即可。
  • 协方差: Cov(X,Y)=E[(XE[X])(YE[Y])]Cov(X, Y) = E[(X-E[X])(Y-E[Y])]

    • 相关系数: ρXY=Cov(X,Y)D(x)D(Y)\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(x)}\sqrt{D(Y)}}
    • ρXY1\rho_{XY}\leq 1
    • ρXY=1\rho_{XY}= 1 当且仅当存在常数a,ba, b使得P(X=a+bY)=1P(X=a+bY)=1
    • 多维随机变量中,两两的协方差构成协方差矩阵