Oscar的数理统计笔记本

Random Variable

cdf:\underline{cdf:}cumulative distribution function F(x)=P(Xx)F(x)=P(X \leq x)
pmf:\underline{pmf:}probability mass function(for discrete probability distribution )
(1)p(x)0,xXp(x) \geq0,x \in X
(2)xXP(x)=1\sum\limits_{x \in X}P(x)=1
pdf:\underline{pdf:}probability density function(for continuous probability distribution )
(1)f(x)0f(x) \geq 0for all x,
(2)f(x)dx=1\int_{-\infty}^{\infty}f(x)dx=1

discrete distribution:

Poisson Distribution:
P(X=x)=(nx)px(1p)nx=n!x!(nx)!px(1p)nx=n(n1)(nx+2)(nx+1)pxx!(1p)nxP(X = x)=\begin{pmatrix} n \\ x \end{pmatrix}p^{x}(1-p)^{n-x}=\frac{n!}{x!(n-x)!}p^{x}(1-p)^{n-x}=\\ \frac{n(n-1)\dots(n-x+2)(n-x+1)p^{x}}{x!}(1-p)^{n-x}
这里我们这样处理:p0,np\rightarrow 0 ,n \rightarrow \infty
P(λ)P(\lambda)
Pk=λkk!eλk=0,1,P_{k}=\frac{\lambda^{k}}{k!}e^{-\lambda}\quad k=0,1,\dots

Negative Binomial Distribution
(k+r1k)=(k+r1)!k!(r1)!=(k+r1)(k+r2)(r)k!=(1)k(kr+1)(kr+2)(r)k!=(1)k(rk)\left(\begin{array}{c}{k+r-1} \\ {k}\end{array}\right)=\frac{(k+r-1) !}{k !(r-1) !}=\frac{(k+r-1)(k+r-2) \ldots(r)}{k !}=(-1)^{k} \frac{(-k-r+1)(-k-r+2) \ldots(-r)}{k !}=(-1)^{k}\left(\begin{array}{c}{-r} \\ {k}\end{array}\right)

continuous distribution:

Normal distibution:KaTeX parse error: Expected group after '_' at position 5: \int_̲\limits{\mathbb…
0exp(x22)dx=12\int_{0}^{\infty}\exp \left(-\frac{x^{2}}{2}\right) \mathrm{d} x=\frac{1}{2}
XN(μ,σ2)X \looparrowright N(\mu,\sigma^2)
pdfp(x)=12πσe(xμ)22σ2p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{-(x-\mu)^2}{2\sigma^2}}
cdfF(x)=12πσxe(tμ)22σ2dtF(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^xe^{\frac{-(t-\mu)^2}{2\sigma^2}}dt

统计量

Oscar的数理统计笔记本
Oscar的数理统计笔记本
Oscar的数理统计笔记本

现代统计学时期:

20世纪80年代开始,随着现代生物医学的发展,计算机技术的进步,人类对健康的管理和疾病的治疗已进入基因领域,对基因数据分析产生大量需求。多维海量的基因数据具有全新的数据特征,变量维度远远大于样本数,传统的统计方法失效了,因此一系列面向多维数据的统计分析方法相继产生,比如著名的Lasso方法。
20世纪90年代以来,随着Internet的发展,数据库中积累了海量的数据。如何从海量的数据中挖掘有用的信息就变得越来越重要了,数据挖掘也就应运而生了。与数据挖掘比较接近的名词是机器学习,。因为机器学习算法中涉及了很多的统计学理论,与统计学的关系密切,也被称为统计学习。
经验分布函数:
将所得数据x1,x2,,xnx_1,x_2,\dots,x_n重新排列为顺序统计量x1x2xnx_{1}^{*} \leq x_{2}^{*} \leq \cdots \leq x_{n}^{*}
Fn(x)={0x<x1k/nxkx<xk+1k=1,2,,n11xxnF_{n}^{*}(x)=\left\{\begin{array}{cc}{0} & {x<x_{1}^{*}} \\ {k / n} & {x_{k}^{*} \leq x<x_{k+1}^{*} \quad k=1,2, \cdots, n-1} \\ {1} & {x \geq x_{n}^{*}}\end{array}\right.
为总体XX的经验分布函数
例子:
从一批标准重量为克的罐头中,随 机抽取8听:
8,-4,6 ,7, -2, 1, 0, 1测的误差
求总体XX的经验分布函数
Fn(x)={0x<71/87x<42/84x<23/82x<04/80x<16/81x<67/86x<81x8F_{n}(x)=\left\{\begin{array}{cc}{0} & {x<-7} \\ {1 / 8} & {-7 \leq x<-4} \\ {2 / 8} & {-4 \leq x<-2} \\ {3 / 8} & {-2 \leq x<0} \\ {4 / 8} & {0 \leq x<1} \\ {6 / 8} & {1 \leq x<6} \\ {7 / 8} & {6 \leq x<8} \\ {1} & {x \geq 8}\end{array}\right.
统计量:依赖于样本的函数
样本均值:Xˉ=Xˉn=1ni=1nXi\bar{X}=\bar{X}_{n}=\frac{1}{n} \sum_{i=1}^{n} X_{i}(总体样本)
(分组样本)样本均值的近似公式:xˉ=x1f1+xkfkn(n=i=1kfi)\bar{x}=\frac{x_1f_1+\dots x_kf_k}{n} (n=\sum_{i=1}^{k}f_i)
fif_i为第i组的频数,k为组数
样本k阶原点矩:Xk=1ni=1nXikX^{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}
单个正态总体分布下的样本均值分布:Oscar的数理统计笔记本
X=1ni=1nXiN(μ,σ2n)\overline{\boldsymbol{X}}=\frac{1}{n} \sum_{i=1}^{n} X_{i} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right)
证明:
X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n}独立同分布,E(Xi)=μE(X_i)=\mu
Oscar的数理统计笔记本

Oscar的数理统计笔记本

Survey sampling

\bulletWhat is survey sampling?(c.f.census survey)(c.f.:参考,查看,来源于拉丁语)
\bulletunderstanding the whole by a fraction\underline{fraction}(i.e.a sample\underline{sample})
Population:
Q:What is the population to survey?(In some cases,it can be difficult to identify or determine)
N:population size
a sample of size n:a subgroup of n members(n<N)
Q:Which n members should be included in the sample?(i.e.how to produce a representative\underline{representative} sample)
quantity of interest:
xi,i=1,2,3Nx_i,i=1,2,3\cdots N(each labeled by an integer)
xix_ican be numerical\underline{numerical} or categorial\underline{categorial}
Multivariate(xi1,xi2xik),i=1,2,3N(x_{i1},x_{i2}\cdots x_{ik}),i=1,2,3 \dots N
Definition:\underline{Definition : }(survey sampling)
A technique to obtain information\underline{information} about a large\underline{large} population by examining only