学习笔记 | 分析连续数据的数学
01 对于无限的理解
02 极限
“若x无限放大,则函数f(x)无限接近于定数p”可以表示为:
在这种情况下,p被称作f(x)的极限值。
03 欧拉常数e
用以下极限来定义的定数e被称作欧拉常数或自然对数的底。
04 积分:求解面积
积分与面积
y=f(x)与x=a、x=b(a<b)以及x轴围成的图形面积S,使用∫与dx表示如下:
05 连续型随机变量与概率密度函数
- 取连续型数据的随机变量X被称为连续型随机变数。
概率密度函数
- 连续型随机变数X取值范围为a≤X≤b时,其概率P(a≤X≤b)为下图所示的面积,即
概率密度函数的性质
(1)f(x)总是≥0 …
注:随机变数X可取的值,被限定在α≤x≤β的范围内时,
06 连续型随机变量的平均值与方差
连续型随机变数的期待值E(X(或平均值)与方差V(X)
连续型随机变数X的取值范围在α≤X≤β,且概率密度函数为f(x)时
07 正态分布
正态分布的平均值与标准差
当X是呈正态分布N(μ, σ2)的随机变数时:平均值:E(X)=μ
标准正态分布
当随机变数X呈正态分布时,假设随机变数Z满足
08 正态分布表
标准正态分布重要的性质
- 随机变数Z呈标准正规分布N(0,1)时,-1.96≤Z≤1.96的面积占全体面积的95%。
09 什么是推测统计
推测统计分为两个重要模块
- 一是通过研究样本对母集团做出概率预测的“推算”;
- 二是针对已知数据的差值,找出产生差值原因的“检验”。
使用标准正态分布进行“推算”
“μ的95%置信区间是α≤μ≤β” 是指:“在母集团中随机观测与这一次相同数量的数据,且用同样的方式重复确定置信区间的话,那么,在100次中大概有95次,μ的值落在a以上b以下的范围内。"
使用标准正态分布进行“检验”
- 统计学中的检验是一种合理判断数据是否存在异常的手段。
- 首先,有95概率发生的事件被视为“发生概率较大”的事件。以这一标准进行的检验被称为 “有意水准5%验证” 。
在已知母集团呈标准差为σ的正态分布时,建立“真正的平均值为μ”这一假说,并进行“有意水准5%验证”后,如果针对被观测的数据X来说:
- 有名的t检验是利用了t分布(由于在实际工作中,标准差(σ)是未知的,常用S作为σ的估算值,为了与μ变换区别,称为t变换,统计量t值的分布称为t分布。)进行的检验。而呈正态分布的母集团中抽出的数据样本呈标准正态分布(当数据量在数百甚至数千以上时,t分布与标准正态分布几乎一致)就十分接近于t分布。