《数据科学基础》课堂笔记

数据科学基础课堂笔记

绪论

1.1 DIKW 金字塔模型

《数据科学基础》课堂笔记


1.2数据类型

  • 数据最相关的是集合论,集合论被视为现代数学的基础
  • 数据类型通常可以分为四类:
    • 定类数据(最低级)
      • 代表不同的分类。相应的数据没有数量的含义。是没有顺序大小之分的较低级的数据
      • 定类数据之间的数学关系就是:等于、不等于
      • 如:使用1代表男性,0代表女性,但不代表男性比女性好
    • 定序数据
      • 定序数据是量化尺度的最基本形式,通常采用数字表示顺序
      • 定序数据不但有差别,而且有等级之分
      • 如:2表示优,1表示良,0表示差
      • 定序数据之间的数学关系:等于、不等于、大于、小于、大于等于、小于等于
    • 定距数据
      • 不仅可以将事物区分为不同类型并进行排序,而且可以准确地指出类别之间地差距是多少
      • 定距变量的数据是一种真正数量化的数值,即可以对这些数据进行±*/运算
      • 在定距变量中,0是强行规定的,它不代表完全没有的意思
    • 定比数据(*)
      • 《数据科学基础》课堂笔记
    • (从低级到高级)
    • 《数据科学基础》课堂笔记
    • 高级数据可以通过数据处理降为低级别数据

1.3数据汇总

  • 数据汇总:
    • 集中趋势度量
      • 集中趋势度量反应的是数据(样本或总体)的平均水平或数据的中心值
      • 《数据科学基础》课堂笔记
      • 《数据科学基础》课堂笔记
      • 《数据科学基础》课堂笔记
      • 《数据科学基础》课堂笔记
      • 《数据科学基础》课堂笔记
        ** 利用平均数的求和稳定性,可以大大降低运算复杂度**
      • 几何平均数一般用于求增长率(每一年的增长都以上一年为基数)《数据科学基础》课堂笔记
      • 《数据科学基础》课堂笔记
    • 离散趋势度量
      • 研究数据的波动
      • 《数据科学基础》课堂笔记
      • 《数据科学基础》课堂笔记
      • 《数据科学基础》课堂笔记
      • 《数据科学基础》课堂笔记

概率论基础

《数据科学基础》课堂笔记

古典概率

《数据科学基础》课堂笔记

几何概率

(从有限到无限的集合推广)
《数据科学基础》课堂笔记
《数据科学基础》课堂笔记
《数据科学基础》课堂笔记
《数据科学基础》课堂笔记
《数据科学基础》课堂笔记
《数据科学基础》课堂笔记

概率的计算

条件概率

  • 《数据科学基础》课堂笔记
  • 韦恩图的解释:已知事件B发生的情况下求事件A也发生的概率,求A和B交叉部分的概率除以事件B的概率,也就是P(A&B)/P(B) :**事件A发生且事件B也发生的概率除以B的概率(因为交叉部分的概率就是P(A&B)而不是P(A)*P(B)《数据科学基础》课堂笔记
  • 但要注意,:《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记
  • 完备事件组《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记
  • 例题: 有一道选择题,该学生知道正确答案和不知道正确答案的概率是0.5,不知道正确答案时,该学生有1/4的概率猜对。现在知道此学生答对了这道题,求该学生知道正确答案的概率是多少
  • 《数据科学基础》课堂笔记

贝叶斯公式

  • 《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记

独立性

  • 《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记
  • 《数据科学基础》课堂笔记

随机测试示例