机器学习综述 + K-最近邻绘制
机器学习的目的是生成对于人类理解足够简单的分类表达式。必须具有充分模仿人类的推理能力,在决策过程中提供见解。统计学强调推断,机器学习强调预测。运用前者一般通过生成数据进行统计推断。后者是通过某些变量预测数据的某些特征。有一些算法:
- 回归或预测
- 线性和二次判别分析
- 分类
- 最近邻
- 朴素贝叶斯
- 支持向量机
- 决策树
- 聚类
机器学习算法广义上主要分为监督学习,非监督学习,强化学习和深度学习。监督学习方法就是将数据进行分类并标记为测试数据,就像一个老师对课堂进行监督。无监督的学习没有标记任何训练集数据,而监督学习完全包含标记的训练集数据。半监督学习使用未标记的数据作为训练集。
k-最近邻算法绘制
'''
k-最近邻算法不用从训练集数据中建立模型.它逐一比较无标签数据和每一个有标签的数据.
然后,去最相似的数据部分(最近的邻居),并查看其标签.现在,从已知的数据集中取前k条最相似
的数据(k为整数,并且通常小于20).
'''
'''
使用k-最近邻步骤:
收集数据
准备计算距离的数值
用任何适当的方法进行分析
没有训练(不涉及训练)
测试并计算误差率
计算k最邻近搜素,确定前k个最近邻
为了测试分类结果,可以从已知数据开始,这样可以隐藏分类结果,并测试自己的分类预测结果
'''
结果: