李哈哈的模式识别笔记【part 1:模式识别系统】
李哈哈的模式识别笔记【part 1:模式识别系统】
特征与特征空间
知识点:
从样本 sample 中可以提取特征 feature ,这些特征共同组成了特征空间 feature space ,特征与特征之间可以通过某种方式度量其相似度 similarity ,这样,相似度高的特征空间可以归类为一个类 class 。
识别的过程就是根据特征分类的过程
不同类型的特征空间:
向量空间,集合空间。
有监督学习和无监督学习
主要在于分类集中的样本是否添加标签。
有标签则为有监督学习,这种学习的上限是人脑对于该问题的认知处理能力。
无标签则为无监督学习,这种学习是机器通过寻找样本特征本身之间的相似度,自动划分类别,达到识别的目的,是更高级的识别手段。
同类样本间的相似度大于不同类样本间的相似度
紧致性和维数灾难
相似性如何度量
距离:
- 正定性
- 对称性(距离与计算顺序无关)
- 传递性(满足三角形定理)
有很多种度量距离的方法,要满足上述三条要求
有很多非距离相似度:
- 余弦相似度
- 皮尔逊相关系数
维数灾难
来源:
特征维数越高 – 样本集越稀疏 – 紧致性越差 – 分类器性能越差
解决维数灾难方法:
1.增加样本数量,但是不太可取,数据量,训练时间都会更加庞大。
2.特征降维,一种不错的方法
泛化能力和过拟合
泛化能力:
分类器经过训练,具有的不仅能区分样本集中的样本,还可以正确分类不在样本集中的新样本的能力。
过拟合:
由于过分追求分类器对于训练样本集中样本识别的正确性,而导致的分类器泛化能力降低,称为分类器训练过程中的过拟合。
模式识别系统
完成模式识别任务,需要完整的模式识别系统,并完全由计算机完成各模块工作。
模式识别算法体系
体系结构图如下:
手写数字识别
从模板匹配开始
识别效果一般。