模式识别第一课(模式识别的过程)
1、区分模式识别,数据挖掘和机器学习
不同的人有不同的见解,只需要注意一点,即侧重点是不同的。
模式识别:例如文字识别,图像识别,语音识别;
数据挖掘:数据,例如图片,语音,数字数据,等等进行分类或者回归,得出规律的东西;
机器学习:就是上面的方法要用到机器学习,什么深度学习,svm,bp,等等
2、基本概念
模式:模式就是样品所具有的特征的描述。
模式识别:是一个过程。外部信息到达传感器,并传递到有意义的传感结果
3、模式识别系统的构成
(1) A sensor 感知器(信息获取)
(2) A preprocessing mechanism 预处理机制
(3) A feature extraction mechanism (manual or automated) 特征提取机制
(4) A classification algorithm 分类算法
(5) A set of examples (training set) already classification 训练集或称样本数据
4、模式识别的过程
5、Example 1: distinguish sea fish 区分海鱼
参考教材:Pattern Classification
(5.1)要求识别传送带上的鲑鱼和鲈鱼,且准确率要达到95%以上。
(5.2)Sensor
当一条新鱼进入分拣区域时(在皮带上),摄像机捕捉到图像。
(5.3)Preprocessing
摄像机的调整:能将传送带上的鱼拍清楚,需要调整相机的拍照频率和传送带速度相平衡
消除噪音:即比如要去除鱼身上的海草再放上传送带
要将相片上的鱼和背景分离,能将鱼和鱼分离
(5.4)Feature Extraction
一般我们认为鲈鱼要比鲑鱼大,于是我们尝试用length作为特征属性,分辨鲈鱼和鲑鱼
(5.5)Feature Extraction
从两个物种中收集一组例子
- 绘制两个类的长度分布
- 确定一个最小化分类错误的决策边界(阈值)
我们估计系统出错的概率,如果使用thereshold 11,会得到40%的令人沮丧的结果(非常糟糕!)
显然要达到95%的准确率,只从length一个特征远远不能准确识别鱼类,因此可以考虑如下几个方面:宽度,眼睛的位置,嘴巴的位置等等。最后经过实验,找到一个不错的特征:亮度(lightness)
但是依然达不到95%的准确率;
我们将width和lightness结合,来进行分类
需要注意的一个问题:鲑鱼的市场价格高于鲈鱼,我们的分类并不是100%有效,因此为了不让买鱼的客户吃亏,应该尽可能让出错的情
况是鲑鱼分到了鲈鱼的那一堆中。即以上图的直线为标准,那么只能把直线往左移作为判断方程。
我们的线性分类器识别率(95.7%)达到了设计要求,但我们认为系统的性能还有待进一步提高。
然后设计了5个隐含层的人工神经网络;
logistic和双曲正切**函数的组合;
用Levenberg-Marquardt算法对其进行训练并在有决策边界的情况下,获得99.9975%的令人印象深刻的分类率。
这样虽然达到了非常高的准确率,但是这只针对于这些样本而言,并不能推广到所有打捞上来的鲑鱼和鲈鱼的分类问题上。这也称为过拟
合。训练样本过拟合,泛化效果不佳!!
最后经过trade-off(平衡)找到一条比线性方程更好的分类曲线方程。结果准确率大于95%小于99%
6、Example 2 Deal with missing data 处理缺失数据