奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

上一篇文章，奇迹验证码少样本高精度验证测试。基于新浪微博验证码的测试

我们一般都是用标记正确的样本来训练，通常的想法是：样本标记的越正确，成功率越高，错误的越多，越影响识别率。

本测试的目的是：

验证一下，错误样本与可疑样本能不能训练出80-90%的识别库？

可能对可能不对的，收集了3万张左右，标记全部是错误的结果6500张，不能联网核对对错，又不想人工一个个的核对，怎样训练出识别率80-90%的识别库

如果能联网核对对错收集正确样本自然简单。我们说的是如果不能联网验证的时候，怎样区分他是对还是错

一种方法是人工一个个的核对，那样很慢但比较准

一种是根据初步识别的位数来判断

当然愿意人工一张一张标记成正确的，那是可以的

愿意去花钱打码也是可以的

或直接花钱买一个本地识别库也是可以的

一、随机下载3.7万张样本

https://www.battlenet.com.cn/login/captcha.jpg

二、把验证码分成2部分：“确认错误标记”+“可疑标记”

通过分析，正确的验证码一般长度是 7-9位的。

那么通过程序，可自动把1-6位。和10位或以上的标记答案确认为“确认错误标记”以下简称【6500错误样本】

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

7-9位的标记为“可疑标记”
奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

下面再把7-9位的合计3万张分为3份，每份1万张。

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

训练原理如下：
其实这里面重要的是2个分类

一个是完全正确的，一个是完全错误的

我们把可疑的正确的里面的最接近正确的分离出来，就成功了

再通过训练的初步识别库。来识别刚刚6500张，
训练3个识别库来，交叉验证一下结果

结果相同的分为一类，结果不相同的分类

如果识别库A,识别库B,和识别库C 来识别6500张完全错误的。识别的结果与之前的标记不同，且识别的位数是7-9位，那么这个很有可能就是正确的识别结果

如果用程序自动来处理，很快就分离出“正确”和“错误”的标记，再进一步修正错误的标记为 “更正确的”的标记