奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

 

上一篇文章,奇迹验证码少样本高精度验证测试。基于新浪微博验证码的测试 

我们一般都是用标记正确的样本来训练,通常的想法是:样本标记的越正确,成功率越高,错误的越多,越影响识别率。

本测试的目的是:

验证一下,错误样本与可疑样本 能不能训练出80-90%的识别库?

可能对可能不对的,收集 了3万张左右,标记全部是错误的结果6500张,不能联网核对对错,又不想人工一个个的核对,怎样训练出识别率80-90%的识别库

 

 
如果能联网核对对错收集正确样本自然简单。我们说的是如果不能联网验证的时候,怎样区分他是对还是错

 一种方法是人工一个个的核对,那样很慢但比较准

一种是根据初步识别的位数来判断 

当然愿意人工一张一张标记成正确的,那是可以的
 
愿意去花钱打码也是可以的
 
或直接花钱买一个本地识别库也是可以的

 

一、随机下载3.7万张样本

https://www.battlenet.com.cn/login/captcha.jpg

二、把验证码分成2部分:“确认错误标记”+“可疑标记” 


 通过分析,正确的验证码一般长度是 7-9位的。
 
那么通过程序 ,可自动把1-6位。和10位或以上的标记答案 确认为“确认错误标记”以下简称【6500错误样本】

 

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

7-9位的标记为“可疑标记”
奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试
 
下面再把7-9位的合计3万张分为3份,每份1万张。

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

 

 训练原理如下:
其实这里面重要的是2个分类
 
一个是完全正确的,一个是完全错误的
 
我们把可疑的正确的   里面的最 接近正确的分离出来,就成功了
 
再通过训练的初步识别库。来识别 刚刚6500张, 
训练3个识别库 来,交叉验证一下结果
 
结果相同的分为一类,结果不相同的分类
 
如果识别库A,识别库B,和识别库C 来识别6500张完全错误的。识别的结果与之前的标记不同,且识别的位数是7-9位,那么这个很有可能就是正确的识别结果
 
如果用程序自动来处理,很快就分离出“正确”和“错误”的标记,再进一步修正错误的标记为 “更正确的”的标记

 三、训练6500张图、训练1万张图、训练3万张图,分别跑15000步。


我先来训练一下这6500张图
 
如果想让这6500张里效果更好一些,可以人工标记几张图,
 
比如50-100张,也可以不标

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

这是完全错误的样本,竟然有60%,看看有没有一点点成功识别率。

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

效果还是可以的;

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

这是刚刚的可疑C 目录,1万样本,80%左右

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

这是全部的可疑样本 3万样本,15000  82%

四、实测3个模型库的识别率

经过实测,6500错误样本训练的识别库,实测成功率为83%

可疑C 目录,1万样本训练的识别库,实测成功率91%

全部的可疑样本 3万样本训练的识别库,实测成功率92%

样本分离、模型融合后,实测成功率98%

那么有的朋友要问了,为什么实测成功率比训练的成功率高?那是因为可疑样本中有一部分样本是标记错误的。

五、以上原始样本集标记用到自动标记工具,

验证码 样本批量下载 自动标注  万能英数验证码 识别库

 

博客地址:https://blog.csdn.net/qq_41895190

QQ群:669412407(注明验证码战网测试)

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试