基于CV、NLP和RA的图片分析分享平台
项目背景
在机器学习、深度学习日益火热的今天,出现了各种各样的网络模型和应用。以前的图片处理都是基于连通域或者单个像素处理的技术,在提取信息能力和速度方面远没有达到要求。目前最火热的深度学习研究领域包括计算机视觉、自然语言处理等,大数据领域比较火热的如推荐算法的研究等,本项目旨在综合三类研究领域的最新研究进展和成果,构建一个图片分析和分享的网站。主要功能包括以下但不限于:
l 提取图片中的文字
l 检测图片中的物体
l 根据图片生成一段根据这段话的描述,并提取其中的关键词
l 根据图片生成一首古诗(藏头诗)
l 根据图片生成一副对联
l 相似图片搜索
l 图片推荐
目前尚没有这样一个综合各类最新研究的系统,相比较那些需要很大注册用户量才有实用价值的社区系统或者共享平台,本项目的构建更有意义,因为它提供了图片分析处理功能,而这种功能并不依赖于用户群体。而且人们对于图片处理分析的功能需求也与日俱增,比如人们会希望机器可以自动识别并提取出图片中的文字信息(如扫描身份证),再比如人们会希望输入一张图片能得到类似的图片推荐。
技术创新
本项目的核心是模型、数据和算法,创新点在于综合利用了各领域的最新研究成果,通过自主训练模型实现算法,完成这样一个将科研成果转化为实用价值的网站。
工作内容
主要功能包括但不限于以下:
l 提取图片中的文字
l 检测图片中的物体
l 根据图片生成一段根据这段话的描述,并提取其中的关键词
l 根据图片生成一首古诗(藏头诗)
l 根据图片生成一副对联
l 相似图片搜索
l 图片推荐
技术路线
据目前了解,计算机视觉方面需要用到CTPN、SSD、VGGNET等网络模型,NLP方面需要LSTM、RNN等,推荐算法方面需要提取特征、结合协同过滤算法、基于内容的算法等推荐算法,构建网站方面需要前端HTML、CSS、JS等,后端需要django框架。
硬件方面需要一台高性能服务器。
实施方案CV、NLP、网站、推荐系统并行开发进行。前期工作是做调研,如阅读CVPR会议文献等了解其中的最新的研究进展,使用tensorflow或者caffe等框架实现模型并训练模型。最后把网站与模型相结合。
===================================2018/4/6===================================
AUTHOR: CYM
TOPIC:目标检测模型
CV领域目标检测的发展历程如图:
一开始非常抢眼的RCNN系列,到后来的SSD、YOLO。
RCNN系列需要经过两个步骤,第一步是区域提名,也就是生成预选框,第二步是细化分类。也正因为要两步走,所以在实时性上比不过端到端的SSD、YOLO模型。
而目前的SSD、YOLO等mAP指标已经可以甚至超过了FasterRCNN了。
YOLO目前又推出了v3版本,据说性能和精度上超过了v2。暂不在考虑范围内。
那么YOLOV2和SSD的效果比较如何呢?
值得一提的是,Pascal Voc的是20分类,cocodataset的是80分类,而YOLOV2,又名YOLO9000,可以识别9000种物体。
拟试运行然后比较效果。
待续。