2020.10.06-基于改进 YOLO v3 网络的夜间环境柑橘识别方法

主要宏观问题

这篇论文要解决什么问题?

夜间环境柑橘识别问题。

 

 

 

这篇论文用了什么方法?

改进的YOLO V3——Des-YOLO V3 网络进行检测。

 

 

 

这篇论文可以达到什么效果?

网络的精确率可以达到97.67%,召回率为97.46%、F1值为0.976

在测试集下的平均精度为90.75%,检测速度为53fps,

 

 

 

用的什么对比算法?

YOLO V3,YOLO V3 DarkNet53

Faster RCNN

 

 

效果比对比算法高了多少?

精确率比YOLO V3高6.26%,召回率比YOLOV3高6.36%,F1值比YOLO V3高0.063。

在测试集上YOLO v3_DarkNet53 网络的平均精度 88. 48% ,mAP 比 YOLO v3_

DarkNet53 网络提高了 2. 27 个百分点,检测速度比 YOLO v3_DarkNet53 网络提高了 11FPS。

 

DesYOLO v3 网络与 Faster R-CNN 网络相比,少了生成候选区域这一步,所以 mAP 比 Faster R-CNN 低了0. 5 个百分点,但是 Des-YOLO v3 网络的速度为 53f /s,明显快于 Fater R-CNN。

 

 

作者最引以为豪的结论是什么?

在夜间对柑橘进行检测的时候,比YOLO V3_DarkNet53 网络的检测精度高,检测速度快。

且对小目标的检测精度有所提高,

相对于使用BackBone 为DarkNet 53的 YOLO v3来说,运算量更小,。

 

 

这篇论文的创新点是什么?

改进的Des-YOLO V3网络,实现了网络多层特征的融合。

 

 

 

这篇论文的难点是什么?

夜间小体积果实重叠果实识别率较低; 夜间识别方法步骤复杂,采用多阶段人工特征提取方法,不适合大样本数据集,识别效果有待进一步提升。

 

 

这篇论文存在的问题是什么?

 

 

 

 

技术细节

主要的操作步骤是什么?

更换YOLO V3的BackBone

 

 

 

 

 

网络的结构是什么

BackBone:先来3个大小为3x3,padding为1的卷积层(不改变图像大小),再来一个最大池化层;之后是1个Dense Block+3个ResNet Block。

2020.10.06-基于改进 YOLO v3 网络的夜间环境柑橘识别方法

 

2020.10.06-基于改进 YOLO v3 网络的夜间环境柑橘识别方法

 

neck :类似于FPN网络的尺度金字塔(与原始的FPN类似,但是不相同,原始的FPN有4个输出,而本文的只有3个输出),通过2次上采样并与网络上层中相同尺寸特征图谱拼接,进行3次回归预测,实现对不同尺寸目标的多尺度检测。

 

 

 

 

 

 

 

 

对网络进行修改的依据是什么

为了有效减少模型的参数,同时尽可能在高层特征中保留各级底层特征(包括原始图像信息),进一步实现网络多层特征的复用和融合,因此借鉴了密集连接网络的思想。

在保证模型具有较高预测准确率的基础上缩减了网络的卷积层数量减小了模型尺寸和计算量

 

 

数据集有多大?

拍摄了2000幅图像,筛选出来清晰的1600幅

遮挡图像是指柑橘面积遮挡超过1/3遮挡图像749幅,完整图像851幅,其中1200幅作为训练集,剩余400幅作为测试集

 

 

 

 

数据集的预处理?

 

 

 

 

使用的硬件设备

计算机配置为 Intel Core i7-8700HQ CPU,3. 20 GHz × 12,显卡为 GeForce GTX 1080,操作系统为 Ubuntu16. 04LTS,NVIDIA 430. 26 驱动,CUDA 8. 0. 61 版本,CUDNN神经网络加速库版本为5. 1. 1。

 

 

 

网络的训练

batch size为64,共16批次,进行50000次迭代;动量因子设为0.9;衰减系数设为0.0005,学习率调整策略采用setps,初始学习率设为0.001,当网络迭代40000次和45000次时,学习率依此降低为0.0001和0.00001。

 

 

实验如何验证?

设计了YOLO v3 和 Des-YOLO v3 的对比识别试验,将原始测试集分为果实稀疏完整果实遮挡 2 个梯度,目的是对比分析 2 种识别网络在以上两种情况下的检测性能。

2020.10.06-基于改进 YOLO v3 网络的夜间环境柑橘识别方法

 

2020.10.06-基于改进 YOLO v3 网络的夜间环境柑橘识别方法

图 10 为两种网络 P、R 关系曲线,图 11 为 2 种网络的识别效果图。