基于深度学习的隐私摄像讨论

现代社会,安全隐私是每个人甚至每个企业不得不面对的问题,安全隐私涉及到的问题,在生活中随处可见,如教育、医疗、交通等等。近年来,随着网络技术的发展,视频作为信息传递载体具有诸多优势,而视频来源的重要设备——摄像头备受关注。如何安全、可控的采集视频成为使用者不得不面对的问题。现有技术的重点仅仅为了保护视频的安全,然而内容的安全却少有关注。

2012年以来,深度学习技术快速迅猛发展,对各行各业的改变有目共睹。其中以计算机视觉相关的深度学习技术发展最为迅速,目标检测、目标跟踪、语义分割等等技术日新月异,深刻改变各行各业。语义分割,是计算机视觉中的基本任务,在语义分割中我们需要将视觉输入分为不同的语义可解释类别,其实就是像素级图像分类任务。本讨论所应用的语义分割深度网络U-NET为一经典网络,最初用来处理医学影像问题,经过微调用来处理分割人体前景与背景问题。基于深度学习的图像分类技术,是输入图像对该图像内容分类的描述的问题。本讨论所应用的手势分类深度网络MTCNN-P为较浅网络,最初用来处理人脸识别定位问题,经过微调用来手势识别问题。基于深度学习的人脸识别技术,是当下人脸识别的主要方向,以数据作为驱动引擎,解决诸多传统算法的弊端。本讨论所应用的人脸识别网络为IsightFace网络,用来解决视频中人脸识别问题。

现有技术方案,由于侧重点不同,种类繁多。对于视频内容隐私保护主要分为隐私区域提取保护、隐私区域保护、隐私访问权限保护三个主要方面。隐私区域提取保护分为运动目标区域提取与传统人脸识别。一般情况下,运动的物体为图像中的关键目标信息,主要方法采用静止背景中的运动前景检测跟踪方法,进而提取人体区域。传统人脸识别一把采用基于头-肩分析方法、基于特征脸的人脸检测,进而保护人脸区域。隐私区域提取后,需要方法对这些区域进行保护。编码前保护(数据替换、多重拷贝、数据分割等),这类保护方法在像素域数据上对隐私区域进行保护,其方法简单直观,应用广泛。隐私访问权限保护,当恢复隐私数据时,需要相关的权限控制机制,如基于第三方的数字权限管理系统方法等等。

本讨论集成三种深度神经网络,分别实现人体轮廓分割、手势识别、人脸识别三大功能。人体轮廓分割为主要处理任务,手势识别与人脸识别相当于外层逻辑,实现“隐私”控制。整套系统架构如下图所示:

基于深度学习的隐私摄像讨论

 

整体代码为C++程序,便于后续集成宿主程序。深度学习模型代码文件经过特定平台编译器,生成.SO算法动态库,这个动态库与宿主程序经过Hisiv100交叉编译工具生成.O可执行程序,烧录进摄像头,实现最终软硬件结合。

集成到摄像头终端的三个深度学习模型,为提前训练好的模型。为了满足在嵌入式设备上运行深度学习模型,需要进一步优化。使用了常见的int8量化方法,进一步压缩模型,提升性能。原始图像经过预处理模块简单进行噪声过滤处理,消除常见噪声对图像质量的影响。图像在进入U-NET网络之前,会进行手势判断,这个手势为人的手掌“OK”造型,表示验证通过,视频流可以进入U-NET网络。这样做的目的就是录像的自主可控,在不想要录制的时候可以“示意”摄像头“拳头”造型,表示终止视频流。视频流进入U-NET网络,实现人体轮廓分割,得到轮廓坐标,进一步提取人体前景与背景信息,并对背景部分进行遮挡,实现视频流隐私的保护。在进行最终结果输出的时候,会进行人脸识别判断,如果非设定人员,则不会输出最终结果,实现视频流的自主控制。相关网络原理,自行百度。