基于深度学习的隐私摄像讨论

现代社会，安全隐私是每个人甚至每个企业不得不面对的问题，安全隐私涉及到的问题，在生活中随处可见，如教育、医疗、交通等等。近年来，随着网络技术的发展，视频作为信息传递载体具有诸多优势，而视频来源的重要设备——摄像头备受关注。如何安全、可控的采集视频成为使用者不得不面对的问题。现有技术的重点仅仅为了保护视频的安全，然而内容的安全却少有关注。

2012年以来，深度学习技术快速迅猛发展，对各行各业的改变有目共睹。其中以计算机视觉相关的深度学习技术发展最为迅速，目标检测、目标跟踪、语义分割等等技术日新月异，深刻改变各行各业。语义分割，是计算机视觉中的基本任务，在语义分割中我们需要将视觉输入分为不同的语义可解释类别，其实就是像素级图像分类任务。本讨论所应用的语义分割深度网络U-NET为一经典网络，最初用来处理医学影像问题，经过微调用来处理分割人体前景与背景问题。基于深度学习的图像分类技术，是输入图像对该图像内容分类的描述的问题。本讨论所应用的手势分类深度网络MTCNN-P为较浅网络，最初用来处理人脸识别定位问题，经过微调用来手势识别问题。基于深度学习的人脸识别技术，是当下人脸识别的主要方向，以数据作为驱动引擎，解决诸多传统算法的弊端。本讨论所应用的人脸识别网络为IsightFace网络，用来解决视频中人脸识别问题。

现有技术方案，由于侧重点不同，种类繁多。对于视频内容隐私保护主要分为隐私区域提取保护、隐私区域保护、隐私访问权限保护三个主要方面。隐私区域提取保护分为运动目标区域提取与传统人脸识别。一般情况下，运动的物体为图像中的关键目标信息，主要方法采用静止背景中的运动前景检测跟踪方法，进而提取人体区域。传统人脸识别一把采用基于头-肩分析方法、基于特征脸的人脸检测，进而保护人脸区域。隐私区域提取后，需要方法对这些区域进行保护。编码前保护（数据替换、多重拷贝、数据分割等），这类保护方法在像素域数据上对隐私区域进行保护，其方法简单直观，应用广泛。隐私访问权限保护，当恢复隐私数据时，需要相关的权限控制机制，如基于第三方的数字权限管理系统方法等等。

本讨论集成三种深度神经网络，分别实现人体轮廓分割、手势识别、人脸识别三大功能。人体轮廓分割为主要处理任务，手势识别与人脸识别相当于外层逻辑，实现“隐私”控制。整套系统架构如下图所示：

基于深度学习的隐私摄像讨论

整体代码为C++程序，便于后续集成宿主程序。深度学习模型代码文件经过特定平台编译器，生成.SO算法动态库，这个动态库与宿主程序经过Hisiv100交叉编译工具生成.O可执行程序，烧录进摄像头，实现最终软硬件结合。

集成到摄像头终端的三个深度学习模型，为提前训练好的模型。为了满足在嵌入式设备上运行深度学习模型，需要进一步优化。使用了常见的int8量化方法，进一步压缩模型，提升性能。原始图像经过预处理模块简单进行噪声过滤处理，消除常见噪声对图像质量的影响。图像在进入U-NET网络之前，会进行手势判断，这个手势为人的手掌“OK”造型，表示验证通过，视频流可以进入U-NET网络。这样做的目的就是录像的自主可控，在不想要录制的时候可以“示意”摄像头“拳头”造型，表示终止视频流。视频流进入U-NET网络，实现人体轮廓分割，得到轮廓坐标，进一步提取人体前景与背景信息，并对背景部分进行遮挡，实现视频流隐私的保护。在进行最终结果输出的时候，会进行人脸识别判断，如果非设定人员，则不会输出最终结果，实现视频流的自主控制。相关网络原理，自行百度。

基于深度学习的隐私摄像讨论

相关推荐