论文阅读:Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality

论文名字

Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality

来源

会议 Proceedings of NOSSDA V’17, Taipei, *

年份

2017.6

作者

Fan Ching-Ling,Lee Jean,Lo Wen-Chih, Huang Chun-Ying, Chen Kuan-Ta, Hsu Cheng-Hsin

核心点

提出一种预测网络,可以同时利用传感器和内容相关的特性来预测未来观众的行为。(结合了视频内容和人的头部运动)

阅读日期

2020.10.13

内容总结

文章主要解决的问题及解决方案:

问题:现有的解决方案要么使用观看者当前的方位来近似未来的市场,要么使用历史方位和航位推算算法来推断未来的市场。

解决方案:提出一种预测网络,可以同时利用传感器和内容相关的特性来预测未来观众的行为。

 

文章的主要工作:

①观看者作为中心点,设α和β作为偏航角和俯仰角,将球面空间中的FoV描述为(α,β,θ),θ为FoV的半径,不同设备不同角度(Oculus Rift:100°;HTC Vive:67°;Samsung Gear:67°)。

②使用VGG-16做图像显著图提取。

③使用两种网络模型(LSTM),网络输入特征为图像显著性图(saliency)、运动图、观看者方向和观看的切片,输出为预测观看的概率。

论文阅读:Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality

④将360°视频投影到平面图再做处理。(可否有方法直接在扭曲的图像中做处理?)

 

实验结果:

论文阅读:Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality

 

附录:

图像显著图:提取色彩差异大的部分。(https://blog.****.net/u011630458/article/details/54693919)

论文阅读:Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality

论文阅读:Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality

提出问题:

  1. 观看者的头部位置信息以怎样的编码格式传入网络?显著性图像又以怎样的编码格式传入网络?
  2. 显著性图像的网络模型是怎样的?