李备:期待移动端非线性自适应滤波器

李备:期待移动端非线性自适应滤波器


LiveVideoStack采访了网易云信资深音频算法工程师李备,对于音频技术的未来,他给出了自己的观点,尤其期待移动端上出现非线性自适应滤波器。


文 / 李备

策划 / LiveVideoStack


LiveVideoStack:李备你好,能否向LiveVideoStack的读者介绍下自己,以及目前主要的工作和关注的技术方向?


李备:我叫李备,中科大硕士毕业,先后入职Cisco WebEx,网易云信。在软件实时音频领域工作5年多,从事过语音前处理算法,音频引擎框架搭建,音频编码器优化,移动端的移植解决方案,音频测试框架搭建等工作。目前在网易主要负责网易云信的音频算法的优化,音频框架的设计,以及不同场景下的解决方案的制定等工作。主要关注业界的音频解决方案框架,音频算法与音频的机器学习方法等方向。


LiveVideoStack:能否介绍下网易云信在教育和实时通讯领域有哪些特色技术和产品,未来有哪些发展规划?


李备:网易云信一直都关注在线教育行业,已经推出的在线教育解决方案覆盖大型直播教学、大班互动教学、小班辅导教学全系列的在线课堂模式,帮助开发者能够快速地搭建和上线在线教育产品。网易云信深知在不同的在线教育垂直行业有着不同的教学特点,接下来网易云信将秉承场景化解决方案的思路,为在线教育行业推出特点鲜明更加契合场景需求的解决方案。举例来讲,今年早些时候网易云信推出的在线音乐教学解决方案,针对在线音乐教学对于声音的音质与高还原要求,首创定制研发了高清音乐模式,创新性得将音频处理的专业领域与具体的行业场景紧密结合,这也是接下来网易云信会坚持的道路与价值。


LiveVideoStack:展望整个多媒体通讯领域,你认为哪些(开源)技术栈将会快速发展?


李备:随着AI算法的成熟,终端硬件的计算能力的提升,一些AI算法在多媒体通讯领域的应用以前只能在实验室实现的方法有了落地的可能,甚至在实时音视频领域。比如视频的超分技术,音频的基于深度学习的降噪等技术可能在算法优化与硬件升级的某个临界值下实现大规模的落地。


LiveVideoStack:一种观点认为,现在做多媒体开发比十年前容易很多,因为有许多强大的开源框架、工具(如WebRTC、FFmpeg、x.264)以及像网易云信这样的多媒体PaaS平台,你怎么看这种观点?


李备:现在不管是多媒体的应用开发还是做多媒体的底层平台开发和十年前相比确实容易很多了。主要体现两个方面,第一,多媒体的大环境越来越成熟,包括终端设备的性能,网络的带宽,系统的相关API的支持,国内相关人才数量等十年内都有了天翻地覆的变化。十年前基本只有巨头公司才能玩得起多媒体,现在多媒体开发已经是大部分的基本功能了。第二,有越来越多的开源架构,算法等开源(如WebRTC、FFmpeg等),同时又有越来越多的专业的多媒体服务平台(如 网易云信等),会提供端到端的多媒体的解决方案,场景的覆盖也非常广,从大型会议模式,到点对点,直播,转播,从低功耗设备方案到大屏方案等,使得开发多媒体的开发成本及周期都大大缩短。


LiveVideoStack:实时音视频已成为许多应用的刚需性配置,但在这一领域,因为较高的技术开发和资源投入门槛,也为云技术服务企业带来了严峻挑战。具体讲一下NRTC工业级的音视频技术框架和开源的框架有什么区别?


李备:首先,技术全面。NRTC全面的技术开发支持包括:各种媒体服务器、信令服务器、认证与管理服务器、混音转码录制等服务、各种SDK等。此外,NRTC既支持UDP也支持TCP,既支持实时也支持准实时通话,这是对WebRTC作为客户端框架只支持UDP的实时通话的一种完善和补充。


其次,功能全面。


1) NRTC可以提供实时音视频通话功能,这一方案是基于UDP的,时延低于400ms;

2) NRTC可以提供直播功能,这一方案是基于TCP的,可以提供高质量的准实时的直播能力,时延1~3s;

3) NRTC也可以将实时音视频通话和直播能力相结合,提供互动直播功能,通过上麦下麦控制用户在连麦和观众模式间切换;

4) NRTC可以提供点播功能,通过NCDN实现海量分发;

5) NRTC可以提供短视频功能,短视频SDK也一并俱全。


第三,场景全面。NRTC具备高效落地多元化场景应用的能力。NRTC可以提供实时音视频通话功能、直播功能。此外,NRTC还支撑了网易内外部各个客户的海量应用,譬如网易云音乐、网易新闻、有道、云课堂等。


第四:灵活。NRTC传输层采用私有协议的方式,确保RTC实时通信功能可灵活实现,改善了WebRTC因标准化为个性化开发带来的困难。基于传输层私有协议,用户可以很容易的扩展媒体包,这大大提升了开发的便捷性,改变了过去在WebRTC开发环境下,JavaScript 无法修改和访问RTP数据包和RTCP控制包的局限性。


第五,NRTC对于WebRTC的优化。NRTC是同时适应于Web和Server开发的完整的音视频技术解决方案,改善了WebRTC只能针对Web进行点对点实时通信功能开发的状况。NRTC在现有的VoIP系统里通过WebRTC Gateway来兼容WebRTC,最终目的是让音视频技术走出实验室,实现We b音视频的工程化开发及应用。同时,NRTC根据自己的业务需要实现了很多libwebrtc里没有的功能,并做了优化。


第六,易用。用户只要接入SDK即可完成多元化功能实现:


1) Web端的音视频通话,无需自行再写服务器、信令。

2) 实现Web端和其它移动端、PC端的互通,改善WebRTC只针对Web端的局限性。

3) 实现双人点对点和多人会议,改善WebRTC只支持点对点的状况。

4) 实现Web端的互动直播。

5) 实现IM+Web音视频+聊天室+互动直播+拉流播放器。


LiveVideoStack:搞多媒体开发需要学习大量的基础知识,而且需要在实际工作中摸爬滚打。对于学习多媒体开发,您有哪些建议?能否推荐一些多媒体开发相关的学习资料或书籍。


李备:多媒体开发的门槛相对于其他开发确实高一些,如果是做多媒体的应用的开发,需要熟悉多媒体的一些基本概念,以及多种开源算法,或者框架的主要作用和影响,比如采样率,通道数,编码码率等基本概念,音频不同编码器(如AAC 、MP3、OPUS等)的适用范围,AEC、NS都是什么算法有什么作用等等。如果是开发多媒体底层算法或者框架的同学就需要有更加扎实的基础,推荐可以看下《离散时间语音信号处理》和《语音增强的理论与实践》的电子版本,除此之外可以看看开源框架的设计,RFC的一些行业标准。


LiveVideoStack:音视频领域还有哪些学界、工业界公认的难点?未来今年,哪些难点有可能取得突破?


李备:说说音频的吧,回声消除一直就是工业界里面的难点,难在终端设备的采集播放设备的多样性,应用场景的复杂性,终端性能有限等方面,软件层很难有完美的落地方案。未来,可能像计算量非常大的非线性自适应滤波器也可以落地移动端。而对于音乐内容,学术界都没有很好的回声消除方案,未来也许会出现一些与AI技术的结合可以在音乐内容的回声消除方案。


LiveVideoStack:说说你将在LiveVideoStackCon 2018分享的内容吧。


李备:这次在LiveVideoStackCon分享的主题是“音乐场景下的实时音频解决方案”,主要会讲下普通场景的音频解决方案的框架,每个模块的主要作用,可能会遇到的挑战和问题,再来分析下,音乐场景的新的挑战,以及普通解决方案在音乐场景下的不足,以及网易云信在音乐教学下的一些思考。



李备:期待移动端非线性自适应滤波器