采访、撰文 | 徐可
2015年,兰登国际(Random International)的《雨屋》(Rain Room)在上海余德耀美术馆登陆。为期4个月的展期内,吸引了近20万名观众,人均排队时长超过2小时,为的就是去现场感受那场时长10分钟、却不会把人淋湿的室内雨。那场演出标志着风靡全球的“沉浸式”展览、“沉浸式“媒体在中国的兴起。
2017年,源起于日本的teamLab展在中国场场爆满,人们沉浸在光影视频和声波环绕中,真实和虚拟的界限被打破。这些沉浸式数字艺术展背后的支撑则是复杂的多媒体和AI技术。
可能很多人不知道的是,在腾讯也有一支团队,行走在科技与艺术的交叉地带,用最先进的技术努力塑造人类未来生活的媒体形态——全景式、可交互,推动媒体与生活的连接,并催生更多具有想象力的场景。
这支团队就是腾讯多媒体实验室,团队的领导者是腾讯杰出科学家刘杉——也是腾讯杰出科学家中唯一的女性。
“腾讯多媒体实验室所承载的目标就是所有多媒体形式背后技术的实现,尤其是这些多媒体的交互使用。我对技术一直很有热情,我们最关注的是多媒体,当然也会涉及到AI,因为AI已经是多媒体里面重要的基础工具之一。”近日,在接受《腾云》杂志专访时,刘杉这样说。
她身材瘦削,笑容可亲,但语速极快。在访问中,她提到了腾讯多媒体实验室的工作,如何看待未来多媒体的发展,以及作为一个在全球多媒体领域独占鳌头的科学家,她是如何做到的。
多媒体的未来:沉浸+互动
刘杉说自己很喜欢看电影,但不喜欢看以特技著称的好莱坞大片。一看到这类片子她就会走神,因为会下意识地关注影片的像素,如何渲染和抠图,特效如何制作出来等技术性问题。
“这是一种职业病,”刘杉笑着说。
说起多媒体的未来,这位科学家的眼睛里泛着光。她说,未来多媒体一定是更有想象力、“所见即所得”的。在她看来,未来的多媒体体验,首先是沉浸式的,让人身临其境;另一个特点则是互动。
可以想象一下,当你置身于环绕性的屏幕中,无须去触屏,只要摆一摆手,所有的内容就会在屏幕上滚动,连声音也是立体声效的。这其中就包含了VR(虚拟现实)、AR(增强现实)、MR(混合现实)等这些被统称为XR(扩展现实)技术的广泛应用。
同时,随着5G技术的发展和成熟,5G技术带来的高带宽、低延时,使得更大数据量、更多的多维媒体交互成为可能,更有利于我们在融媒体、新媒体领域的长足发展。
对于未来的媒介,刘杉也有着自己的畅想。“未来可折叠式手机可能会变得通用,平时出门可以折叠后放进口袋里。等你在家的时候,把它打开延展成一个大屏幕,不再另外需要一个iPad。或者可以是插件式的,通过组合不同数目的版块来调整屏幕的大小。”
她这样看待技术与内容的关系:技术和媒介内容会相辅相成地发生作用,新技术的发展会改变内容生产的方式,内容创作的新需求也会不断刺激新技术的发展。
在5G浪潮下,多媒体的技术和形式也在发生改变,而她领导的多媒体实验室也因此有了更多更丰富的落地场景,主要包括以下几个方面:
首先,实时音视频,这是多媒体实验室一直以来专攻的方向之一,为腾讯从音视频、游戏到社交媒体的诸多业务都提供了支持。
编解码是音视频应用里面很重要的工作,多媒体实验室目前在做的是在此前的基础上做得更深入——4K、8K、低延迟、高网络抗性、更多的标准和开源编解码格式。这些技术可以落地到视频点播、直播、微信、QQ、教育、办公、云游戏和泛娱乐等多项产品应用中。
另一个典型的场景就是对多媒体内容的分析、处理、理解和质量评估。除了传统的基于信号处理理论的运用,新的方法是利用深度学习技术,联合图像、音频、视频等模态信息来应用于视频处理、分析、理解多媒体内容,这就是所谓的多模态技术。
这是国内外很热门的领域,有很多很好的应用场景。例如,这可以应用在对老视频、老电影的翻新中,基于色彩增强、超分辨率、降噪、锐化等技术来大幅提升视频质量;也可以用于制作电影预告片(trailer),基于视频摘要技术可以将一段影片的精华部分自动识别并将完整影片浓缩到2分钟以内;还可以服务于体育场景,比如精彩集锦技术可以将一场一个半小时甚至更长的足球赛剪辑成两到三分钟的集锦视频;智能封面技术可以自动抽取出比赛中最精彩的画面当做数字货架的陈列封面。
从去年起,多媒体实验室开始在沉浸式媒体和泛媒体方向发力。这方面的技术包括VR、AR、点云等,因其展现方式可以更真实地还原现实场景,更有利于互动设计,因此在教育、医疗、文旅等方面有着广阔的应用空间。
比如,多媒体实验室为“一部手机游云南”项目提供了裸眼VR全景技术,结合白沙细乐、热美磋等多项云南非物质文化遗产内容,为云南旅游景点提供精细化导游导览方案。通过此项技术,游客可跨越时空限制,用一部手机即可随时随地观看演出,身临其境感受当地文化魅力。
目前,多媒体实验室已经产出了相应的SDK(软件开发工具包)供文旅以及教育行业使用,未来将会在融媒体、新媒体等更多更丰富的场景落地 。
领导多媒体国际标准
2018年4月,在美国圣地亚哥举行的MPEG 122会议上,腾讯多媒体实验室(此前叫音视频实验室)作为一支小而精的团队提交了10个高质量的标准提案,并在CfP质量评测中超过很多国际知名公司和研究机构,立时引来了业界的高度关注和认同。
彼时,距离刘杉加入腾讯不到半年时间。在提案截稿时期,这个团队总共只有6名成员。顶着巨大的压力,所有团队成员在元旦和春节期间没日没夜地赶工,凭实力圆满地完成了任务。
2018年1月,刘杉博士和团队成员在腾讯总部。
MPEG是Moving Picture Experts Group的简称,原指一个研究视频和音频编码标准的“动态图像专家组”组织,成立于1988年。该组织致力于开发视频、音频的压缩编码技术。
现在我们所说的MPEG泛指由该小组制定的一系列视频编码标准正式审核程序。
MPEG制定的标准对整个数字媒体产业的发展起着巨大的作用,推动了整个数字媒体的蓬勃发展和繁荣。
“跨平台的互联互通应用都会用到一系列标准。比如你要用iPhone打视频电话,对方是用华为手机或者三星手机接的,要想互联互通,就得使用同一个标准。”刘杉说。
加入腾讯之前,刘杉曾在联发科、IBM、索尼等多家全球500强国际知名企业担任高级技术和管理职务。她曾多次担任国际标准专家小组主席和联席主席,多次在国际顶级学术会议担任领域主席或做邀请报告,是超过60篇学术期刊和会议论文的作者,和超过200个全球专利申请的发明人。
刘杉坦言,自己在海外做标准已经有十余年,非常渴望帮助中国本土公司在国际标准舞台上占据一席之地。“加入腾讯之后,带领团队迅速给大家做了一个范例。这么快就能把事情做成,我很为团队感到自豪。”
迄今为止,腾讯多媒体实验室在标准制定方面已经取得了令人瞩目的成绩,已经有近50项提案被下一代视频编码标准VVC/H.266采纳。
此外,在虚拟现实(VR)、点云(PCC)、网络传输协议 (DASH)、多媒体系统(OMAF、CMAF、NBMP) 等相关多媒体标准中也取得了突破性进展,获得多项标准核心专利。
包括刘杉在内的多名团队成员还担任会议主席、联席主席等重要席位。
多媒体实验室已成为国际行业标准不可忽视的影响者和领导者。
同时,刘杉带领团队研发和交付了多项公司业务相关的多媒体核心技术,包括全面上线腾讯会议、投屏、微视、企鹅电竞等产品,并持续服务QQ空间和腾讯视频等业务,进而积极投入开源云平台和生态建设。
除此之外,多媒体实验室也大力投入中国国家标准建设。在2019年6月于成都召开的数字音视频编解码技术标准工作组(简称AVS工作组)第69次会议上,由腾讯和鹏城实验室联合提案的M4808 AVS点云编码技术需求被工作组采纳,正式成立AVS点云工作组。
同时,由腾讯牵头推动的屏幕内容编码解决方案得到大会认可,基于帧内块复制技术的提案M4859被工作组采纳,成为AVS3第二阶段标准。
腾讯多媒体实验室联合鹏城实验室主导设立AVS点云工作组。
AVS工作组成立于2002年,由信息产业部批准成立,意在打破国际专利对我国音视频产业发展的制约,满足我国在信息产业发展的需求,探索自主制定音视频编解码标准。
点云技术应用范围十分广阔。以数字文化遗产的保护为例,中国五千年的历史留下了丰富的文化遗产,很多宝贵遗产随着时间和环境影响受到侵蚀损坏。在点云技术的支持下,使用3D激光扫描、摄像机等捕获有形文化遗产的点云,可完成文化遗产的数字建模,实现虚拟导游、虚拟修复、分析管理等应用,可应用于在线博物馆中,带来体验上的巨大飞跃。
在自动驾驶、高精地图方面,点云也有广阔的应用前景。这些领域的数据量以及对于云存储空间和带宽的占用都非常大。多媒体实验室的工程师已为腾讯自动驾驶团队开发了点云数据压缩的SDK,可以在基本无损的情况下把数据压缩6倍,大大节省了存储空间和成本。
从清华学霸到产业界科学家
刘杉本科毕业于清华大学电子工程系,硕士和博士毕业于美国南加州大学电机工程系。上世纪90年代后期就到美国留学,在美国学习、工作和生活20年的刘杉,坦陈在腾讯向其伸出橄榄枝的时候,自己甚至还没有使用过QQ,也没有QQ号。
“家国情怀”是刘杉决定加入腾讯的一个重要原因,在海外工作多年,她真的很想为祖国本土公司做一些贡献。
相比于之前的几家公司,腾讯有着独特的文化和工作方式。加入腾讯之后,刘杉要在美国和深圳两边跑,工作无疑比之前更繁忙,甚至要牺牲很多陪伴家人的时间。有赖于多年在不同文化的公司培养的同理心,她在腾讯并没有感到水土不服。
“公司知识产权部门一位同事对我说,杉姐你们参与什么,我们就支持什么。我跟他说,我的团队参与的标准,我们在全世界都是强话语权的,是世界领先的。”刘杉充满自信地说。
这种工作上的“霸气”形成于对过程的精益求精,而她对自我要求也非常高,追求细节的极致完美,“最重要的是,要过得了自己这一关”。
当刘杉说到自己时却又显得非常谦逊。她说并不觉得自己十分聪明,也不觉得自己有多么杰出。如果说今天能在工作上取得一些小小的成绩,她认为一个因素可能是好奇心。
“对事物的好奇心,不仅是技术,也包括技术之外的所有事情。我的好奇心比较重,兴趣也很广泛,在过去12年里尝试过不同的研究方向和工作性质。在这个过程中总会涉及到创新和发明,总是会有一些新的东西在等着你去挖掘。我很享受这个过程。”
除了好奇心,对事物的热情也是很重要的因素。“制定标准在外人看来是一件非常辛苦和枯燥的事情,我觉得还蛮有意思的。有了好奇心和热情这两点,才可以在漫长的职业生涯中一直保持内驱力,迎接一个个未知的挑战。回过头看,甚至当初选择进入哪个行业,可能都不是最重要的。”
刘杉在清华读本科时的专业方向是硬件线路,到美国读博士时,出于从小对音乐的热爱,她选择了音频方向。等必修课都修完了,教授却说音频项目取消了,她这才转向了视频领域。
在后来的20年里,从图片检索,到视频压缩和处理技术,到网络传输,再到更广泛的多媒体技术领域;从前沿技术研究,到产品研发和行业标准制定,真正地做到了干一行,爱一行。正如她说,“人的一生充满了随机性,我会积极拥抱生活给予的变化和安排,并在这个过程中不断努力提升自我。”
返回搜狐,查看更多
责任编辑: