56. 元宇宙的现在与未来 / 软件与硬件(嘉宾:Ruofei Du 杜若飞)
Watch it on Youtube. Or listen on your favortie podcast app.
Show note
在这期节目里,我和 Google Research 的杜若飞聊了关于元宇宙的各种话题。
比如说当前各大厂商在硬件上有何区别,苹果的 M1/M2 系列的芯片将如何帮助他们的 XR 设备。高通的 XR2 芯片还有何短板。
在当前数字人 Digital human 很火的境遇下, 有哪些挑战?这当中既有技术层面的,也有道德伦理层面的。
Meta/Facebook 是目前市面上看起来 All in 元宇宙的公司,甚至为此把公司名字都改了。这种技术的先行者,会转化成为市场最终的成功者吗?
我和若飞也讨论了游戏厂商(比如任天堂,出 Switch 的)和互联网厂商(比如 Meta/Apple)他们对于游戏的态度的不同,一方偏游戏性,而另一方偏技术革新。
这一期的话题很广,如果想有后续讨论的,也欢迎留言。
嘉宾: Ruofei Du 杜若飞 @ Google https://duruofei.com/
我和周洋和其他合作者做的 MakeItTalk 从单张图片生成视频动画的 SIGGRAPH 论文 https://people.umass.edu/~yangzhou/MakeItTalk/ Github: https://github.com/yzhou359/MakeItTalk
周洋主页:https://people.umass.edu/~yangzhou/
制作团队
- 李丁泽宇
- Pengdi Zhang
- 郭煜
- 林旭辉
- 张甜瑾
Full transcript text
李丁:大家好,欢迎来到新的一期李丁聊天室。今天我们请到了请到了杜若飞,来跟大家一起讨论一下,若飞你好!
杜若飞:李丁你好!我叫杜若飞,我本科毕业于上海交通大学 ACM 班,然后再后来我在马里兰大学,跟随 Amitabh Varshney 做了 graphics,还有一些 HCI 方向的项目。然后其中毕业的一个项目是 Geollery,当时是通过爬谷歌街景以及 OpenStreetMap,然后把世界做了一个镜像世界的重建,并且可以让一些数字人的模拟在里面进行一些交互聊天社交。然后可以访问一个镜像世界的一些社交媒体的信息,比如说你可以看到附近 Twitter,或者 yelp 上有什么可以吃的玩的。然后我现在是在谷歌 AR 这个团队做科研,我的一些研究理念,主要是想让虚拟现实与增强现实,变得更加可互动,而且可以应用于日常生活中而不仅仅停留在论文上,这个也是工业界的研究和学术研究一个很大的不一样的一点,当然我最近这两年的研究,也更着眼于如何能够做有用的元宇宙的技术,其中有一些比较代表性的作品包括 DepthLab 目前可以在超过五百万的 ARCore 手机上去实现单个摄像头的深度感知,然后以及我们基于这些深度图,做了一系列的交互,他们现在被应用于抖音或者是 Snapchat 还有 TeamViewer 等一些 APP 中。还有我想强调一点,这次讨论仅仅代表我的个人观点,然后并且内容限制在我在公司批准的公开论文和演讲中,我的个人观点与公司立场无关。
李丁:刚才这个介绍非常的详尽,我们可以先从一点开始聊起,因为你提到你加入 Google 是想做有用的元宇宙,可以说的更详细的什么叫有用的?
杜若飞:有用的是指尤其我们看每年虚拟现实与增强现实会议的论文中,其中很多研究他们非常具有前瞻性,往往着眼于未来 30 年甚至 50 年的科研。我更希望我的研究能够在近 5 年,能够被大家所用到。我先举个例子包括我们今年 2022 年,我们组一直在致力于开发这种基于 AR 眼镜的实时翻译,就是这样一个小 demo,我们已经发现它可以极大的改善人与人之间的沟通,比如说在一个多语种的家庭中,有的人说中文,你的孩子可能只说只会说英语,这样的话老一辈的人和年轻一辈的孩子就是无法之间相互沟通。当时我们的导演也是把一些产品原型递给他们,发现真的可以让祖孙二人能够更好的去沟通与了解。我们也是深切的感受到有用的增强现实与虚拟现实能带给人一种加强沟通与交流的力量。
李丁:所以在我的一个理解像你刚才说的希望在 5 年内能够用到元宇宙里面的这种技术是你比较感兴趣的,其实就是一个短期的 research 和长期 research 的一个权衡,你可能现在想做的是偏短期的这种能够赶紧落地,真正帮助到大家的这种技术是吗?
杜若飞:是这样的,然后当然我们一般也是愿意雇一些实习生去做一些基础研究,比如说如何去渲染数字孪生,如何去渲染就是神经辐射场 NeRF。这些研究可能在短期无法直接落地,但是我们相信就是这种长期的投资能够在未来,可能 5 年之后也会大放异彩。
李丁:手机和 AR glass 异步的这个计算,这个 paradigm 其实是非常的常见的,特别在现在有很多比如想做这种云游戏,这也是类似的这种,只不过可能在那个环境下面电脑是比较没有那么强大的计算,要在云端去做一些更高级的计算,而在 AR 这个里面眼镜是比较计算能力比较慢的,电源有限的,手机反而是比较靠谱的,这种 hybrid computation 到的确是我感觉是很有意思的未来的模式。你觉得这个对元宇宙有什么样的影响吗?
杜若飞:我觉得这个影响非常的大,其实我觉得现在元宇宙之所以大家会觉得头晕的一个主要问题,就是它的延时,尤其是对于虚拟现实设备来讲如果你要渲染一个非常沉浸式的三维画面的时候,他正常我们的硬件的算力现在是不够的。比如说我们现在 2022 年最新的 ARVR 的芯片,一般使用高通骁龙的 XR2,然后它的计算力其实刚刚跟 2008 年的桌面级的 AMD 显卡刚刚持平,所以说它的渲染能力是非常低的,所以说有时候不得不大家就是会想通过云渲染或者是无线渲染通过 WiFi 来传输渲染信号,或者是从通过加一根 physical 的线去渲染。但这样这三种解决方案其实都有它的弊端,比如说云渲染它的延时可以达到 100 毫秒甚至达到几百毫秒,而人对于延迟的感知如果在高于 20 毫秒基本上就能感到明显的不适应,或者能看出它的破绽。而对于视频渲染还有一个问题,即使是用当前的芯片运算,如果屏幕的分辨率极高比如说 8K 甚至 16K,芯片无法在 20 毫秒以内,把这个视频的缓存直接输送到显示器端就这样也是造成了一个延时的问题,所以说我觉得未来就是解决这个方案,其实需要硬件公司去进行自研芯片。
李丁:你说的芯片刚才说的是高通的 XR2 对吧?然后其实大家也很多做技术行业的,这两年知道苹果出了个 M1,M2 之后基本上也就把整个手机芯片基本上推倒重来了,大家都现在有个新的标杆了。我完全对 XR2 的高通的芯片没有了解,所以他跟 M2 比如说如果假设我也不知道,我也没有任何苹果的内部消息,假设苹果之后把 M2 放到了他们的 mix reality 的 device 上面去的话,它跟 XR2 的计算能力,或者像你刚才说的有些限制 XR2 达不到的,M2 可以达到吗?
杜若飞:我的期待是 M2,会在很大程度上解决这个问题,因为我自己用 M1 的体验下来之后它的很多神经网络的运算能力,在 M1 上的运算速度甚至比我的台式机,甚至比如 1080 Ti 要高好多。
李丁:之前我在 Twitter 上面看到一些这种比如说用 pytorch 在 1080 Ti 上面跑,然后同时他们用 MAC M1 上面的 pytorch 的 custom build 在那跑,他们还是会觉得桌面显卡会快一些,然后很好奇你说的 use case,具体是什么样的情况? M1 会快。
杜若飞:我指的可能不是 pytorch,因为 pytorch 是针对 M1 好像据我所知好像还没有完全的优化,至少在今年的上半年早期 pytorch 支持不是很好,然后我们跑 TensorFlow 的话我这边的感觉是 M1 要明显比桌面级的 1080 要好,3080 我没有试过。
李丁:所以 TensorFlow 的优化比是在你的体验中是更好的,对 MAC M1 的优化。
杜若飞:对要好很多 甚至达到几倍的这种地步。
李丁:了解,接着刚才 M1 和 XR2 的话题讨论,听起来如果假设明年或者后年 M2 的 mix reality device 出现之后,你刚才说的很多延迟就会自动得到解决,你觉得下一步大家会蜂拥而至的遇到的什么类型的问题?
杜若飞:我觉得延迟这个问题还短期还得不到, 那么大的解决我相信就是 M2 会解决一个 GPU 与 CPU 之间通信的问题, 但是在虚拟现实设备普及到千家万户之前, 我们还有很多更难的问题要解决,比如说如何增强视场角,比如说我们现在几乎 Oculus 它的视场角普遍也难以达到人眼能看到最大范围大概是 190 度,他可能有能做到 120 多度或者是 130 多度,然后这样的话其实人带上去之后还会有一种隧道效应,就是戴时间久了你会觉得你并没有在那个世界里,而且会觉得头晕或者是恶心,有些人还有分辨率的问题,即使是在现在的消费级的虚拟现实设备上我个人还是能够很清晰的看到各个像素点的,因为我平时做图形学做久了,可能会对像素很 picky,然后我个人觉得解决这个问题,可能未来需要 16K 分辨率甚至更高,就是 8K 都是不够的。
李丁:了解,那听起来好像就是说短期之内就算苹果的芯片再多么的厉害,它也只能部分解决这个问题,还有新的一些比如像做的这种光学透镜方面的,然后显示技术方面的这种问题是关于说的 field of view 的问题,也是没有办法短期解决的。
杜若飞:是的,我个人其实最感兴趣的是 field of view 的问题,因为人的视角其实非常广,它的 prefer 平时会告诉你很多信息,比如说你要去进行去旅游,如果周围少了很多 prefer 的渲染的话,你会觉得你并没有很好的置身于环境之中。开会的时候,人们常常用眼睛的余光去瞄其他人来表达一些我不便于直接说的信息,而这种信息在当前的 VR 里还很难。
李丁:我们刚才其实关于元宇宙的里面,我们讨论了很多关于硬件芯片方面的,包括一些其他我们可能不太熟悉的透镜这些显示技术的东西,接下来我们可以比如讨论一下软件方面的这个方面我感觉你应该做了很多的研究也好,产品化也好,然后对你想展开说一下吗?
杜若飞:可以的,其实我一直觉得这元宇宙并不是一个新的概念,就是从概念层面上来说它更像是就这两年的一种商业炒作,或者是对下一代互联网的一个定义。大家一般提到元宇宙,一般是想借这个概念来打破虚拟与现实的界限,我个人觉得这个概念目前囊括了众多大火的概念,包括虚拟现实、增强现实、混合现实、区块链、去中心化、虚拟货币、NFT 非同质化代币、数字孪生 digital twin、镜像世界 mirror the world,甚至有人把它定义为 web3.0。我个人来讲,其实包括这种把大家聚在一起打破虚拟与现实的社交,其实最早可以追溯到甚至上个世纪 80 年代的 BBS,就是很多人会起一个昵称,最早是用 ASCII 字符组成的个人的用户画像,然后再后来有图片的画像,再到后来甚至有可以动的画像,甚至 QQ 秀。因为最早我也是做过论坛,我是最早有一个叫星海碧空的论坛 ,鼎盛时期大概有超过 5000 名用户,所以我对做论坛这一事情,小学初中还有高中的时候都非常了解。当时我们班级里,还纷飞过一种游戏,叫做江湖的一个网页游戏,其实它也可以看作一个小型的元宇宙,就是因为大家会化名为各种各样的人,然后在里面里面,甚至会有它的虚拟货币的系统,有它的这种武功门派,大家可以结成各种各样的小圈子,甚至把这种小圈子带到班级里。这样就在某种程度上,也是打破了虚拟现实的界限,只是当时因为图形渲染技术没有那么先进,所以大家并不能把这种网页游戏中的文字具化成一种三维的模式,但是对于小孩子来说,他的脑海中可能会浮现出这种打破虚拟现实的知乎。再后来,我觉得可以追溯到这种 MMORPG,然后里面其实也是达到了一个让人们沉浸的虚拟世界。你可以看到有一些论文,专门去研究这种 MMORPG,每天在里面生活 4 个小时,甚至 8 个小时的人,然后他们的生活,真的是模糊了虚拟现实的界限,就越来越像雪崩里面所描述的那种 Cyberpunk 的世界。再后来其实就是元宇宙这个词,之所以在市场这么精美,主要是由于 Roblox,Roblox 在上市的招股书中大概多次提到了元宇宙 Metaverse 这个词,然后一下子把这个概念给吵火了。但是其实你要真的去身临其境,去玩 Roblox 的游戏,你会发现它是集我们小时候创造性为一体,就是我们搭乐高甚至是在红色警戒,或者帝国时代里面去建一个地图,这样的一个单机模式,以及传统的 MMORPG,比如说魔兽世界,大家多人扮演的一种模式,把它们杂糅在一起,而形成的一种可以让小孩子自己创造,然后自己在里面社交,自己去扮演一个虚拟角色这么一个场景,所以它能吸引千万级用户,这个也是我没有想到的,但是这个也是点燃了,元宇宙蓬勃发展的一个契机。再后来我想提,最近 Facebook 也是 all in,或者是 Meta 开始 all in 元宇宙这么一个概念,也提出了 horizon work space ,元宇宙在里面他们想营造一种社交世界,使得人们在里面不仅仅能够社交,而且甚至还可以工作。其实我个人一直是在对元宇宙里工作抱有一种怀疑态度,或者是我期待以后未来能在元宇宙工作,但是现在的技术局限性,我不知道我们大概还需要多久能够达到。比如说,我最近看了一篇 arxiv 上的 paper,它的题目很有趣,叫做 Quantifying the Effects of Working in VR for One Week,大概讲的他们真的让一些用户去在 VR,在虚拟现实中,去工作了一个星期,然后但是最后结得出的结论是这个东西显著性的比用电脑和鼠标键盘工作要差很多,这个也是意料之中的,因为我们现在的延迟还有用户,对虚拟现实的适应感,还有这种 normal effect,就是对一种新事物的接受度,并不能够很好的让虚拟现实工作,成为我们天天能做的事情。但是我觉得是未来一个很有趣的研究方向,以及大家去致力于如何让元宇周边的有用的一个契机。
李丁:我有好几个 comments,我可以看一下跟大家讨论一下。首先第一个说我也非常同意你的观点,就是在当前的软件硬件下面,我觉得在整个 VR 里面工作是不太现实的,特别是你刚才举的 arxiv paper 的例子,在虚拟世界工作一星期就很痛苦,效率也变低了那一个反面的 argument。如果你说你 30 年前,你说你要 remote work ,效率也会这样降低,因为当时比如说没有 zoom,没有 Google doc,没有这种远程这种 code check in,没有整个 eco system。今年想过了二三十年了,pandemic 来了 COVID 也待在家里面,然后但是碰巧我们有这些技术了,所以我们 remote 的 experience 会很好,导致了很多公司现在是 fully remote,都可以省下租办公室的钱了,这是一个正反的观点。而另外一个就是说我的确感觉这个技术也不太成熟,但是另一方面无论是 Meta 也好,苹果也好还是其他公司,比你们公司或者说 Roblox 都好,他们的确是在招所谓的行业的精英对吧,在这里做的 PhD、master、本科生都是最厉害的一群人在这里做,我们不是老是会说,做什么东西不是特别重要,只要你跟厉害的人一起做,总能做出点名堂来的。你如果按照这个逻辑去推理的话,是不是总归会做出某一些靠谱的这种 VRAR 里面的这种应用场景?
杜若飞:对的,其实这也是我们公司还有包括 Meta,最近在努力的一些方向。但是具体到招很厉害的人去干很厉害的事情,他们这些人招进来也不一定是做产品,就是很大一部分人,在今年的 SIGGRAPH 让我们也看到,他们是去做科研了,比如说 Meta 最近出的一个 paper,就是用手机去扫人脸,然后做出这种神经辐射场的渲染,然后能够把是真实的你自己,然后渲染到虚拟现实的场景中,就是这份工作就很好的说明了,现在科研在往哪一个方向努力,就是努力创造出数字人,还有数字孪、 镜像世界这么一个东西。
李丁:这的确是了,就是 FAIR 里面的确有很多人不是做产品,但是也有很多人进去在做他们的 secret project,然后做了很多年,也有的已经变成 Quest 1 还是 2 还是 3 我也忘了,反正做了 Quest 卖出来了。有的还是在 secret project,这都有。
杜若飞:我还是能够期待大家能够把一些产品原型尽快的推向市场,去让市场去验证现在究竟够不够成熟,而不是让他胎死在实验室里,这也是作为用户感感觉很遗憾的一点。
李丁:你说这个很有意思,因为之前我有一个观点,我就觉得一般一个技术,最先把一个技术产品化的公司,并不一定能够成功,然后可能是第二名或者第三名,反而能够成功。我也不知道我也不能预测未来,比如说你像 Facebook 说这么多 quests,他们的确有一些这种 market,这种 Feedback,但是可能 for whatever reason,apple 就可能更适合做硬件,更厉害做硬件,然后他们慢了三四年,他推出第一款,所谓的这种 mix reality,然后就一鸣惊人。大家都感觉这个速度很快,不用再用高通的 XR2 了,可以直接用 M, M 几不知道,到时候可能是 M3 或者 M4,就很快的这种感觉。这种反而先行者反而倒没有得到他应该有的那些优势,然后到时候比如再把 Meta 的人一挖,就各彻底的完了。
杜若飞:我很同意你的观点,但是我个人也不是自私的,我是觉得这些先行者其实为后来者铺了路,
李丁:对,他们的努力并没有白费,都是必要的 market research ,这都是 explosion,你不试就不知道。
杜若飞:但是我个人的观点,我确实会觉得,如果从芯片操作系统能够耦合在一起,的这个产品会比你基于安卓,然后上面再搭一个生态系统做出来的产品,然后再用其他家的芯片,去做这么的,你去做的产品要更来的更快,或者体验更好一些,是个人观点。
李丁:下一个我们可以聊的,刚才你也提了很多次,比如 digital twins,然后 mirror the word,然后 digital human,这些都是最近很热的一些话题,包括之前来上两期以前的 jiaming,它的 startup 其实也是在做,某种意义上的这种数字人的,然后看我想看看你对这方面,有什么样的一些看法?
杜若飞:我最近也很关注数字人这个领域,然后因为我在自己的 Geollery system 里,然后我也去弄了,很多卡通的这种数字人这种叫 avatar,然后让他们在这个数字城市里去来回走,然后这个东西,其实并不会出现一种恐怖谷效应。而且现在最好的数字人,应该是 B 站上你去搜 lab 3d,能够看到很多的栩栩如生的卡通形象,他们会成为 up 主,甚至会吸引数以百万计的观众去看他们的数字人表演。这条路我觉得是走得通的,而且会在一定程度上去制造出一个,就是不一样的自己,但是它并不能够代表你在真实世界中的表现。所以另外一个方向,就是如何去渲染跟照片一样栩栩如生的数字人类。这个方向的难点主要问题是,如果你做的数字人,有那么一丁点不像大家会觉得很恐怖,就会出现所谓的 Uncanny Valley 恐怖谷效应。而且基于人像的三维重建,会有一种伦理问题,比如说有些人可能数据集来源于,就是数据集有所偏颇或者是少覆盖了某些人,或者是你的数据集用了你不该用的人,然后这样都会导致,你生成出的数字人,会更倾向于某一类人种。举个例子 最近有一篇就是抨击 gan paper 的一个 work,就把奥巴马的肖像然后缩小成马赛克,然后再还原回来,发现肤色有所改变。所以说我个人希望数字人这个方向,能够基于照片的数字人方向,能够越来越的完善。另外一个建立数字人,就是通过声音去建数字人,然后这方面其实我特别喜欢李丁的最近一篇 paper,就是 MakeItTalk,应该是 SIGGRAPH 的一篇 paper。就基于 audio 去 drive 一个数字人,然后我觉得未来就是,当大家去戴着 VR 眼镜的时候,你并没有办法去精确的捕捉你的面部表情,这时候就是基于声音,去做一种数字人的重建,会是一个很 promise 的未来方向。
李丁:对,我们组之前做了这篇 MakeItTalk,然后当时我的 intern 周洋,然后现在他也加入了 Adobe 做 full time。如果各位听众有想做, audio driven、animation、数字人方向的博士学生,欢迎联系周洋,我记得他好像接着做这个方向的研究。然后我想其实再说回刚才你说的这点,uncanny valley,其实我不知道,听众有多关注这些元宇宙平台,比如说 Roblox 和 horizon 两个里面,Roblox 其实就是用一堆木块人,其实就是一堆,没有任何的 photo realistic 在里面,它根本不真实。然后 horizon 也差不多,都是一堆 bubble head ,之前我们也看过,就不像一个照片的那种感觉,然后这也正是因为像你说的现在的 photo realistic 太难做了。我们整个大脑,他就是非常去 detect 一个东西是不是人脸,他只要稍微有一点点不对,我们就觉得不对。包括最近特别火的 DALL-E,也是他之前给那种 early tester 的一个要求,只要有人脸的都不准时放上网,然后好像是在昨天还是前天,应该星期五他们把这个规则,我们录制的时候是 6 月底,然后反正他把这个规则给就取消了,就说你就算用 DALL·E 2 去生成了一张照片,有人脸你也可以抛出来了,我估计他们 openai team 估计做了什么内部的 legal 的讨论决定,觉得反正始终是要始终是要暴露出来的,所以不如现在,就让这些 early tester,可以更多的去收集一些 feedback。但我总结起来就是说我同意你的愿景了,如果能够实现 photo realistic 的,这种 digital human 那固然是好的,但是我感觉任重而道远。
杜若飞:是的,另外我自己这两年的研究方向,也是在往如何增强用户在这种增强现实中,或者虚拟现实中的交互,还有交流的一些方向,然后我们组我有很多很要好的同事,也是在做数字人,然后包括 Google 前几年会发的,the relighting transport,还有最近发的一篇也是关于负责数字人方向的,大家如果感兴趣也可以联系我,然后我们大概每年也在招实习生。
李丁:刚才我们讨论了这种数字人方面,我看到你在提纲里面也写了一些关于交互,然后和其他的这些方面的,你想聊一下那些吗?
杜若飞:好的,就是基于原宇宙设备的,交互也是一个 HCI 一个经久不衰的话题。因为其实虚拟现实设备,从上世纪到现在应该是第三波或者甚至第四波崛起了,最早的 VR 设备,可以追溯到在使用一个大房间里的电子元件,然后用户需要把头固定在头戴式头盔的这么一个情景,然后里面去看未来。然后到上个世纪 90 年代的时候,可能可能会做出一些轻量级的雏形。到上一波通过手机去做,VR 就是 Google cardboard,也是最早的这种民用的虚拟现实设备,到今年 Meta 的这种消费级头盔。其实交互一直是在一点点进步的,从最早头盔它没有这种视觉的传感,没有声音的传感,到现在 Meta 甚至可以通过视觉传感器,甚至不用 htc 的基站。这种交互方式能够感知到人们手的运作,就尽管它有一些差异,和略微的不准确,但是已经可以来实现很多很有趣的应用了,比如说健身或者打球。在未来我觉得交互还需要进一步的提升,是因为摄像头有一个问题,就是当手不在摄像头范围内的话,它还是无法被捕捉,这个时候其实就需要一些传感器来捕捉手在其他地方的动作。还有一个问题,未来能不能够把一些很遥远的传感器能够和虚拟现实所结合,比如说包括眼、脑电,然后还有各种身体的传感器,然后能够直接读取你的思想,然后甚至能够用你的 idea 去在虚拟现实中画画或者写作。应该是去年还是前年,也有人用脑电,去帮助残障人士去写字了,所以说未来这个事情也是可以实现的。
李丁:像你刚才说的摄像头去捕捉人的手部动作,其实这是一个硬伤没办法,那摄像头有 Line of sights 的,它有 occlusion 有挡的东西,它就看不见了。之前我有时候跟同事跟朋友闲聊的时候,就会想一些比较可能,可能我不会做的 project ,但是我感觉很喜欢讨论的,比如说你看假设有 Apple Watch 或者别的这种穿戴式的话,你其实可以用它来获得一些方面的这种 signal 了,不知道它有多准,但是因为如果你只是想要来填补摄像头短暂的这种 occlusion 的话,说不定用它做一个差值或者用一个 prediction,是 complimentary 的吗?然后往这个方向,这又回到了这个苹果,它有很多现有的东西,它说不定已经可以去 check 你了,比如说手机放口袋里面,可以 check 你的下半身的运动,然后你手腕上面有个手表,他眼睛上面戴一个 apple 的东西,其实它就可以 track 到很多的东西了。这个是我感觉可能别的公司要追赶,有一些难度的我觉得。
杜若飞:这个我也是希望未来这种多传感器融合,能够让手的传感变得更加鲁棒一些,然后我包括前几天,看那篇有意思的 paper,就是通过在手表上装一个摄像头,然后可以通过观察手背部的运动来感知到用户在打成的字,就是这样一些 work 的结合体,然后在未来在融合可能会导致手的各个方向都可以感知的很精准。
李丁:我在想象你说手表上有个摄像头,然后眼镜上面有摄像头,想到未来是不是每个人身上相当,都是一个行走的 dash cam。如果某个公司,可以去把这些数据都收集起来,那不就是可以建立一个全球的更好的街景了吗。
杜若飞:然后我觉得你的愿景特别棒,是往好的一方面想,我其实刚才你刚说完之后,我会立刻会想到一些不好的东西,包括 Meta 最近出了一个虚拟现实的增强现实的眼镜,然后他把他去发给他们总部的一些员工,是还有一些 CMU 的、卡纳基梅隆大学的合作者,然后让他们去带着他去采集数据,然后如果你这手表上有 camera,然后头盔上有 camera,然后身上还有 body camera,然后这个数据的结合体,其实会侵犯到隐私的方方面面。
李丁:对,是。
杜若飞:比如说大家都不想在去洗手间的时候被监视,或者是走在大街上,任何人都可以知道你的精确地点,如果你这个摄像头联网的话,就是这样安全性和隐私性的问题。在这个设备普及之前,我觉得也是亟待解决的一个事情。
李丁:对这个肯定是很大的一个 consent,包括 mass surveillance,我觉得这个是一个根源的问题。如果有很多 centralize 的,这种公司在处理的话,肯定就会被政府所利用,然后对各个国家各个大国,基本都有出过各种大的小的这种 scandal 丑闻的。挺好的,然后我们讨论了这些,然后接下来你想说的是 Raytracing 还是 AI ?
杜若飞:我们说 AI 吧,Raytracing 其实能聊的也不太多,因为我觉得目前的 Raytracing,在桌面级上做得不错,但是极大程度上受制于硬件还有 AI 的发展,因为最近的 Raytracing,都已经开始用 AI 去做过滤了。
李丁:对,他 render 四个 sample,就开始用 AI 去 predict。
杜若飞:所以说已经没有什么空间去再讨论 Raytracing 怎么能够做得更快了, AI 已经能猜到八九不离十而且够用了。对于 AI 和元宇宙来讲,我一直觉得 AI,应该是元宇宙的一个催化剂,而且这两方面是相辅相成的,一方面 AI 可以帮助虚拟人在元宇宙中更好的获取信息,比如说甚至未来你在元宇宙里,可能你还是需要看短视频,AI 就可以帮你进行推荐,然后或者是在元宇宙里你需要去查询一个什么信息,或者是你就要用 AI 去画画,或者是生成一篇文字,这里面都需要大语言模型,或者是刚才你说的 DALL·E 2 这种图像生成模型,去帮助你在元宇宙里进行创作。从另一方面讲, AI 的发展也可以受益于元宇宙的发展,比如说自动驾驶行业就是目前还受制于我们需要驾驶员去开着车去采集数据,但这种事情,是很难去 cover 到一些 edge case,如果有一些极端事件发生,比如说突然看到一面白墙,或者是你看到一个步履蹒跚的老人,就是过马路什么的这种事件,都是小概率事件。但是在元宇宙里,你可以去通过模拟一个虚拟人,然后来帮助自动驾驶的 AI,更好的去感知这种小概率事件,这是我希望未来元宇宙,我能够做的一个事情。
李丁:我感觉你刚才说的人工智能是元宇宙催化剂,这个点很有意思,然后我想到了之前有很多,不论是来找我做实习的同学也好,还是同事也好,就问说为什么,我不再接着做,更多这种 MakeItTalk follow up 的这种工作了。我现在目前换了一些其他的方向在做,然后这其中的一部分的一个原因,是我觉得给一个 audio 生成这种表情,这种东西基本上是一个有既定的道路,去解决这个问题的,你就 train 更多的 data ,这总是可以解决的更好的质量,每年就相当于是一个开始刷榜的一个事情了。我感觉可能更困难的事情是你该说什么,假设你真的进入了一个这种世界里面,你跟所谓的 AI engine 人在打交道,现在困难的是我根本在市面上,没有看到任何一款的 AI engine,可以跟我好好的对话,所有的所谓 automated chat 、chat system,都非常的糟糕,他们根本不聪明,就算所谓苹果 Siri,或者 Hey Google 都很差都很烂。我感觉就是说在 MakeItTalk 之前的那步,可能更多的是是不是 NLP,我感觉都在 NLP 之前,就等于说是,你得去 conversation 这个方面的,怎么把它训练的真的像一个人一样在说话。我当时想了很久,我觉得 bottleneck 并不是在我 animation 这一个部分,而是在脑子那个部分。然后后来我说 ok,因为我不是做这方面的研究说,那就得让这方面的专业人士去做多年的研究,等到这个 bottleneck 解决了,我可能感觉要么我回来做 animation 这个系列,要么 animation 反正也被别人已经做完了,就已经早已是一个 solved problem 这种感觉了。
杜若飞:你刚才说到 NLP 的一点,我其实也不是 NLP 领域的专家,但是我这两年在公司工作也是接触了很多大语言模型,也是对这个领域的飞速发展,表示了很大的震惊,比如说这两年的 GPT3,他其实已经能够实现机器与人,甚至能够欺骗过部分人实现这种图灵测试的通过,通过了这点也是很可怕的,以至于让我甚至怀疑我们人会说话,究竟是我们的自主的理智和意识,我们在让我们说话还是我们只是在从概率学角度,把词语进行排列组合所说出来的话。但是我现在觉得,目前的大语言模型所生成的人工智能,还是不具有意识的,然后举个例子就是你要问一个大语言模型,你是有意识的人吗还是你是没有意识的人,你把两个悖论同时问给一个大语言模型,他得出来的结论往往是相悖的,或者是它并没有一个上下文的关联的关系。
李丁:最近好像也是 Google,还是别的公司叫 LaMDA 还是什么的是吗?
杜若飞:对,其实是我司 。
李丁:对,是你司出的,然后你现在说的有 GPT3,然后有 LaMDA 这样子的 demo,现在为什么,我现在在网上用到了这种 chat APP 还是那么的糟糕,为什么这个还没有进入千家万户? 这个技术,因为你说它可以所谓的 pass 图灵 test 图灵测试对吧,这个意思基本上就是可以骗到一部分人,如果是 50% 50% 那就已经成功了。然后我的问题为什么我每天用到的 engine 还是那么差呢?
杜若飞:我猜测是过于危险的缘故,就是包括你去 openai 测试,就是我们不谈我司可以,我们可以谈其他公司,openai 如果你去测试它的 GPT3 的话,你会发现它其实有极小的概率,可能会去泄露一些虚假的姓名或者是地址,然后甚至他的回答在有的时候,可能会驴唇不对马嘴,或者是有一些政治的偏见。因为毕竟这个数据是从互联网的大海中,去得到的数据,对所以说如何过滤信息,使得机器人,不说一些不该说的话是一个亘古的难题我觉得。
李丁:对你说的这点,刚好今天我在看 Hacker News 的时候有一个新闻,就是说 GPT3 leak my real name,然后那个人就是说他在互联网上,他试图去隐藏自己真实的名字,他就用了一个假的用户名,然后但是他可能 at some point,在某个小网站或者某个地方,他把这个用户名跟自己真名联系起来了,那糟糕的是 GPT3 学会了。所以当有人问说 who is 用户名,然后 GPT3 就答出来了, this person is blah blah blah,然后他就很 shock。就开始在 Hacker News 上面,有很长的一个讨论。对,然后我觉得的确就是像你说的,你没法控制住,他看到什么东西,他讲出什么不该讲的话这样子。
杜若飞:是的,然后这个问题未来怎么解决,我觉得可能解决不了,可能我希望未来的人工智能,是一个服务性的角色,而不是真的要赋予人工智能与意识。如果比如说它能帮助我完成一些日常任务,或者把一些人类的枯燥的任务,比如说一些排列组合的代码任务,它能够帮我们自动写代码补全,然后或者是我们要去点咖啡的时候,它能记住你的喜好自动帮你下单,然后帮你运到你的工位上。就是这样的人工智能、服务性的人工智能,是我觉得未来一个比较安全的方向。而另外一个 NLP 最近比较火的方向,是根据一个通用人工智能,然后把它通过小样本数据的提示,使得它变成了一个服务于特定情况的这种,基于特定情形的人工智能,然后这样我可以把他的回答限制为 ok,然后咖啡又就这么几种,然后他不会跳出这个 scope,然后这样的话可能是一种更安全的方式,而不是直接把一个通用人工智能,然后千家万户大家都来用。里面可能真的会泄露谁的隐私信息。
李丁:你这样说就让我很想到了,就什么 sky nets 天网那种感觉,就是要各种给它设限制,否则它就会 go rogue,然后就没法控制了。
杜若飞:因为这个事情微软应该在很多年前,在 Twitter 上发布过一个聊天机器人,它里面其实带了一个学习就 train 的功能,你可以教聊天机器人,当用户问什么问题的时候,他回答什么,然后是不是可能是叫 Tay,然后后来这个机器人就被关掉了,而且可能微软也再也不敢发布出来了。
李丁:因为被 abuse,好像是像你说的,就有人 feed 了很多糟糕的问题和糟糕的答案,然后顿时就等下没有足够的 moderation,我感觉 moderation in general,都特别难的问题,我最近也在我们的听众群,包括我们制作组团队也在讨论这个问题,一旦上了一定的规模,你怎么去 moderate, moderate 的翻译是什么,我也不知道中文是什么了,怎么怎么去 moderate,整个社区对审查过于强烈了,反正对去管理整个社区,是非常难的一个事情。然后管理 AI 怎么想的,感觉就是更难的问题了,AI 现在就是一堆 black box,然后就更难去控制了,所以你刚才说了,这个只给定几个 multiple choice 的选择题,让他去选,相比于给一个 general AI,我觉得的确可能是从落地角度,可能更能够合法合规。然后公司会在 compliance 上面,会通过的一个短期的一条道路,这可能是真的对。好,我们下一 part,我们就来聊一聊元宇宙的这些用处,刚才我们涉及到了一些,但是我们可以现在把它汇总一下然后总结再讨论一下。
杜若飞:好的,就是目前来讲,我觉得这种虚拟现实的设备,真的还主要用于游戏中,它可以给玩家一个更加沉浸式的体验,所以说一般如果有人问我就是推荐买什么样的虚拟现实设备,我一般不会推荐 HTC Vive 这种高端性的设备,而还是会推荐 Meta 家的这个 quest2,因为毕竟上面的生态已经建立的差不多了,又有足够多的游戏让你去玩和体验,而且肉眼可见的平台会在不断的完善,然后增加新的功能,所以我一直觉得搭建生态也是元宇宙中一个必不可少的一环。这一方面你刚才说苹果,可能通过后发优势,把硬件做得更好一些,但是我还是很钦佩 Meta,能够在生态这一方面先发一步,让大家在上面去已经开始用开始玩,然后开发者能够源源不断的,给社区贡献力量。另外一个就是元宇宙社交,这个事情也很有趣,我最近有幸就参加了, UCLA Zhang Yang 的 HiLab 实验室的几次实验室的团建,我们都是在 VR 里进行的,然后远程参加的,
李丁:远程参加的?
杜若飞:对,大家会把学生老师然后还有我们这些 external collaborate,集中在一个叫 rec room 里的一个环境里 ,然后大家去玩 paint ball,就是射台球,然后你可以去而且可以聊天、可以互动,然后一般玩下来一个小时,会真的觉得拉近了大家之间的距离,而且大家可以简单的聊一聊事情。但是确实就是一个小时待下来之后,我即使还是一个经常玩虚拟现实,或者是对 3D 不眩晕的人,我也会觉得很累。
李丁:你们这个是在比如说用 quest 玩的,然后就在里面你是要走来走去的,还是你坐在椅子上面?
杜若飞:我可以在小范围的移动,我主要用手柄去移动。
李丁:相当于不在房间里面自由走动的。
杜若飞:对我的房间没有那么大,另外真的你要走起来玩 paint ball 的话,可能你走不远的话被人打死了。
李丁:可以了解,刚才是游戏和这种团建对吧?
杜若飞:对
李丁:对于游戏其实刚才我还以为,你会说 PS4 VR,因为我之前,有一次玩 PS4 VR 的机会,他还有一些 VR 的游戏,比如说我之前玩那款是蝙蝠侠,然后就要在那种高楼上面走很窄的那种桥,然后时不时就往下掉,然后我记得当时给我的感觉就是我真的很怕,因为他做的效果还真挺好的。那款游戏的那一个环节挺好的,然后你觉得像是比如说像索尼这种传统做游戏加硬件的,这种厂商的话,跟 Oculus 相比的话,你觉得哪一个会更,你怎么看?
杜若飞:这是个好问题,我没有提 PS VR 主要是因为我没有玩过,这是我少有的几个没有玩过的 VR 系统。它上面的生态,应该相比 Oculus 来讲,对于硬核玩家会更友善一些,然后因为很多大作是 PS 独家的,反正各种感知来讲,我担心就是游戏厂商它相对于互联网厂商对于新技术以及交互的投入可能没有那么透彻,比如说对守护的追踪,还有对这种混合现实的交互,可能他不会花大力气去研究那个东西。而转向就是我如何增强游戏性,然后让更多的玩家,能够感受到 PS VR 的魅力,然后以及它可以通过现有的游戏机市场,来拓宽自己的一个细分市场,这我觉得是游戏厂商的一个独到的优势。所以我觉得我也挺希望看到,未来能够多家鼎立,然后不同垂直细分领域的玩家可以选择自己喜欢的平台。
李丁:我觉得总结的很好。游戏厂商他们可能对于纯硬核的这种叫什么交互性的开发,可能并不是特别擅长,但他们对游戏性很厉害,比如说 switch 你现在所以但其实技术方面它其实真的很,就没有那么高级,但他很多游戏都非常有游戏性,无论是单人游戏还是多人游戏聚会,感觉我很多都是玩 switch,很舒服。而且还有很多出圈的游戏,在疫情当中,这种是在其他的这种互联网的游戏平台里面,互联网公司的游戏平台里面比较少见的。对,我们下一个可以聊一聊元宇宙办公,毕竟大家至少说,像你说的 horizon 这个平台,他们也是想要变成, workplace 这种感觉的。
杜若飞:我其实也想体验一下元宇宙办公,到底是一个什么样的感受。因为说实话,我自己从来没有带虚拟现实头盔超过一个小时,可能真的是团建是带的时间最长的了,因为大家一般看一个 demo 真的就是待个最多半个小时就摘下来了,然后会感感觉很酷很炫,但是真是硬核办公的话可能有比如说一些头脑风暴会议或者是一些大的组会,你真的需要开很长时间,然后我个人觉得目前设备和渲染的力度,还无法达到传统视频会议所能达到的那种效果,以及低延迟,然后大家能够捕捉到表情的细微变化,我觉得这还是任重而道远。另外我比较喜欢提到的一点是,谷歌的 Starline 系统,大概去年 I/O 发布的一个宣传片,就是你可以面对面的去跟一个在高清晰 3D 电视渲染的一个人去进行这种远程交互,我觉得是另外一个元宇宙办公的方向,就是大家并没有戴头盔,然后仅限于这种一对一对话,他们应该是在去年这块 SIGGRAPH Asia 发了一篇 paper,就讲 project Starline,然后这种情景下,因为我亲身体验过这个系统,我是能够聊一个小时,而且不觉得累的在这个系统,因为你就会觉得,给你等身大的人很平等的都在你前面,然后在你左右晃动身体的时候,它通过眼部坠动摄像头,可以捕捉到你的视角,然后给你渲染出正确的 3D 的形象,就我是真的希望这样的设备,能够至少普及的更普及一些,把它的成本做下来,然后或者能走进千家万户。
李丁:这个技术我没有用过,但是用过的人都说好,所以我也感觉应该是的确是挺靠谱的一个技术,但像你说的它现在成本很高,然后要真正进入每个人的设备上面还是很难的,不知道有哪一天可以真正的实现。
杜若飞:技术上我觉得就最难的一点是网络的问题,比如说我要想跟我国内的家人去使用这个技术的话,因为国内的网速,几乎是无法实现这种 8K,甚至更高的视频的分辨率。
李丁:元宇宙还有其他的用处吗,我们刚才聊了游戏,然后社交团建 然后办公还有别的吗?
杜若飞:我另外比较感兴趣的两点,一个是元宇宙教学,另外一个是元宇宙的旅游业,关于教学的话也是因为最近,我和其他学校的老师也是有一些合作,然后我也很希望能够感受到大家真正用虚拟现实去传授知识,然后并且这种方式因为是身体力行的一种教学,就是你真正的能够尝试自己的身体,是否和元宇宙中的一些老师的身体姿态所吻合,比如说我们要进行体育运动的训练,然后我们进行瑜伽的训练,然后这样的一种场景下,我觉得元宇宙教学还是蛮靠谱的。然后另外一个比较钦佩的老师,就是 Ken Perlin 在纽约大学的,也是奥斯卡奖获得者,然后他很擅长让学生们在他的课堂上,就直接每个人用上元宇宙,他真的会在里面进行教学。而且他自己开发了一套 ChalkTalk 系统,你可以在用一个带 LED 灯泡的一个支笔,在屏幕前画画,比如说我画一条鱼,然后它可以变成一条 animated fish,然后可以走起来,然后画一个四维的立方体,然后之后可以再转动起来,然后给大家去讲解什么是四维的这样一种概念,就是这样我觉得都是一种元宇宙里独一无二的应用,而且你在传统的屏幕上,你很难去了解一个四维的立方体是什么样的,但是在 VR 里你是真实的能看到四方体立方体转起来。然后你再做一个三维的人,然后看这个四维的立方体,是什么样一种感觉,这个有点意思。另外一个元宇宙旅游,也是我很感兴趣的事情,就是我博士期间最后做的数字城市系统,然后我当时我的梦想实现的就是一种,大家可以在谷歌街景里,去做一种自由无缝的旅游,就因为现在的谷歌街景,还包括 Matterport 的这种看房的应用,有一个最大的痛点就是用户需要从一个地方去传送到另外一个地方,而不能够在里面进行无缝的衔接,就是我个人的一个对未来技术的愿景,是能够通过这种神经辐射场,或者是一些最新的渲染技术,能够真正把世界连接起来,然后大家就在一个虚拟世界里自由的飞翔。
李丁:刚才说元宇宙旅游,我之前多年前,Snapchat 还很火的时候,我下那个 APP 用了一下,然后当时比如说附近它有个 map 的功能,比如说年轻人都去参加一个当地的一个 event 的时候,我会考虑去不去,因为可能当时感觉坐地铁去好累或者说坐个 Uber 去那里,都已经 search pricing,也搭不到 Uber 了,我说直接打开 Snapchat 的 map,点一下看了很多实时的照片,视频虽然不是所谓的元宇宙,但是 it's as good as he gets,就是我有音频,我有视频,我也除了闻不到之外,其他我基本上也都能够感受到了,然后我感觉如果连这样子的感官,都已经给我很充足的感受的话,我觉得如果能够实现更下一个级别。像你说的这种元宇宙,更加沉浸式的这种旅游,肯定是有一定市场的,特别在现在疫情管控情况下,就是国外管控或者国内管控的情况下,这种旅游是不用 physically 去的,是很好的。
杜若飞:对的,其实最早你说的地图上显示图片的功能,最早是有一家叫 panoramio 的公司 ,在十多年前就已经做了这么一个商业化的公司,然后后来被谷歌买了之后就不知所踪了,我也是很遗憾,就是很多很好的点子到最后都陨落了。
李丁:这个是挺遗憾的,然后我看我们的话题聊完了,差不多聊完了,然后我现在结束前我想问一个这种,我想开始开一个新的环节,就是问你比如说之前的任何一期你看过的,然后有没有哪一个观点,或者哪一个你印象最深刻的东西,你同意或者不同意的,或者有你自己看法的,可以出来可以,简短的收一个尾这种感觉。
杜若飞:好的,就是我今天其实还复习了,就是曹翔老师和你最近的谈话,然后因为曹翔老师,也是我的人机交互的领路人,所以我对他的观点就是,真的觉得他很善良很谦虚的,在给你讲一些如何能够少走一些弯路,如何找到自己和自己梦想的一些最小的夹角,我自己觉得我目前的选择,毕业之后直接来到工业界,而不是自己创业,可能还是一个更好的选择。因为我当时有想过,去做这种数字城市数字孪生,然后去创业的一个想法,然后但是其实自己毕竟还没有加入过世界顶级的团队,然后视野还不够那么广阔。这几年在公司历练,我觉得还是让我的眼界开阔了不少,未来不知道会不会像曹翔老师一样去探讨一下创业的路线,或者甚至创完业之后或者再回到一个能够发展自己才华的地方,我觉得未来都是可以探讨的。
李丁:我感觉最小夹角这个观点的确很好,反正如果对这个观点有兴趣的,听众可以找回上一期(54 期),跟曹翔聊的这些关于博士之后职业规划的整个话题,我感觉都很有意思,行这些结束之前,若飞你想打一个广告吗?招人或者别的东西的,
杜若飞:谢谢李丁邀请我来到他的聊天室,我非常开心能够和听众们分享,我对元宇宙的一些看法,然后我们组其实我个人是做偏人机交互,或者是搭建交互式系统的一个方向,然后我常年会招收 AR 和 communication 相关的学生,然后这个名额比较充裕,然后但是如果有人对 depth 或者 3D 比较感兴趣的话,那个我一般一年也会有一个名额去做一些 side project,然后我们组我会经常会和一些 CVPR 或者 SIGGRAPH 的一些研究员合作,然后他们基本上主攻数字人,或者是一些 hardcore,neural rendering 的方向,然后我也可以把你引荐给他们,欢迎和我联系。
李丁: 我会把若飞的联系方式放在下方,可以跟若飞去联系,我们这期非常感谢若飞来跟大家分享,他对元宇宙的一些看法,我们下期再见拜拜。
杜若飞:好的,谢谢李丁,拜拜,