2024年03月11日
张小珺 00:54
Hello, 大家好,欢迎收听张小珺商业访谈录,我是腾讯新闻的小俊。这是一档描摹我们时代的商业文化和心知的访谈节目。今天的嘉宾是真格基金的戴雨森和记忆超。我们从开年AI界两件大事开始聊起,OpenAI发布sora和google推出开源模型gemma。作为投资人和创业者,他们尽最大可能地收集了来自各方的声音,试图搞清楚sora在人才、算力和数据等各个方面究竟是如何实现的。这一期也是关于sora的一个信息拼图,同时雨森也是月之暗面和之前光年之外的天使投资人。所以我们也聊了聊国内的大模型生态及进展。
张小珺 01:44
关于中美大模型,在过去几个月里我访谈了杨智琳、李广密、朱啸虎,你会发现我们对每一个人提出了一些相似的问题,但从中都得出了很多截然不同的答案,这正是大模型今天发展中有意思的地方。我接下来会持续的关注通用人工智能,欢迎大家订阅我。如果大家有更多想要讨论的话题,也可以在评论区告诉我。Hello宇森,hello pig. 还是先跟听众朋友们做一个简单的自我介绍。
戴宇森 02:19
我叫戴宇森,是这个基金的管理合伙人。这个基金是一家专门做天使投资的基金,我们做了十几年,在中国以及全世界投了上千个天使投资的项目。我之前是创过业,是聚美优品的联合创始人。在AI这一波大浪潮开始之后,我自己是全身心的投入到对AI的学习研究和投资上,所以在AI领域我们去年也是投了十多个项目。其中既包括像月之暗面光年之外这样的那模型公司,也包括像无问芯穹这样的中间层info公司,还有一系列的在各个领域AI应用。所以我们对于这次zora的发布,以及AI领域的很多新的进展,我们也到非常的兴奋,很高兴跟大家去交流分享。
季逸超 03:04
大家好,我叫季逸超,也可以叫我pick。我现在是真格基金的enr,创业的时候也是真格的。倍投一直就是做LP方面的工作,包括比如知识图谱、信息检索、智能搜索之类的。而现在在做大语言模型,特别是检索,增强了大连模型方面的工作。平时也会跟雨森一块看一看这些AI方面的新的进展,以及一些业内的动态。
张小珺 03:24
很高兴认识大家。从过年期间到现在,其实AI行业发生了两件大事。一个是OpenAI发布了sora,一个是google,可以说它的开源模型。我们先来聊聊你们过去一周多的整个的状态,包括情绪的变化,也包括你们都做了哪些事情。
戴宇森 03:40
在SORA发的那个晚上,我记得很清楚,因为他是在北京时间大概凌晨两点钟的时候发出来的。当时本来要睡了,突然看到推特上刷出来OpenAI的这条twitter。你当时在哪儿?我当时在泰国,然后当时本来还在度假的这个状态,突然感觉到这要变天了。
戴宇森 03:56
说到这个SORA的发布,我就跟ChatGPT当时还是会有点不太一样。因为在ChatGPT发布的时候,大家其实对于大模型能够做这么好的对话聊天,有这种长context这样的功能其实没有预期的。所以当时是觉得居然这样也行。但是SORA发布的时候,其实大家或多或少都知道今年的多模态的模型,视频生成的模型肯定会有大的进步。从之前的很多业内的进展,包括大家努力的方向。但是大家确实没想到在这个年还没过完的时候,就会看到sora这样一个效果这么好,而不这么早的模型的发布。所以当时我操也看到Gemini来1.5也发了,所以真的感觉到那个晚上好多新的信息,所以那天晚上五点我才睡下了。我当时看了SORA之后,第一反应也是在朋友圈发了朋友圈,说这个确实超预期,所以也就开始不停的约我们投了这个公司,我们认识的各种技术专家去聊去沟通这些事情。所以在过去一个多星期也跟十几拨人都都聊过这个话题,确实觉得还是有很多的收获,当然也有很多的不良了解还没有去搞清楚的地方。
季逸超 05:01
对,sora的当时发布的是在晚上,我可能最先关注就是想了解尽量多的技术细节。当然大家也知道现在的OpenAI跟以前已经不一样了。我们现在sora所真正能看到的官方信息,除了几个twitter以外,就更多也就是是那一个type port。所以我第一时间就是找的尽量认识的靠谱的人,做相关领域的人去多交流,去学习一下。所以今天我们可以分享一些,可能也更多都是我们的猜测。
季逸超 05:22
而真正让我觉得震撼的点,还是就SORA,这个东西比我们想象中到的要早特别多。这个其实给我最大的一个震撼,而跟ChatGPT那会儿我的心态当然就会有比较大的区别。因为我毕竟以前是做LP的,ChatGPT突然那一瞬间我就意识到要变天了。但是sora出来之后,可能更多是一种看戏的心态,所以会好一些,可以更纯粹的从技术角度来考虑一些事情。
张小珺 05:44
也有投资人说说他们对SORA反应是第一天觉得太惊艳了。后来发现原来也就这样,什么世界模型是假的,然后就变成了一个比较现实的状态了。你们有类似的情绪变化吗?
戴宇森 05:55
我觉得情绪倒没有像大家想的那么高,因为当时我记得在群里很多人讨论说,明天那几个自媒体的标题可能就会变得非常的夸张。我当时第一反应就是说这肯定是一个我们预料之中肯定会发生的突破。只是他发现比较早,稍微了解一下之后发现其实它并没有在模型的底层的结构上有翻天覆地的变化。说当时发了第一条朋友圈,第一说明一个我们已知的模型结构是可以干出来SORA的。但第二也体现出来,不管是从数据、从算力、从工程的技巧来讲,那确实OpenAI还是走的非常的靠前。所以大家对他的这个时间可能都高估了他要训出来的时间所以我觉得倒没有太多的这种情绪起伏,是确实还是觉得很佩服。
季逸超 06:43
从一开始的话,其实我们的情绪也没有特别大的波动。我觉得主要的原因是这样,就是因为我们现在能看见SORA给出的demo,其实除了参官官方页面上给的以外,更多也都是从OpenAI的人,直接就是从网友给的prompt去给我们返回回来的。这过程中其实我也不知道他到底经历了多少speaking,而真正让我们能信服的还是得亲自去试用一下。所以我觉得在真正我去用到所有这个产品之前,我的情绪可能都会一直是比较稳定的。但如果你现在真的给我一个所有的页面,我真的试了几个prompt之后,我可能也会控制不住自己。
戴宇森 07:14
而且我们聊下来,大家对于sora的模型size的估计,对他训练所需要算力的估计,以及模型结构的分析。虽然我们看到这个事情还是在大家的理解和可去追赶范围内的,不是一个让大家觉得开天辟地,原来你都没想到的东西。反倒是觉得机会很多,不管是我们投的像月之爱面这样的模型公司的机会,以及包括说基于SORA这样强力的模型他可能做的应用的机会其实也会变得很多。因为在之前大家其实都想用纹身视频或者这样的方法去做很多应用。但是原来的模型质量是完全是很难真正的开始启动的。所以现在我们终于有了一个可能,像大家说GPT3水平的这样一个SORA。所以我觉得这会意味着多么太深沉的一个爆发式的时刻的来临。
张小珺 08:03
刚才也提到你们聊了非常多的人,然后尽可能的还原SORA是怎么做出来的那我们对于SORA究竟是怎么build出来的,我们来做一些拆解和这种信息的拼图。比如说现在您说对于sora这样的复杂系统,人才第一,数据第二,算力第三。那我们能不能先来聊聊sora背后的人,基于你们现在的已知信息,它背后是一群什么样的人?
戴宇森 08:25
首先他是一个不那么大的团队。从整个比如说我们看到有的拆解说从核心团队就是十几个人,对吧?其实tim和bill其实都是伯克利的师兄弟。当时bill去的时候,也就是他他其实是95后team,包括下面的比较多的人,其实都是达利瑞这个团队的,这个其实也是比较一脉相承,从达利税到这个sora都是属于弱多模态的生成的模型。并且我看在整个这里面,比如像recapture这些technique也都是在达利二里面先去用到的,所以我觉得这反映了OpenAI一直以来团队很精干,个人都非常的前沿,也非常的年轻这样一个特点。
戴宇森 09:00
说到这个人的话,其实当时bill在meta是三年的实习生,当时meta正好是要全力去应对大元模型ChatGPT带来的威胁的时候。所以其实DIT这个工作当时并没有得到那么多的资源,属于一个真的是出于兴趣爱好和出于对这个技术方向的好奇去做的一个项目。边缘项目不一定能叫边缘项目,那至少资源不多。所以我觉得这又充分说明一点很多时候对于研究员来讲,其实对于技术方向的这种直觉上样的审美,这种对未来的大方向的判断,其实很多时候比如说去复制别人的方向其实要更重要。
戴宇森 09:35
其实我也在想,所有训练所需要的算力,比如说现在大家聊下来可能就是在比如说千卡2000卡就是S100的这个水平。这个算力本身并不是说是遥不可及的那数据量肯定大家目前就估计可能会有比较大的一个提升,但是这个可能也是可做到的。但关键是说愿意给年轻人,给年轻的团队快速的试错,以一个比较创新的思路去进行scale。我觉得这个其实是反映了一种很好的组织文化。您之前有过一个分享说要把一个就比如说video generation是一个大家都知道很重要的方向,但是你要把它方向做好的话,你需要有在技术上的基建,对吧?像这个数据算力训练的这些工程上的能力的体现,同时需要有人才的基建,比如说对于人才的密度,对于从下往上的底层创新的包容,以及创新发现了一些突破之后,能够果断的去scare up的判断力。这些其实是我觉得OpenAI现在看来确实还是蛮领先的地方。
张小珺 10:34
具体他们是怎么做的呢?怎么搭建这个组织?怎么既有从顶层到下层的目标驱动,同时又有从底层向上面对创新的包容?
戴宇森 10:43
我觉得这很多也是来自于各种的揣测和打听。当然我觉得有几点可能明显还是不一样的。第一,OpenAI整个组织,我觉得对于AGI这件事情是非常信仰的,甚至有人说他有点像是个邪教,对吧?你要进到这个组织,他认同,你要互相认同。对于是干略落有可能走向AGI,以及对要实现在这个共同的愿景是非常笃定的。我觉得这是一个能够吸引优秀人才非常重要的原因。
戴宇森 11:06
第二个是是我还没有去得到更多的confirmation,是有人说其实在OpenAI内部做的视频的模型的人,也可能不止一个团队,可能也是有几支团队都在做类似的探索。但可能在这个过程中,可能是说了也是一个探索突破之后来继续scare up的这样一个过程。这里面其实它体现出来组织的很多灵活性,特别细节的如何去工作。这些我觉得可能我们听到的也都是一些揣测,不是那么确切的内容。
季逸超 11:33
我觉得sora直接背后这些人就是雨森,刚才讲的也很全面了。其实我想提一下,我们当时看见sora之后,很快我们就想到去跟李军去聊去。他是之前video power的作者。就是从人的层面来说,你可以理解sora是一群之前diffusion这条路线的人在做。而以video poets为代表,其实还有另外别的路线,比如说像auto aggressive这个路线。
季逸超 11:53
所以我觉得从这个人的角度来说,我们虽然现在看见SORA有很大的一个成功,但它到底是不是最终这个方案我们是无法确定的。所以我觉得很重要的一点,就世界上还有不同的这些研究者或者从业者,他们在尝试不同的这个方向。因为我觉得这个科研的探索就有点像训练模型本身。我们也许看见了现在SORA只是一个局部左右,那可能别的模型在灵活性或者泛用性可能展现出更好的特性。所以我觉得也就非常希望能看见更多人才在不同的方向去展开新的这样的探索。而不是所有人现在都一口气的都走向了复线。所有的这一条路上。
戴宇森 12:24
从投资人角度,我们可能去研究怎么去做出来。sora可能这不是我们擅长的地方,或者不是我们能给我们带生产力的。其实我们更多的还是去思考,为什么我们还能够让一个95后bill能够去刚刚去做这个事情。这体现的还是一个年轻组织他的活力,以及说组织的负责人对于技术真正能够最前沿的技术能够非常了解。不是说因为按资排辈,或者说是因为去做管理的职责,所以这个其实是让我觉得对于年轻的创业公司更具备信心。因为我觉得在这个时候,其实可能全世界最优秀的年轻人能够把这件事情往前推进,因为它不是个靠经验的地方,在这个时候可能。
张小珺 13:03
你们过去一年肯定follow AI的研究员,follow很多。你们对于这个方向的人才画像有什么观察吗?以及人才地图,哪些学校哪些高校能够出来这样的AI的天才型的选手比较多。
戴宇森 13:16
海外就是AI比如北美AI四大名校,斯坦福、伯克利、MITCMU. 然后在加拿大比如说像多伦多、滑铁卢,在中国当然比如说清上海加了ACM班。中科大其实也有很多相关的人才。我觉得学校著名的实验室,著名的教授,其实我们做了很多的这样的mapping的工作,包括香港港科、大港中文这样。在这个过程中的话,实际上我们觉得这个师承关系还是挺明显的那从比如说OpenAI的这个创始人医疗,他们的一脉的师承,你就包括像team和bill也都是同样的师承。
戴宇森 13:46
AI这个领域,因为它确实需要顶级的治理,所以我探察到在名校这里面脱颖而出。比如像我们投志林,其实也是因为我们很早就关注到志林在清华的这个同届的同学中,他应该也是非常早的脱颖而出,成为学神。这里面其实应该说领军人物他偶然性倒不高,更多的还是出自于这些最优秀的学校,最优秀的实验室,最优秀的team。但是我觉得这里面不能只局限于技术,尤其是从创业者的角度。对于商业、对于组织、对于产品,是不是愿意去在这方面去学习去进化,我觉得是很重要的。
戴宇森 14:21
其实这些组织产品商业,我觉得并不难。因为我们以前跟很多学者型创业者打交道,往往遇到问题是他们觉得这事儿他们不愿意去学习。有的人觉得他们有意思,有的人是觉得这些事情不重要,觉得自己技术好就行。但实际上我认为对于厉害的研究员来讲学,这些是不难的。因为显然有很多研究员可以成为很好的企业家,但是好像很少有企业家去能做研究员的。但是它是一个不可逆过程,但是很多时候我觉得是有人不愿意去学。所以我觉得如果是好的技术加上愿意去全面提高自己各方面成为更好的企业家的这样的想法的话,那这种创业者是我们最喜欢去投资的。
张小珺 14:59
所以你们做过了那个人才的mapping大概是一个什么样的图?
戴宇森 15:03
好的学校全部拎出来,好的学校下面有哪些实验室?实验室比如具体知名的导师,以及这里面可能我们关注的人比较多多,对吧?这里面优秀的华人的这些PHD有哪些?然后其实我们会做一些交叉的reference,就比如说大家觉得谁最好,这说的PIG里面可能有些是最好的,那我们就也会很关注这里面谁是被提到最多的那几个人,所以我们尽量能够说找出来神中之神,对吧?因为每个去可能这些名校的PIGD都是挺厉害的,但这边可能有大家更加佩服的一些人。植麟其实就是属于在中国的这些学生里面,大家又都非常佩服他,所以这种也是属于一个优中选优的过程。
张小珺 15:40
得出什么结论呢?比如说会不会斯坦福更适合出比如这样方向的企业家,而CMU更适合出CEO?有这种类似的结论。
戴宇森 15:48
有一个非常有意思的真事。因为我当时是斯坦福这个创业组织的发起人之一,斯坦福的创业组织叫CEOCMU,也有一个中国学生创业组织叫CTO担任石林是CMU的。我的意思是说,其实每个学校肯定有一些自己的风格了。比如斯坦福在硅谷他很多人都想创业。但我觉得现在这个时候,其实顶级的AI人才或多或少都会有一个去做点什么东西的一个梦想。当然有的人来选择作为CEO或者作为联合创始人这些创业,有的人会愿意加入创业公司。其实我就在想在这个时候有能够充足的资源以及形式的自由,或者对于顶级AI的这些学者非常重要的优。因为对于他们来讲,很多时候其实也并不是在于说直接拿多少这个package,更多是说能不能去探索,去做自己想做的事情。
张小珺 16:35
最近有没有观察到一些有意思的人才流动,比如说谢赛宁他回到了学术界,比如说OpenAI的重要的创始成员之一离开了OpenAI等等,这些人才变动你们关注的有哪些,以及他们背后反映了什么?
戴宇森 16:49
在去年有一个说法,就是说学术界在AI现在没有优势了,因为学术界没有足够多的卡,工业局有很多卡。但是我觉得其实你看赛琳当时带着bill做了这个的研究,成为SORA的backbone。其实这里面反映就是双方的分工不一样,对吧?
戴宇森 17:04
学术界其实这种真的做研究,对于感兴趣的话题,对于好玩的事情去做研究的这种思考方式,其实是有助于发现很多很有潜力的种子的那这些种子可能要在一个能够大力出奇迹的,能够去动用足够多资源的地方,被慧眼识别,去生根发芽,对吧?但是这两个过程其实是比较有差异化的。我们当时跟赛琳聊,其实我也问了他这个问题。当然何海明是从meta去到MIT,那赛琳是从麦塔去到YU去做研究。因为他其实他就是觉得他自己更喜欢做学术这个事情,更喜欢去做这种看上去好像直接这东西有什么用,并不是那么直截了当能够看到。但是可能这个种子埋下去之后,会长出一个SORA这样大树的这种很有意思的研究,我觉得这是不同的生活方式,对吧?
戴宇森 17:49
但是我们会明显的觉得所谓的大厂好。如果在自己的组织结构上不变得更加敏捷,AI项目的负责人自己不是真正对AI非常懂,能够在一线的前沿的知识非常懂得负责人的话,那可能他们的人员流失其实还是比较明显的。第一,现在好的AI创业公司,其实从很多资源上也并不是那么缺。
戴宇森 18:10
并且很多时候大厂的很多优势其实没法发挥出来。上次听google的人讲过一个现实,就是如果你在google你要拿youtube的数据去训练,其实是非常难,或者说是不可能的。因为youtube这个部门他会觉得你拿我的视频去训生成模型,那是直接影响我的利益。并且这里面有很多的激活协议,让你不能够把他的视频拿去训练,所以可能全世界的人都在8 youtube上的视频训练,但就是在google里反而最难用youtube去训练。就是大厂带来的隔阂。
戴宇森 18:38
所以因为之前也有人说,你看那大厂有钱有人有卡又有数据,那他岂不是就碾压,对吧?但我们恰恰发现现在进展最快的好像都是时代的。但是并不是说他们都有这种合规优势,这是其中一环。但是很多时候对于人才的发掘使用,包括像这些做法上,是不是能够足够灵活的往前推进,其实可能都是有区别的。
张小珺 18:57
但是在您为什么要在这个时间节点上选择回学校呢?
戴宇森 19:01
他其实也是去年那时候回去的,他讲了一些原因,但是出于因为我们是一个朋友之间的闲聊,所以可能也不太方便讲。但我就觉得他是真的想做学术这件事情,所以这个是我的理解。并不是每个人都是希望要去build这个产品,或者说是在一个比较更明确的目标下去把它做个产品做出来。我觉得对306可能研究工作这种探索的乐趣是更加有意思的。但是他们现在也在探索新的研究方向。
张小珺 19:24
这个是企业界到学术界的这种转换。企业和企业之间,比如说OpenAI那个重要的创始成员,他离开了OpenAI以及比如假如从google去了tiktok.
戴宇森 19:34
这个安全capacity对吧?安全capacity其实我觉得是OpenAI里面非常特别的一个人。他当时是去了特斯拉,然后又回到OpenAI。因为他经常无偿的给大家科普AI的这个知识。其实听说他离开OpenAI之后其实很忙,因为他刚出了一个两个多小时的视频,专门给大家科普什么是tokenizer。我觉得这个其实是非常伟大的举动,因为对他来说时间很值钱,但是他却选择给大家去铺到从AI的从很基本的东西开始讲起,我觉得这个是非常不容易的。
戴宇森 20:02
当然这个可能也有人会说,是不是反映了OpenAI里面的某些争执。我觉得当然我们也从他的朋友那儿也听到过一些说法,但是我觉得有很多八卦也不适合去传播,但是可能也是会有一些个理念上的,并不一定是完全契合但我觉得这些其实都是属于别人家的八卦。因为我看网上有人就说,你看当时三毛他们回来,谁点赞了,谁发帖了,谁排了队形,谁没排,好像就是全开capacity的,其中没有排队性的一个人。说实话我觉得这个就是从八卦角度挺好玩,但是可能对我们工作没有太大意义,所以我们关注比较少。其实讲过去tiktok,我觉得其实也是说明自己也在越来越重视这件事情。我们也了解到包括像移民真的对这件事情都非常的重视。他自己会亲自跟这个PHD去聊,会跟优秀的AI创业者去聊,而且聊很长的时间对吧?我觉得这个也反映了字节这个组织一名他们这样一个团队对于新事物的重视,以及说真的非常看重。
张小珺 21:01
我突然想到一个问题,推推也是一个AI follow的一个重镇,你们平时会关注哪些人?就是他们发什么你们必看以及收获最多的人我。
戴宇森 21:10
其实有一个AI的一个分类,然后里面有个几百人。因为思路也很简单,你就把所有的这些名牌上的OpenAI,就像topic、google、fair这些所有的好的research全部都关注一遍,看他们关注了谁,相关的我觉得这个肯定还是比较容易去做的。比如我跟金凡会经常沟通,因为他也是华人,可能在这个AI里面关注人数最多的KOL,有一些他是他这种信息量非常大的这种账号,对吧?
戴宇森 21:36
但他们同时也可能有一些,比如说对于某个具体的技术问题比较热心分享。比如赛琳他当时在这个SORA出来之后,他写的这个thread的分析,其实对很多人来讲是很大的帮助。但是后来他就开始被这个事困扰的,后来他发的朋友圈去解释?那我觉得美国还是蛮多比较无私分享的这些人,我们帮助是挺大的。但确实这方面推特上的信息,第一手的信息其实比较多包或者SORA发布。前几个月其实有一个很著名的他的IDD我还忘记了,就是OpenAI d里面的立刻账号其实就预测了2月15号这个时间发布之前还听到一个八卦。
戴宇森 22:12
OpenAI在去中东融资的时候,也或多或少就是展示了sora可能体现出来的一些能力。所以当时大家说,当时不是还有一句很有名的话,什么A7IE是achieved internally。然后就有一些当时对OpenAI有重大进步的揣测,可能也就是在那个时候逐渐的有一些这种信息或者感觉泄露出来。
张小珺 22:28
这是几月?
戴宇森 22:29
当时应该是去年,淘宝在中东做了些募资。我想刚才举这个例子只是想说一说,因为我们现在看到sora其实已经是一个它可以拿出来,并且它不只可以拿出来展示demo,还可以说你有个prop了,我来给你生成,对吧?所以他其实还是经过一些迭代的,就可能在这里边。再比如可能在去年的时候就说了,这种纹身视频可能就出现了一些大家看得到的突破,所以那时候还没那么稳定,或者说还没有那么完善,当然现在我相信他的进步速度应该也是挺快的。是为什么。
张小珺 23:01
OpenAI在这个时候发布SORA呢?在时间点的选择上。
戴宇森 23:04
对这个问题读OpenAI的心太难了。最简单的答案就是说因为它已经足够好了。第二个,也有人是这么分析的,就是说因为今年上半年肯定会有有很多的新模型会发布。Google的本来1.5,比如说GPT4.5,包括说其他的这样一些模型,那么在这个时候肯定先声夺人,那可能也是一个策略。当然有人说是不是就是一看到要发局面来1.5了,所以我发愁,我就我觉得倒不至于,可能就显然没有必要这么去抢这个时间。我觉得他到了一个瓜也熟了,可以摘了的一个时候。
季逸超 23:34
对我也觉得这好多时候其实刚好做完了,或者说说说他有别的项目,可能到某一个节点,现在能腾出足够的算力给这个SORA,去咗RETTMI,所以可能也没有那么多的阴谋在里头。
张小珺 23:45
过去一周你没有基本搞清楚SORA是怎么实现的吗?
戴宇森 23:49
我们只能说采样了很多人的观点。简单来说,比如这个模型的规模,比如说赛季最开始说可能三个B后来大家同学可能三个B可能还是有点不太够,可能6到10个币或者十个币上下。
戴宇森 24:02
但也有人认为会更多,我大家或多或少推理就是说,首先这个生成的质量是这个样子,所以它不可能特别小。并且这个时候同时它比如说从现在生成的这个时间来看,可能是因为有人去看。比如他发了个prompt了,到最后这个视频出来可能过了这个时间可能最多有一两个小时对吧?那包括这边还有一些Cherry picking的时间或者说挑选的时间,所以他甚至时间可能不会特别长,或包括说在现在这个实验的阶段,他没有理由把模型搞得特别大。所以大家可能对模型的这个估计可能也就是在一个比如说十个B上下,可能是我们跟很多人聊下来的这这个观点,包括训练的算力,大家可能觉得就是首先OPI因为他现在已经部署的这个卡的数量估计或者有信息是大概二十几万张对吧?所以他可能是能用更多的卡去进行这种实验,但是如果要把这样一个规模的模型去把它训出来,可能比如说是一个一两千张H100这样的规模。但显然就我做实验和最后训一遍对吧,那肯定还不一样的概念。你做实验,你可以用更多的卡平行做更多的实验。
戴宇森 25:02
对于数据其实我觉得是现在大家最关注的。因为显然在这里面,如果你模型size不是有显著的提高,那一般就是在数据以及处理数据的方式这上面可能会有一些很多进展。但这种楼号我觉得就属于大家只能去猜测。比如说现在有人猜可能是用了3D引擎的,因为大家看到里面的一些demo里面的内容比较像3D引擎生成的。但这也是揣测。
戴宇森 25:23
有些人开玩笑说,上面有很多的视频的风格比较像那个shared stop,这里面的这种是风格。但不管怎么样,大家你这里面肯定要有对于内容优秀的素材的准备,以及说比如说他们用的GPT4做reception对吧?写了很详细的caption来增强它生成的真实度和它的整个的效果。这些大的思路我觉得或多或少是逐渐大家在这个拼图的。但是具体怎么做,或者这里面有没有一些关键动作是没有公布的。其实就我觉得可能要留给像指令他们这些更专业的人去fight out,像我们只能说大家收集人们大概有一个大概的概念。
季逸超 26:01
这块我可以稍微补充几个点。第一个现在比较确切的,我们比较相信的一个推测的模型参数量大概在6B左右,这块儿也都是基于公开信息。你看它那个sora take report里头,他有几个scaling的例子。他写的比如说这个four time compute,sixteen time compute. 然后这个其实如果你按照DIT paper作为baseline的话,后来修正为32倍,那估计也推测就是一个6B左右的模型。
季逸超 26:23
然后另外一点,其实也就是我们在做模型的时候,会在一开始你要考虑scale。比如说你现在有足够的算力的情况下,你到底先scale模型的参数量还是去先scale数据的参数量。而现在从公开信息,还有大家的比如说我们采样得到信息来看,可能都是数据现在规模非常大。你可以朴素理解成就是你有一定算力之后,你要考虑的数据量乘以模型参数量。那这个时候如果你数据量非常大的话,其实一开始它的模型的规模可能也就不会一开始就做的那那么大。而且从实验的角度来说,你也不应该首先去scale模型的参数量。所以这个是对于模型的这个规模的一个推测。
季逸超 27:00
另外如果说这个技术细节的话,其实我们能找到的一切的根源还是那一片take report。我们只能说它的技术架构,它本身没有一个翻天覆地的变化。但另一方面,它的这一个tech report其实藏了非常多的信息。比如说大家现在的关注点可能在scaling,可能在这个diffusion transformer上面。但实际上我们看到它的这个encoder部分,它这个tokenizer,它的position encoding,就是这块它其实都一笔带过了。但是如果你做模型,你会知道就所有这些细节其实会对最中效果产生非常大的一个差异。所以现在我们所关注的重点可能是较为清晰了。但是剩下那些没有被关注的点,反而可能是这个模型的一些秘密。
张小珺 27:37
他这次核心解决了哪些技术的难点,而这些难点是之前不能解决的,就是那个技术瓶颈。
季逸超 27:42
这个有几个。首先好多事我们不能说是之前解决不了,但你只能说sora首先解决了这个问题。比如说几个典型的例子,第一个就是我们实打实的看到了连续生成的一分钟的一个视频。之前的话比如说你看一些商业产品或者开源的模型,一般来说一个视频基本也就3至5秒左右。而这个sora的话,它能直接生成一个60秒的视频,甚至这60秒的视频可能是有多个镜头组成的,所以时常是一个实打实的突破。
季逸超 28:09
另外一点其实是它有一个技术细节,就是它在训练和生成的过程中,它其实支持各种各样的分辨率。虽然之前有篇paper叫patching pack,它实现了这件事儿。但是我们发现SORA,把这个事儿scale到一定程度之后,获得了非常好的效果。它能够输出更适合你设备的分辨率,用那个paper的原话叫native fusion。
季逸超 28:28
就比如说你拿一个手机,你可能想看一个竖屏的1080乘1920分辨率的视频,它的训练和推理的都做到了。所以这可能它做到的第二个比较大的突破,剩下一些突破你可能很难去定量的去描述它。但是我们其实人的话感性都能感觉到。比如说他的consistency,就是前后一致性是非常好的。还有他他好像模模糊糊的展现出了一些对世界和对物理的了解。这个可能是比较大的几个突破。
张小珺 28:54
他现在需要的这些模型规模,训练的算力的规模,数据量等等,是不那么难达到的对吧?
戴宇森 29:02
至少绝对的这个数量级对于大厂们,甚至是融资比较多的创业公司都是可以达到的。
张小珺 29:09
大概需要多少钱?
戴宇森 29:10
如果是几千张或者一两千张H100的话,其实这也就是几千万美金的投资。你续一次可能比如千万美金的量级,就并没有那么遥不可及,就不是说要10亿美金才能做。
张小珺 29:22
所以SORA,是基本上所有头部的这些大模型公司和大厂都能做的。
戴宇森 29:27
在您给了一个乐观的预期,说6到12个月,我是觉得他有点乐观。说实话为什么你觉得有点乐观?因为我觉得能做和真能做出来,其实中间隔很多逗号。比如你的大方向是知道的,但是具体这个地方怎么把它调优这个事情你不知道,你就是要花多少钱去试。其实我们还记得去年当GPT,尤其是GPT4出来之后,很多公司就说我能够在年底追上GPT4。现在2024年了,实际上真能拿出一个GPT4水平,就是各方面全面达到GPT数据水平的模型,可能也就google gemini的1.5包的ultral说能够达到对吧?但是我们仍然还没用到一个实际的产品,就说明你在在align这些方面还是有很多人要去做的。就是你从那个方向能走,但是中间很多路况可能会在这里卡住你一个月那里卡住一两个星期,所以就不一定能那么快。
戴宇森 30:14
但比如说很多公司,比如小米的journey,可能也是在年终研发视频模型这样子。他们本来也有一些计划,就是说可能SORA出来之后,大家对自己的目标就得做进一步的调整。可能原来大家的模型没有那么好的程度度。
戴宇森 30:28
其实sa解决的问题,我的理解其实就是之前大家在像runway,皮卡这些产品上都看到的问题。比如说视频时间太短,动不起来乱动?包括缺乏一致性,一个东西经过了一个遮I之后就没了。这些问题大家都知道,大家可能原来变好了很多,但是solo一下变得这么好,那大家显然不会愿意发布一个比sol要差的模型,或者至少大家希望能够跟他能够旗鼓相当,所以这个会让大家时间又会变得很不一样。
季逸超 30:57
对我觉得可以补充一点,现在很多人就说别人可能需要一年左右的时间,其中推测的一个原因是因为我们在往回去看这个team and deal入职或者说开始做这件事的市场。对,但是我觉得我们必须要清醒的意识到,就是OpenAI 它的起点比我们大的公司要高很多。像刚才雨森也讲到了,就是所有项目用了很多,比如像达利三的captioning。然后它的这个语言这个condition的部分,也许就是用了GPT的权重去初始化的。所以就是OpenAI用了这一年,它其实基于过去很久这个积累,我们这块都不提它的那些算力和infer方面的工作。对于我们别的公司,无论创业公司还是大公司的话,其实你一开始我们的起点可能都比OpenAI现在要低一些。所以即使有了sora这个东西在这儿,我们可能仍需要投入很长的时间,你才能将近达到这样的一个效果。所以我也是觉得一年这个事儿属于是一个乐观且艰巨的一个目标。
戴宇森 31:45
其实我觉得像有的人就把它总结为大力出奇迹。但实际上我觉得这里面,第一,你到底能不能使出来?第二,负责使这个币的人,他是不是足够懂,他是不是真的在对的地方使劲。并不是说傻砸钱就可以了,你钱也要很有技巧的砸才行,所以我觉得这里面可能钱反而不是这里面最重要的。
张小珺 32:05
追上gbt 4更难,还是追上SORA更难?
戴宇森 32:07
可能难度不太一样。就比如说你可能在SORA里面有很多数据上的准备,你可能之前很多人是没有去做这方面的储备的。就大家在这个文本语料上反而差距可能没那么大,可能它是两个不同的问题。可能打篮球和打乒乓球哪个更难?都很难对吧?只是你需要用不同的能力。
张小珺 32:24
国内大模型公司如果也要追赶的话,应该继续先追赶GPT4再追赶。SORA, 还是它两条线都要同时做。
季逸超 32:31
稍微从第一性原理出发一点,就是目前的发展阶段来看,其实做LOM跟做SORA这种fusion模型的人才,目前还没有完全的重叠。就像比如我们之前做LP的,但现在无论你愿不愿意,基本都被卷到了LM这个赛道上。但其实severa出来之后,其实以前做传统性CV的很多人其实也都找到了新的工作方向。而真正那种多模态的大一统的模型,其实目前还没有特别多的很好的例子。所以目前我觉得这两波人是不太冲突的,是可以并行的,也只能并行。
戴宇森 33:00
目前而且我觉得如果一直是要追赶,实际上就是很容易被牵着鼻子走。因为如果永远都是说出来一个去学习一个,那这种就永远没有预判。当然我觉得这对公司要求很高,团队要求就很高。你能不能尝试去预判下一步会是什么,提前做一些准备,否则一直跟着跑,其实是一个蛮短期驱动的一个事情。所以这也是为什么我们觉得如果现在想做底层模型公司来讲,技术上的人看得远很重要。你跟着跑,那你永远跑不过比你有更多直接资源的人。所以你只能说我先去他要去的地方。
张小珺 33:33
关于sora是怎么实现的,还有更多补充吗?不管是算力数据还是人各个方面。
戴宇森 33:40
现在我们刚十天的时间,假设再过三个月我们会知道更多。现在我们知道的都是很多碎片的拼接的。
季逸超 33:47
目前的话从实现原理上,我们觉得就是欧派的的那个report是我们能知道的。所有的真正准确的信息推测来看,首先一点就是它的推理十号大概你生成一分钟的视频,大家可能需要现实中的二分钟左右,这是一个目前比较确定的一个数据。除此之外的话,我们真的是没有特别确切的信息。
张小珺 34:06
在他的那篇report里面,你们有没有什么能给大家划重点的信息。
季逸超 34:11
这个就太多了,他好多重点其实可能就一句话就带过了。比如说我们对于他这个latent space的表达到底是怎么做的,一句话就带过了也不说他那些teh report里头,其实你就如果按从上往下看的话,你就可以把它理解成先是cocooning zer进入这个diffusion transformer。然后还有是这个encoder跟decoder这一部分,每一个都是重点,只不过它的这个重点其实都没有详细的去讲。所以我们觉得check report一共就那么短了,就都当重点看就行了。
张小珺 34:37
SORA发布之后,它对于全球大模型在今年的演变会有带来什么样的影响?
戴宇森 34:44
我觉得首先是把这个战争给推到了一个新的高度。我觉得一线公司都是知道多模态会有这样的突破的,只是说时间提前了。那时间提前了,很多原来的计划都得变,并且我觉得一图胜千言,一个视频有剩1000张。
戴宇森 35:00
SORA发布之后,虽然我们觉得它实际上这样用起来,其实实际上还有一些距离。同时它不像 ChatGPT是个交互模型,因为ChatGPT你是可以跟它交互获得更多内容的那现在它作为一个纯粹的生成模型,它生成之后接下下一步做什么,实际上现在还未知。因为它如此直观的去呈现出来一个这么好的视频。所以给不管是这些创业公司、应用公司,还是像文娱影视行业,包括这些政府部门带来的冲击都是很大的。我觉得这也会引来更多对AI的监管的担忧。
戴宇森 35:32
其实也看到比如说像广电或者像这些部门,他们对于SORA的出现是非常的关注。我们很快就到了一个难辨真。假的程度。原来像runway生成的视频,绝大部分还是一眼就看得出来,并不是真实的。但sora第一次把这个视频生成可能到了一个以假乱真的程度。我觉得这方面的监管,可能也会有更多的这动作。
戴宇森 35:54
我觉得大家对于数据的关注度会进一步的提高。因为在这里面显然SORA并不是说顺利的绝对大,或者说模型的绝对大。是在数据上,不管是数量质量处理上,反正都有很多的进步。
戴宇森 36:06
所以这方面可能大家关注会多很多。之前大家觉得LIM操作工具,后来实现agent这条路是一个非常重要的路。其实一般好像我记得在比如国内的一些大厂,这里面其实它不是大家主要关注的方向。大家可能主要是做LI多模态,这边可能有人在做纹身视频,大家就反正这个东西生成出来的视频质量也就那样,就还好。但现在突然还可以变成这么好之后,尤其是我觉得他讲的这个世界模拟器这个概念。我觉得OpenAI非常能够去制造这种很宏大的技术愿景,就世界模拟器从此来理解这个世界。所以我认为这个东西如果能实现的话,都还非常早。
戴宇森 36:42
但第二,这是一个非常宏大的目标,这会让很多人觉得很大的威胁,或者看到很大的机会,所以我觉得会有更多的力量会投上去做这件事情。包括说我觉得对英伟达的这个算力的需求,对数据的需求都会进一步的提高很多。包括人才的流动。可能像比如蒋璐,他本来也是做加transformer,能够可控的去生成视频的video pilot。比如自己对他也是就更加关注。
张小珺 37:06
可能我们离开他所谓的世界模拟器,多久能到文学?
戴宇森 37:10
首先不可能是在一个几年的一个time spending。首先我觉得这里面有很多的甚至是哲学方面的争论,对吧?就比如说有人说他并不理解物理定律的时候,他能不能模拟这个世界。另外方面也有人会想,如果一个没有受过教育,不懂任何物理定律的人,他就不能理解这个世界了。他显然理解这世界上很多东西,对吧?这个杯子从桌上落下去它会碎,这肯定是可以理解的。但不需要学习牛顿定律或者相对论,就能够对这个世界大量做出很好的反应。
戴宇森 37:40
所以我觉得这里面就取决于说我们需要的是什么,因为我觉得如果我们是说让他去模拟真的两个东西相撞,或者一杯水倒在地上会怎么样,这种缸体的流体的具体的物理变化,我觉得这首先就不是他适合做的事情。这些应该还是这些物理引擎去做的这个事情。但是我觉得对首尔现在最好的比喻就是说他是一个就像你脑海中对一个事情的想象一样,它未必是百分之百真实的。它可以很灵活的想象出很多的场景,它可以合理的对一件事情可能后面会怎么发生做出一些预知。我其实我自己想了一个怎么去衡量这种视频模型他对于因果性的判断。比如说他现在假设拍一个航拍的空景,其实这没有什么东西发生变化,就是一个比较偏静态的景色,这个是第一个阶段。
戴宇森 38:24
第二个阶段,比如说是一个物理上的因果关系。比如说一个杯子里面装的水落地打碎,这在物理上发生了这样一个相变。东西洒出来了,人其实一眼就可以看出来这个东西是不是符合物理规律的。但我们看到他举了一个例子,杯子打碎它,你发现它其实效果是很不好的,杯子他不知道怎么碎,当然有人说这是因为在一个视频里面碎的可能就只有几帧,所以他没有足够的数据去训练这种发生下面它的过程,但不管原因是什我觉得搞懂这个物理规律,这是第一步。
戴宇森 38:54
再下个层面,我觉得就是属于社交因果性,比如说它里面有另外一个例子,是男一女在沙滩上面前的海边突然出现了一条鲨鱼,两个人变得很惊讶。但事实上你想如果出现一条海豚,那可能是觉得很可爱,出一条鲨鱼会觉得很惊讶。但是因为它在海滩上,所以鲨鱼不会咬他,它会觉得还好。但是剩下鳄鱼可能就会爬上来,他们就会逃跑。包括另外一个例子,可能是说一个人打了另外一个人一拳,除了这个拳打到人脸上的物理上的变化之外,看是谁打谁对吧?那如果是一个婴儿打了他的爸爸,那可能他只是恋爱的,他很淘气。他如果是个壮汉,大的个很瘦的人,他可能是要逃跑或者是反击。这取决于说你怎么去从社会的角度去推他的因果。
戴宇森 39:35
现在然后我觉得再进一步,就能够在更长的时间范畴内。比如说在电影里面,我们会开头的时候出现了一个什么样的剧情,可能到结尾会有一个什么呼应。如果一个模型能真正能理解这种经过一段时间之后会发生什么,那这可能又是进一步的。所以我觉得世界模拟其实是有很多不同的层次的。你说的职业要到就既能模拟物理的因果,又能模拟这个社会的因果,还能模拟比如说经过长时间之后的演化,我觉得那个肯定是非常难的。但可能现在我们是要看到的一些比较基本的东西。
戴宇森 40:05
比如说我这经常跟大家举个例子,就是它里面有一只是一狗从一个窗户的窗台上走到另一个窗户的窗台上。这个时候它的每一条腿都知道该踩在什么地方,它不会踩在空气中,对吧?在之前的模型里面,可能它就莫名其妙踩在一个空气里边儿,就它会掉。本来应该掉下去,它不会掉下去。现在之后我们可以看到狗踩的腿的每个地方都是踩在正确的该踩的地方。我觉得这其实也体现出了某种对于这个世界的认知,所以我觉得这个方向是特别有意思的一个方向,包括它里面有一个是minecraft t他的这个视频solo他能够想象出来一个玩游戏。其实我们在脑海里面,我们也能想象一个我们在玩游戏时候的场景,并且符合游戏中的一些规律。
戴宇森 40:45
但如果能够通过这个去进行进一步推演,那其实它就是模拟了一个虚拟的世界里。我觉得这里面确实非常让人觉得很激动的。可能但我觉得你这个目前体现出来还是非常涌现的能力。所以我说sora其实挺像它是一个BT时刻,它不是个ChatGPT时刻。因为GPT3是一个涌现的模型,而ChatGPT是一个产品。SORA现在也是一个涌现出来了某些能力的一个模型,但是它要变成一个产品,其实这过程中还有很远的过程。并且涌现我们现在可能看到的也是一些所谓的火花Sparks。真正要用到我觉得其实花的线也是挺长的。
季逸超 41:20
这块我顺着俞先生刚刚讲的那个世界模拟这块补充一点。其实我们现在看见的所有这些视频,大部分都是基于一个文本的prompt去生成的。在这种预设下,其实我们很难看出这个模型真的对物理世界了解的程度是多少。我举个例子,比如说我们看到无论是SORA还是之前的那些纹身视频的工具,经常会有很漂亮的那种。比如食物特写,就是食物我只吃的那些食物,比如说你有很漂亮的那种摆好盘子的一个饮料或者一个冰淇淋,上面淋奶油或者淋饮料。你感觉它好像也有一点物理的模拟在里头。但是这块儿你注意模型是基于你给的完整一段话,输出了一段完整的视频。它也许通俗一点讲,他可能在训练样本见过类似的。
季逸超 42:01
真正我们认为要考察一个模型是否有很强的世界模拟能力,我可能会更去在意它对于一个视频的延长能力。具体来说就是你给定一个视频的一个前面一部分,比如前面5秒,你让他再往后去生成5秒。因为这样的话,你一旦给定了一个视频的开头,其实后面的搜索空间就会变得更加的复杂。比如说你与其让他从头给你画一段,往冰淇淋上面浇奶油,你把它变成你给他一个你已经把手放在这儿,下面是冰淇淋上面,你手里拿着奶油的这个喷灌。这时候你让它模型把后面5秒钟会发生什么准确的话画出来,这个其实对于模型的要求会高很多。所以目前的话,我们在真正自己能动手去用手尔之前,我难以通过目前OK给出了官方这些视频来揣测他的一个世界模拟的真实的能力。
戴宇森 42:46
我们现在对于视频模型其实是有两种类型的需求。一种类型就是让他尽可能的幻想,比如说什么大黄鸭走在街上?或者是什么两个独角兽相撞,就是这种你完全不会出现的。另外一种就说让他尽可能预测接下来这个视频会怎么样。因为如果你能够预测下一帧视频,理论上你可以预测这个世界,就跟你预测下一个token之后你可以思考一样,所以这两个也许是它是需要不同的能力的。它它因为现在是一个模型,他既干幻想的事儿,他也干世界模拟的事儿。但有可能幻想器和模拟器就是两个事情,最后也许是不同的模型,不同的产品去完成这个目的。你需要的数据,需要的模型结构可能都会不一样。
季逸超 43:26
当然也有一种可能性,比如说现在大模型,我说顶级的大模型,比如ChatGPT,我们其实有一个东西叫做system pro。你可以说给他指定一个人设,或者你给他写一个思维钢印。你一看如果跟他说你现在是一个非常严谨的中学老师,那这时候他可能会变得非常的务实,没有那么多。幻想。而你如果一开始跟这个ChatGPT说,你现在是一个科幻作家,那他可能就会展现出天马行空这个想象力。所以也许视频生成模型发展到未来的一个阶段之后,我们可以通过类似于visual promptpt,就是一种视频的prompt,或者你给他一些few shot的例子,你来改变这个模型的行为,来控制它到底是走一个天马行空的路线,还是一个严谨的物理模拟,这也都是有可能的,但这可能就是一个更高的要求了。
张小珺 44:06
对于sora它的视频数据来源的问题,能不能推测?就比如说现在一些大厂,像比如说抖音,他们有丰富的视频数据,会对于形成这种视频生成的产品更有优势呢?能够推测出这样的结论吗?或者是哔哩哔哩这种有丰富视频资源,或者youtube.
戴宇森 44:25
我觉得合规问题至少在海外会是一个大的问题。毕竟本来对于这里面来讲,你要排除大量的牵涉到用户隐私可能的东西。比如说我在这里拍了一个我的自拍,但是我是不是愿意把你跑去生成别的视频,放到别的地方,我觉得这都是非常值得打一个问号的。当然我觉得有视频肯定比没有视频要强。但是在这里面,哪怕我们解决了这些隐私问题,这些问题之后,在这里面怎么对数据进行处理,怎么挑出高质量的视频,我觉得也是很重要的。所以我觉得优势应该是有,但是可能没有大家想的那么大我只是觉得这个版权问题其实是对大厂非常重要的一个问题。假设说你生成了tiktok的所有视频,那你其实对tiktok广告收入或者他的创作者生态可能是致命打击,对不对?
季逸超 45:08
对我觉得训练阶段我的管理跟宇森是一样的。如果你现在自身有很多视频的数据的话,你确实有一些优势。但其实目前看到真正的难度,而不是说你有多少规模的视频,而是你有没有很好的办法从这么多的视频中挑出真正适合训练的那一部分的优质样本。这个其实对大家来说技术难度是一样的。
季逸超 45:26
但是另一方面,我其实在想象可能稍微再远一点。如果你有自身的内容平台,你会有一个优势,就是对于新的知识的掌握速度可能会比没有自己视频内容平台的人要好一些。比如说我们每年都会有新的游戏去发售,或者说又有新的主播出现。而如果你是google,你有youtube或者有twitch的话,你可能未来视频模型也会有现在大元模型这样这种read或者in context学习的能力。我如果是一个有自己内容平台的视频模型的厂家的话,那我的视频模型可能永远能生成最新的正确的概念。而那些没有自己的这个数据源的话,他模可能就会存在一个比较死的knowledge cut。就像早年我们用拆GPT的时候,你问一些比较新的问题,他又说对不起我的知识指到比如说2022年几月,这可能会是长期的一个优势,但目前来说还是比较早的一个地方。
戴宇森 46:12
有个前提就是说它能够让自己的视频不被别人拿去训的对。
季逸超 46:16
当然就自己的视频自己肯定是能第一时间通过API获取的,你可能被别人走一天。
张小珺 46:22
还有一个问题,就视频的模型现在和语言模型没有办法放在同一个模型里去训练。
戴宇森 46:27
现在还没有,应该这本来是有一起tokenizer之后去进行训练的。sora其实没有用到大语言模型,sora其实是transformer加diffusion,当然sora是在reception里面是用了这个GPT4从它的tag report来看,不过我其实在想,比如我刚才举的那个例子,你如果让假设说人看到鳄鱼和看到鲨鱼和那海豚的反应是不一样的。你如果让视频模型直接端到端的去生成,我觉得会很难。但是如果我是先用大元模型把它promptpt先给写详细了。因为大元模型知道人遇到鲨鱼和遇到海豚的反应不一样,他首先给出不同的promptpt,再变成这样。视频这种结合,我觉得至少在现在是肯定可以做的。大家说可能最后的结局就是所有的那些的内容都把它token来之后,在一个统一的模型里面的那也有人说可能GPT5就是这样的。我觉得maybe只是在现在看来这个问题还是挺难的。
季逸超 47:20
首先现在的现状是这样,很多人其实在尝试这条路,除了刚才雨宣讲到的jm na以外,其实我们刚才提到的video power一定程上也在做这件事儿。就不仅是文本,甚至还加入音频之类这些模态。但目前可能也会有一个比较不好的消息,就是直到现在为止,我们还没有一个确切的证据表明把多种模态一起训练能让模型的能力获得更高的突破。这个其实也是比较讽刺的。
季逸超 47:43
我们发现现在可能这些多模态模型主要的能力还是来自于它这个语言的摆动。未来可能会随着更多的数据更好模型结构可能会有一些改变。但目前来看可能更有可能的一个结果就是是多模态目前还是以一个类似于缝合的形式,或者你可以理解成外挂的形是去继续推进。比如说diffusion可能就负责在最后生成视频,而中间的话就像雨森刚才讲的,大模型可能像是一个导演这样的一个角色。我觉得这样的话其实也不是不行。对,依然是能往后去推进的。但是大一统这件事一定是大家去尝长期所追求的一个事情,只不过目前没有特别多喜报。
季逸超 48:17
这个东西从技术角度来说,首先一个根本的点就是语言它其实是离散的。而我们看见的比如说像图片,还有音频,它其实一个自然的连续的一个信号。所以那你首先就会有一个如何把所有不同的输入放到一个特征或者向量空间里头,这就是一个难点。语言的话,我们可能有像toko,niza直接把这个文本变成特定的token,然后变成bebelle。而你要如果有这个图像的话,你可能会有visual transformer进行encode。相对每一个模态,其实前面都会有一个单独的一个前置的一个条件。而如果你要把它所有这些东西放在一起训练的话,那其实还会除了输入端,你还会有一个更大的一个难盘点。
季逸超 48:54
说我该如何确定我模型的一个训练的一个目标。像比如说在语言模型训练的时候,我们都知道了我们要预测下一个单词,然后把fusion模型,我们知道我们要让他学会这个去噪,或者是预测出这个噪音。那么我们如何设计一个非常好的一个模型的一个loss或者一个任务,让它实现这个多模态的理解和多模态的输出。这也是非常非常难,其实非更值得去研究的一个问题。
张小珺 49:15
如果大一统模型能够实现,能够带来什么?它会是一个重要的喵子洞吗?
季逸超 49:20
其实现在也有比较初级demo,你可以说现在是实现了,但我没有看见一个明显的一个质的一个飞跃。但如果模仿长远的想象的话,我觉得这个样才能把很多不同的模态之间互不存在的信息所打通。比如说我们之前说LM的话,他是一个很聪明的盲人。那现在的SORA可能是什么?虽然很很会画画,但他没有一个脑子。但是很多事情我们在人完成日常工作的过程中,也需要多种能力的互相的结合。比如说自动驾驶,自动驾驶其实你要做出很多基于人性,或者说基于物理的一些判断,这方面可能是LM所擅长的。但是对于比如说外部世界的感知,以及对周围的这个物理运动这些信号的捕捉,这可能反而是这视觉模型所擅长的。如果我们有一套非常统一的一个多模态模型的话,那在一些需要结合这些的领域,比如说刚刚提到自动驾驶的机器人,也许会诞生出很多就现在做不到的事情。
戴宇森 50:11
我觉得这里边一方面就是说它不能是一个多模态,但是每个模态的能力都一般的模型,因为那样的话可能对我们就用途不大,各个模态可能它首先要远超人类水平,这样它才能成为人类的帮手。第二个班就在想,实际上如果你是从工具的角度去想一个事情,一个工具往往是越专越好,对吧?比如说你专,但是你强,所以你比较好啊。但是如果你从他作为一个主体本身,就比如他如果真的要实现所谓大家想象中的这种自我意识、进化去学习,那他有更多人的这个模态的能力,对这个主体本身来说是一个好事儿。但是他如果就是我们的工,那实际上你只要在这件事儿干得很好,对我儿子就很有用,对吧?你别的可能除了这种非常融合的任务之外,你可能就不太需要你会那么多。我觉得可能还是从具体的场景去用,因为AI这里面至少在目前看来,我们还是希望它能够带来这个实际价值。
季逸超 51:06
对,没错,这个我在顺着李森刚刚讲的补充一点。就是当所有的模特更大一统之后,也会带来更大一个问题,就是你的系统变成了一个更加密不透风的端到端的黑客。那其实对于很多场景下,它的可解释性会进一步下降,可控性也会下降,所以也会带来新的问题。所以AI这个东西也并不是说我们一定非要追求一个完全通用和完全的大一统。这还要看场景。
张小珺 51:26
你有没有可能就是大一统不会实现。
戴宇森 51:28
我觉得现在很难说什么东西不会实现,只能讲什么东西比较难一点。
张小珺 51:34
你们对GPT5会有什么样的预测和猜想?或者4.5,今年应该是4.5。
戴宇森 51:38
五还有一种说法就是如果的进步过大就叫他捂,进步不够大就到4.5。我觉得有的方向大家比较确定的,比如说pollution也会更少,可靠就会更高。包括像这种使用工具的这种说A键的方面能力会更强。也有人说可能会能够去操纵一些人们用的界面,比如说电脑或者直接就有点像那个vocation那种。也有人说可能是偏多马太类型的。
戴宇森 52:00
我觉得其实现在在这个下一代模型训练的一些方向上,大家其实普遍还是有一些共识的。比如大家觉得商业文长度很重要,不一定生成,但至少理解的能力很重要,对吧?减少pollution很重要,提高inference的效率,使用起来比较快,这些其实都是比较重要的。
戴宇森 52:18
我觉得就是说这里面OpenAI能把它推多远,我觉得sora其实给了大家一个很高的期待。因为在年初的时候其实是有一个叙事,其实这个模型是不是已经到了个瓶颈期了?因为我觉得去年实在是太精彩了,所以大家有一个很高的期待,每过一段时间都要有一些很刺激的一些东西出来。
戴宇森 52:37
本来大家觉得是不是今年上半年可能没有那么多刺激,可能4.5也就是比四好一些。但是扫码突然想出来,他说知名时间提高了这么多,那是不是我们对于我的这个期待会高很多呢?我觉得其实我们现在要画这条曲线,其实我们的数据点还是比较少的。你想GPT12大赛主要还是关注3.54,所以我们猜现在也有三个数据点对吧?接下来数据点点在哪儿?我觉得大家会对这个曲线之后长什么样子会有更多的预计,今年也很关键,因为大家今年砸了这么多钱下去,大家会根据画的这个曲线去预测未来。大家一般都是说做一个线性或者指数外推。
张小珺 53:13
有没有计算过去一年全球在大模型上面砸了多少钱,国内砸了多少钱?
戴宇森 53:18
国内应该是百亿美金规模,对吧?你把差不多这些家的融资7788加起来就是几十亿到百。
张小珺 53:25
亿美金的加大的投入吗?
戴宇森 53:27
当然也加。对,但是我们就是说看你是百亿美金,全世界的范围内最高额融资加上又有几百亿,或者你就看英伟达的收入,你看英伟达卖了多少显卡,对吧?包括给大家发了多少工资,所以我觉得大概这个量级是在这儿。我的一个技术假设就是说不要用静态的眼光去看需求,因为我们在这种科技大变化的时候,往往经常犯的错误就是我拿原来的需求去线性外推。但实际上AI如果一旦做成,带来的价值是各行各业都有可能受益的,它是一个非常通用的技术。
戴宇森 54:00
第二,它是一个革命意义非常容易理解的技术。因为只要你受过教育,你大概就能明白AI有什么用,元宇宙web 3有什么用。大家可能还得想一想,AI有什么用是基本上不言自明的,只是说能不能做出来,什么时候做出来。
戴宇森 54:13
第三,我觉得就是随着这些先模型出来的能力,所以哪怕当应用落地没那么快的时候,大家其实都不敢去错过这样发展的机会。尤其是比如说像美国有的这种头部公司,他们是有非常多的钱,他们一年回购就上上百亿美金。对他们来说,用百亿美金级的钱去进行一个前沿技术,一旦做成会有很大突破的探索,是完全划得来的。所以我是认为投钱、投人、投卡,军备竞赛会进一步的加剧。但是我觉得对于应用落地的速度,我觉得不宜特别乐观。说到底它目前也从ChatGPT发布开始得到大家的重点关注,也就是一年有三个月的时间,到现在为止,我们还是要一个应用的开发,一些比较合理的期待。
戴宇森 54:59
其实你想在在拨号上网的时候,就有了IM电子邮件、电商,甚至是游戏,甚至是线上看多媒体内容的站点。互联网是一个百代网宽带网,网速越来越快,它变得越来越有用的过程。但AI如果作为人的助手的话,它一定要突破一定的阈值才变得有用。我们没有人愿意招聘一个智商80的员工,我们也不愿意招聘一个智商90的员工,一定是在突破到一个100的时候,大家才愿意去使用。所以AI的进展是具有突变性的,在这突变之前可能经历的时间是比较长的。
戴宇森 55:30
比如说你看第一次打卡的自动驾驶挑战赛是在05年,到现在已经快20年了。就自动驾驶这条路线,其实它使用场景很确定,中间发展也一直在发展。但是直到现在,可能我们说终于才开始说自家有了一定的的使用场景和商业化收入。在过去其实投了非常多的钱,非常多的时间,所以这个应用落地的速度倒未必有那么快。但是我是觉得在这里面,基建首先会是一个非常重要的主题,因为这是一个不管从公司国家的角度都无法错过的机会。
张小珺 55:58
基建需要到哪一年运?
戴宇森 56:00
我觉得你可以用一个互联网,大概当时是有一个接近十年的周期的。假如我们说互联网泡沫,当时其实是从90年代初开始,到2000年破掉,我觉得这个周期其实是需要一个比较长的时间。
张小珺 56:18
很多公司都是泡沫的时候出来的。
戴宇森 56:20
其实我们一直在说泡沫不可怕,我们泡沫会带来重要的基建,基建会为未来的应用打下基础。泡沫中死掉了,99%会死掉,但是1%留下来的可能就是伟大公司。其实互联网泡沫这个破灭之后,留下来的像亚马逊、google, 当然现在雅虎不行了,但是当时雅虎也是存续了很长时间的,就这些也都是留下来的伟大公司。其实我觉得现在我们还远没有到达泡沫比较疯狂的时候。因为你看互联网应用,互联网的真正的高峰来自于第一波互联网native的应用真正的落地,真正的上市的时候。比如说网景、雅虎、亚马逊、google. 其实这些应用当它真的落地了,真的有很大的需求,才会产生最后的大泡沫。现在大家都还是在基建的阶段,当然我们不是说泡沫是一件好事,但是我觉得泡沫是不可避免的,这边一定会有很多探索是需要去进行,很多钱是要浪费的,就是泡沫破裂之后活下来的这个公司是有可能变得非常伟大的公司的。
张小珺 57:17
在互联网基建的过程中,哪些投资人挣到。
戴宇森 57:19
了钱好问题,应该很多人都挣过很多钱,但是要看他们泡沫破裂的时候跑的快不快。
张小珺 57:25
那为什么不等到泡沫破了再开始投资呢?
戴宇森 57:27
我觉得第一点就是说首先在泡沫过程中会伴生,能够在泡沫之后仍然活下来,并且成为伟大的公司。就是说如果你在互联网泡沫之前你完全不投,你也会错过像亚马逊,像google这样的公司。第二,我觉得是在这个过程中获得的对于这个行业的认知其实是非常重要的。就比如说如果你在之前一直不参与互联网,那你05年的时候可能也投不到facebook。你很难说我只吃最后一个包子,我吃第五个包子饱了,我前面四个不吃,这个是很难的。第一要对泡沫有定位,第二泡沫真的破了之后,也不要彻底失去信心,这个是我目前想的一个。
戴宇森 58:07
但是我觉得AI这一波的其实还是有非常多的很实际的应用。说白了它在很多领域,像ChatGPT,包括之前小米的这些应用,以及像索软。你可以很明显的看到,就是它不再是一个纯概念的东西,就是说它肯定是有很多东西能够留下来的。
张小珺 58:24
你过去一年投AI投的非常多,你对于自己的要求是什么样的?多少钱应该分配在基础模型公司?多少钱应该分配在应用?
戴宇森 58:32
我们投了两家基础模型公司制定的月之爱面和老王的关联之外,当然了搞完后来就身体出了一些问题,比较可惜。我觉得大模型确实是一个,这是里面非常让人激动的基础建设。那确实也是个非常消耗资本的游戏,所以我们还是非常谨慎的应用。
戴宇森 58:50
我觉得肯定会有很多很有意思的机会,但是现在肯定还比较早。比如说我们做好了投到一个校内网或者是99房的这样一个机会。因为现在肯定很多的优秀的创业者会开始做。但是他们做了第一个应用,甚至第二个、第三个都未必是他们真正的整车工作。当然我们运势是天使,所以我们做好了这样的准备。所以我们就在想这里面可能比较什么样的人是有可能做出来的。
戴宇森 59:14
但我们觉得第一对AI技术本身要真的很懂,当然不一定是它是个research,但至少你是要真的懂AI第二我觉得要有国际化的这个视野。因为现在其实确实创新发生在国外的有很多,它不像比如说当时互联网到了后期,很多都是这种o to o,都是比较中国特色的商业模式。那现在其实还是一个人全球一起在探索进展的时候,所以它的国际化的视野这种能力就有要求的。
戴宇森 59:40
每一代人都有每一代人的使命,我觉得在这里面年轻是一个很重要的变量。专家跟广密讨论,互联网投70后,移动互联网投80后了,这个AI投90后,当然这个并不一定卡那么严,但是你会发现,其实因为人就一般都是在30上下。最有创造力,就有这经验加上颠覆的勇气。所以我们是一直是觉得正常年轻人中常AI native,正常有国际化视野的这样的一个人。
戴宇森 01:00:08
但我们确实觉得AI创业跟互联网创业有一些不太一样的地方。尤其是我们移动互联网的时候。因为这个时候基础设施已经建得很好了,所以那个时候有很多人就在车库里面几个人搞几个月就把这个应用做出来了。因为这个应用做出来之后,可以快速的获取用户,建立起网络效应这些壁垒。所以你发现在互联网里面,第一小团队做出来的大东西,有很多这样的例子。同时非常的对于idea很看重,因为它的发散方向非常的多,对吧?那我觉得现在其实对于AI的公司,因为它的数据算力团队的成本都比较高。并且AI从开始到足够好到让能带来商业价值,可能持续的时间比较长,对吧?
戴宇森 01:00:49
自动驾驶。我们已经看到了咱俩做了这么久时间,终于才开始产生一点收入。这个过程比互联网的过程要长很多。所以我们觉得这对于团队的综合能力,不管是说他的这种技术能力,还有融资能力及团队的完整程度都是有很多的挑战的。
戴宇森 01:01:05
他可能跟互联网到中后期的那种百花齐放,万众创业的情况可能不太一样。就这时候创业门槛还是比较高的。但是我相信随着AI的基础设施建设越来越完善,大家对AI越来越的了解到后面当大家把这些路都铺好了之后,可能做AI应用也会变得越来越简单。因为现在比如说你要做个应用,你还得考虑模型的事情,你得考虑互联网的事情,你得考虑怎么样跟巨头竞争,怎么样搞数据。就你有很多需要去考虑的东西,所以我觉得现在做应用肯定还是比较早。
张小珺 01:01:34
对于大模型公司,其实市场上有好多家。为什么你当时选择这两家投资?
戴宇森 01:01:38
我们就是投最优秀的老司机和最好的小天才。其实老王和直隶都是我们关注了很久的创业者了。
张小珺 01:01:45
那为什么不投更多的人?
戴宇森 01:01:46
都有的时候也都是缘分。知音其实我们是第二次投了。对,之前我们就是urrey的天使,老王也是跟老王也认识了非常久,也就非常一直都想跟老王以某种方式合作,我觉得这个真的是非常需要很多资源的投资,我觉得这里面还是与之前的缘分有很大的关系。
张小珺 01:02:04
为什么不全投一遍?
戴宇森 01:02:06
也许有了更大的基金会采用这样的策略,就事后你知道谁是淘汰赛的选手,但你之前也未必你知道谁能走到淘汰赛,你要把进淘汰赛的选手全投一遍,你就得在资格赛全投一遍。除非你能够一开始就开天眼,知道谁能跑到最后。
张小珺 01:02:21
对不对?现在谁被淘汰了吗?
戴宇森 01:02:23
没有吧?你现在得融到足够多的钱,有足够多的数据人,第一梯队还是比较明显的。
张小珺 01:02:29
对,因为这两天刚刚完成了一笔非常大额的融资。
戴宇森 01:02:32
我们也恭喜直隶。
张小珺 01:02:33
国内大模型占据,那意味着什么?
戴宇森 01:02:36
就现在月账面这一笔肯定是目前最大的一笔。当然我也知道大家或者都融了几亿美,但这我觉得确实就到了一个淘汰赛阶段。如果你没有几亿美金在手,你可能确实要做基础模型就比较难。我觉得这对他们当然是一个非常重要的里程碑。但是只能把这个钱用好,我们对指令还是非常有信心的。
戴宇森 01:02:54
我觉得他在这个过程中呈现出来的,从顶级的researcher到对于创业的组织产品。因为你刚刚也跟他聊过,我想明天肯定不只是说对技术的洞见,对技术的微信而言,包括很多对产品,对组织的这些思考,我觉得是非常重要的一个进化。我确实相信一个够年轻,够对技术够专注,并且真的是从一号位开始对技术有一线的理解的团队,会能够吸引更好的人才。更有可能在一些技术的方向上,一些技术能耗上有更快的突破。确实是我觉得就我们从人的角度比较相信的,因为我们都不是这个领域的专家,我们只有从一些创业本身的,可能我们认为第一性原理的东西去谈。
张小珺 01:03:36
你陪伴他时间很长,你有发现他身上的一些变化吗?
戴宇森 01:03:39
我记得有一次跟他吃饭,他其实提到了很重要一点,他不希望以后大家提到至今始终是说他是个技术大牛。就是他希望是一个很好的企业家,做出了很好的产品。我真的觉得我们因为我们投过很多技术很厉害的人,但是能完成转变的其实没有那么多,对吧?但我觉得认识到这一步很重要,是完成转变的非常重要的一环。
张小珺 01:03:58
挺有意思的这不光是国内。
戴宇森 01:04:00
我觉得美国其实也是。比如说你想一些可能没有融那么多钱,或者在这个过程中模型没有太明显自己特点,这在通用大模型这件事情上我觉得就会掉队。其实我一直觉得讯通用大模型这个事情很像做芯片。其实如果我们去看,当时在做互联网,做PC处理器的时候,很快就只剩下intel作为龙头。因为做芯片和做大模型都需要低很高的技术难度,很多的资本开支投入,对吧?他要投入大量的钱去造新原厂,它是一代一代迭代的,你但凡你1到2代没有跟上,你就掉队了,而且消费者只会选择最好的,你有个最好的处理器,为什么买第二好的呢?现在这个模型其实就是AI的处理器。
戴宇森 01:04:39
好,我们看到比如说在这个里面,intel跑出来之后,后面有三类玩家采用了3种策略。第一种策略是AMD,就是说我跟你兼容,但是我比你便宜。我觉得在这个模型里面,其实是会有以成本优先作为考量。很多地方我不需要有最好的模型,我需要有一个还可以,但我比你便宜很多的很多开源模型,或者做这种在某些能力上做一些取舍,可能是这是一种。
戴宇森 01:05:01
第二种就是像ARM,我做低功耗,我可以做功效做的很低。所以我在手机上,你intel是这个CPU是很牛,但是你不能装在手表上,所以我是做一个就像这种以功耗取胜,以这种耗能取以这种尺寸取胜,第三种可能就是像当时的英伟达,当时英伟达说我要做GPU,而且我的GPU我是要做并行计算,跟你的这个CPU是完全不一样的架构。你的CPU你一开始处理这个图形只是处理器的一个工作。但是后面这个专有的一个垂直领域的任务变得越来越大。所以现在因为大家成为世界第三大公司,如果对应到模型上可能也会有。
戴宇森 01:05:35
第一就是说更加经济的模型。第二地下尺寸小的模型,对吧?现在大家说就在在端侧做对应的模型计算对吧?第三就是比如说可能我在某些大模型有但是你不够精的能力上,我就专门把它做的特别精致。比如说你大模型可能在这个finance上面,可能你不是个专家,对吧?那我finance做的特别好啊,这可这也可能是有机会的。但我觉得做通用模型的这个事情,不应该用很多玩家一直在做这通用大模型,就跟我们不会有很多intel或者很多media一样。
张小珺 01:06:05
这大模型公司的出路会是什么?
戴宇森 01:06:08
不管是美国还是中国的。我觉得如果真的达成了大家说的就是说智能本身成为一个应用重要的驱动,那么理论上大模型公司是可以从它产生的价值里面去收税的。我认为归根到底,一个公司首先它能不能帮助别人创造价值,以及他从创造的价值里面他能不能收取一部分。这其实是这核心逻辑。现在是大师,如果大模型虽然现在还不能收税,但总有一天他会能够从里面就去收税。
张小珺 01:06:34
所以他是自己可以让起来的一家公司。
戴宇森 01:06:35
我认为肯定是啊,有可能是说你最后还得做自己的应用。比如说你看志林上次的一个采访,我觉得他的角度可能就说他想做OpenAI加自己。就是我不仅有模型,我还有最好的这个应用。但是你看OpenAI跟这个微软的结合就很紧密。我觉得OpenAI现在就像是个超级大脑,但是他没有身体,他的这所有的身体,比如他的这些训练的info,它的很多东西都还是在微软给他提供的。所以他们等于是一个非常强的组合。只如果说AI真的给大家创造了很多价值,那么那些大模型公司的智能又是创造价值的核心来源,它就应该能够从中受到足够多的take rate。
张小珺 01:07:07
你们会觉得自己是技术信仰派吗?如果分成技术信仰和市场信仰。
戴宇森 01:07:12
首先我不是一个CS背景出身的人,所以我肯定对技术我觉得肯定很难谈信仰,我觉得我肯定也不配谈。但我觉得我就归根到底我是觉得一个技术它要创造价值的,一个好的研究所和一个好的公司是不一样的。OpenAI其实一开始也是今年他一开始是个研究所,它开始的几个重要的研究项目,比如说研究机器人转那个魔方的,或者dota 2,其实都是很有意思的项目,但是最后都没有变成一个商业上的产品。其实OpenAI最后的蜕变,其实我觉得也是发生在mta来了。对,还是专心搞这个语言模型,推出了ChatGPT上面产品之前。
戴宇森 01:07:43
我记得2016年的时候,AI弱是因为阿尔法go击败了李世石,对吧?那个时候大家觉得围棋公认什么人类最难的运动居然被攻克了。但你想16年到现在,八年过去了。不管是deep mind这个组织,还是说是用于reinforce learning?强化学习这份工作,其实它的商业价值相对是有限的。包括像波士顿动力,机器狗做了几十年,这个双重机器做了几十年,它其实也没有把它成功的产品化。所以我是觉得我是比较相信伟大的公司,可能不是伟大的研究员,是伟大的公司需要创造价值,是要做出好的产品。好的技术能够是好的产品中重要的一环,但是同时也是非常需要有做产品的人,做商业化的人去把它进一步的完善。
戴宇森 01:08:28
我再举一个例子,就是其实ChatGPT这里面把原来的这个GPT对齐成一个chat的形式,其实是一个很重要的产品一个革新或者创新。但现在大家觉得理所当然。但是一开始的GPT是一个auto complete,是个自动补全的模型。所以他没法跟你对话的时候,那这个时候你就离开他使用就很难对吧?就是你无法跟他产生那么多互动。当人对话的时候,你发现用户跟他的互动变多了,又会有更多的input。然后同时对他的给出的结果有更多的feeding。
戴宇森 01:08:57
比如说我们现在看sora其实也会有类似的这个我就是sa现在就生成一个视频没了,它跟用户之间是没有什么互动的。但我想如果sora从一个类似于GP的时刻到ChatGPT,那我们它可能也需要一种它比较专有的产品形态,让用户能够跟这个模型进行某种情况的互动。这样来说,用户不是说生成一个视频就完了,而是说他后面会有很多的后续。所以这样产品的话,我觉得始终都是非常关键的。
张小珺 01:09:22
国产大的模型今年还会有哪些预估吗?比如说在能力上,如果这些公司一直都没有产生一个特别牛的应用,它只有特别牛的技术怎么办呢?
戴宇森 01:09:31
最后要到达很牛的应用。但是在这里面技术上可能就像我刚刚说的,如果这个人智商80,你再怎么培训他他也不太可能成为一个好的应用。确实我觉得在这里面我们要避免一个陷阱,就是在技术还不够好的时候过分雕花。因为比如说当当在去年有很多人在研究,怎样用一次只能生成4秒的视频生成模型去生成很多预告片,把它变成个一分钟的。大家研究了很多的技巧,但所有这些技巧你可能在来了之后发现不需要人家直接生成一分钟的视频。所以我是觉得确实像三胞胎们,他有一次分享的,你得假设有一个神一样的模型总终究会出来,在这种情况下我能做什么样的应用。所以说你是不是做出神神模型的,还是说你是用那个神祗模型的,可能不太一样。所以我觉得现在的很多应用可能是给我们带来很多灵感,很多pro type。
戴宇森 01:10:19
当然现在应用落地,我觉得肯定还是不够完善的,我再举个例子,比如说在手机上看视频。因为我在0几年的时候,我在那windows mobile one上看过视频。但显然在手机处理器速度和网速的情况下,你能想到抖音,你也做不了抖音。抖音一定是在你有了4G有了iphone,比如说六之后,有了足够的硬件软件算力之后才能做抖音。所以我觉得可能说技术得先行。所以我是觉得当然我不太喜欢用AGI这个词,因为这个词非常宽泛,可能每个人定义不一样。那你至少对AI的能力的前进,我觉得这个首先还是现在当务之急。
张小珺 01:10:52
你怎么看待那些不投技术大模型的投资人。他们想最后来收割应用,他们不想参与这一波。
戴宇森 01:10:57
我觉得投资就是一个你有各种办法赚钱的一个行业。完全有人比如说他就不喜欢大模型的这种非常资本密集型的形态,我觉得完全可以理解。因为我们的核心逻辑还是说投最优秀的人,就最优秀的人干什么,他是不是愿意去解决一些非常难,但是解决之后价值很大的问题。确实有很多稀释,对吧?但是我觉得符合我们的第一性原理。但可能有的人就是要投那种我就要占十个点,像大冒险可能占不到这么大的股比,你们会稀释很多,那可能就投不了。我觉得每个人都有自己的风格偏好。
张小珺 01:11:30
这笔交易如果没有挣很多钱,对你们来说重要吗?
戴宇森 01:11:34
作为一个基金来讲,挣钱肯定是我们最重要的给LP的一个使命回报。对那就像我说的,比如说如果比如说你像当时SIG投了旧旧房,旧旧房没挣钱,但是因为投了99房,谁能投了自己怎么看待99房的投资呢?还是那句话,你是不是能够只吃第五个包子呢?
张小珺 01:11:50
你们也接受越这个案件可能是张一鸣的99房.
戴宇森 01:11:53
如果我能够投到下一张,然后99房至少你会离投资者可能会更近一点,对不对?当然这都是很理想的情况,但我们一直相信的地信原理就是说你支持最优秀的人,那最优秀的人自然而然不一定住在某一个人,但是这群人整体应该会跑赢这个市场。
张小珺 01:12:08
这是基础。大模型公司。那应用应用在国内你投了哪些?现在是一个什么样的状态。
戴宇森 01:12:13
下载PPT出来之像我们比如说黑键奥tas这些应用是我们在21年左右投的,现在他们也是就在全球市场上应该也是有个几十个million AR,然后用户涨得很快,就可能也还比较火的应用。大模型出来之后,我们能够公布的投资里面,像莫妮卡浏览器插件和独立的APP,其实也是一个用户增长的非常快。并且现在盈盈利,并且创始人也是我们投了第二次的连续创业者。他其实也是想除了这个浏览器插件和应用之外,他还想找个更大更长远的方向,当然我们还有一些应用公司现在还处在比较style more不太方便披露的。我觉得这也反映了我们比较典型的就是说这些人对于新东西非常的敏锐。
戴宇森 01:12:51
往往有海外的背景,因为现在的AI产品一上来其实就是国际化的,刚才说的这几个产品其实都是在全球范围内。因为大模型本身就是国际化的对吧?所以它可以很好的去帮助大家去使用。其实我今天在想一个问题,第一种情况是我能做一个好的模型,但能做这件事情的人少之又少。第二种就是说假设有个好的模型,我怎么样做模型的代入党,怎么样能够帮助大家把这个模型比如说用的更好。因为模型本身它还是一个基础生产的资料,但比如说可能它不一定是有最好的界面,不一定是有最好的这帮你生成prop的能力,不一定是最好的交互。那我怎么样帮助你变得更强大?
戴宇森 01:13:26
这可能也是很多做应用的这样的技术。因为现在很多人问这个应用是不是就是模型?我觉得这模型肯定是很大的一块,但是显然有的应用是可以做一些模型做不到的事情。比如说假设有一个应用是需要多个模型串联使用,甚至是多家模型串联使用,那单纯的某一个模型可能都做不到,对吧?所以我是觉得怎么样把模型变得更强大,就做模型的代入的这也是一个我们现在想的一个思路的。
戴宇森 01:13:49
怎么样能够帮助大家把这个模型比如说用的更好。因为模型本身它还是一个基础生产的资料。但比如说可能它不一定是有最好的界面,不一定是有最好的就帮你生成probe的能力,不一定是最好的交互。那我怎么样帮助你变得更强大?这可能也是很多做应用的这样的技术。因为现在很多人问这个应用是不是就是模型?
戴宇森 01:14:09
我觉得这模型肯定是很大的一块,但是显然有的应用是可以做一些模型做不到的事情。比如假设有一个应用是需要多个模型串联使用,甚至是多加模型串联使用,那单纯的某一个模型可能都做不到,对吧?所以我是觉得怎么样把模型变得更强大,就做模型的代入的这也是一个我们现在想的一个思路。的应用。
张小珺 01:14:27
爆发了没有?
戴宇森 01:14:28
我觉得还早。你从用户数从用户使用的这个时长,从用户的retention的角度,你只能说比如说在t GPT肯定是爆发了。比如说在海外有一些microsoft copilot这样的这种企业里面的应用,我们也看到也逐渐的开始使用,人变得越来越多。但是,目前可能应用都还处在比较早期的这个阶段,而且我们毕竟还是在第二年,所以我就觉得这个时间还早。
季逸超 01:14:51
我觉得讲的也挺全了。我们有时候还会类比一下当年移动互联网。那个时候,大家可能会觉得iphone时刻是一个很重要的一个起点。但其实我当时也是亲对的那一段。真正意义上来说,其实你后面还有两个节点,一个是生态,你可能得等到APP store,这才是真正开始的那一刻。而目前来看,比如说我们知道GPT有GPT store,但是它其实还完全不能跟APP star类比,所以整体这个生态分发上,我觉得还差很多的时候。
季逸超 01:15:15
然后后面还有一个时刻,其实iphone 4时刻就是真正搭的设备到了一定的程度。这类比到现在,也许是比如说你可以说VVR的进步让这个推理的成本进一步下降。或者说比如每个人的端的算力到了一定程度,能让更多应用和模型能跑到大家的这个电脑上更低成本去运行。甚至后面还有很多很多这种就是移动互联网。我们现在可能就很笼统说过去十年跟着其中是一个一个节点去往后走的。
季逸超 01:15:38
甚至比如当时移动互联网出来之后,我们很多人觉得以前在桌面端做的广告也没有那么好在手机上去做了手机屏幕这么小我怎么去把这个广告的模式迁移到移动平台上。但后来大家也有了原生广告,有了信息流,逐渐移动互联网的应用才开始爆发。那现在我们看,其实AI盈利的模式可能也现在还比较单一。比如说直接就是订阅制,其实还有很多商业模式在上面的事情也在探索的过程中。所以就种种迹象上都表明,现在我们可能真的是处在以移动互联网的类比,可能是1 0708年的一个时间点。离大家所熟知的一二年往后,其实可能还有五年的时间。当然我相信这次也比会更快。
戴宇森 01:16:13
我觉得在现有的范式下,AI应用它可能利用出现有用的时间点会比移动互联网要慢。因为它需要模型到达一定的能力程度,它才能从没用涌现成有用。但是当它一旦变得有用之后,它的扩散速度可能会远快于移动互联网的应用。就像ChatGPT在越过了有用的那个门槛之后,它立刻就成为历史上过1亿用户。最快的应用。
戴宇森 01:16:41
因为移动互联网,包括互联网当时网站和应用的扩散,其实它是一个软件和硬件都要扩散的过程。你没有智能手机的扩散,你就不可能有移动互联网扩散。而硬件的扩散其实是时间更慢的。硬件你得生产,你得升级,你得卖给每个人。但我们现在看的就是,只要说这个设备没变化,但是还是跑在手机上。如果你有一个新的AI应用出来,并且它足够有用,可能就一两年的时间内就席卷什么几亿人手机,因为基础设施已经打过了去。
戴宇森 01:17:10
看历史上新技术出来的时候,一般都是先是用新瓶装旧酒,是用新技术去解决老问题。不互联网刚出来的时候,首先是比如说原来有报纸,现在是互联网报纸,就是门户网站。原来有商场,现在是互联网商场。作为自营电商,原来有邮件,现在就有email,但是当这个技术扩散到越来多的人拥有或者说熟悉这个技术的时候,就有可能产生全新的商业模式。并且这些全新的商业模式一般是由创业公司来做的。
戴宇森 01:17:40
比如说当人都上网了,就开始需要有social network。因为你要找人,所以就有了像facebook,但还有my space这样的social network。当信息都上网了,你就得有全新的找信息的方式,所以有了搜索引擎。当商家和买家都上网了,所以就有平台电商,这些全都是全新的创业公司做的。
戴宇森 01:18:00
当移动互联网发生的时候,大家其实也在想,比如说我要做移动的浏览器,因为原来有浏览器,我要做移动浏览器。比如PC那时候做了猛犸浏览器,但是发现你很难做过已有的玩家,所以移动的浏览器还是chrome。后来又有人说做个移动的搜索引擎,当时pick又做了移动的搜索引擎,就发现移动的搜索引擎还是百度和google。但是你看比如说当比如说内容生产者和消费者又都拥有智能手机之后,才会出现像抖音、小红书或者这样的机会。当蓝领工作者都有了智能手机之后,才会有滴滴,才会有美团这样的机会,对吧?就它也是一个智能手机加4G扩散之后带来的结果。
戴宇森 01:18:33
AI你看现在也是有了AI所以原来我们要写文章,现在AI写文章,原来我们要画图,AI画图,原来我们要生成代码,像AI写代码,我觉得现在又进入到了一个新瓶装旧酒的阶段。新瓶装旧酒是有可能有创业公司的,但同时也会对原来就干那个旧酒的,它有很多的优势。你比如说你github对吧?我原来是有最多代码,那我直接把AI加上去就是最多代码,包括微软。但是我们如果这样进一步推理,比如AI的渗透率到达一个程度。比如说你我pick我们都有我们自己的真的AI agent,就我们真的助手帮我完成很多事情。
戴宇森 01:19:07
那这个时候可能我们比如要有这样一个采访,或者有这样会可能是完全不同的组织方式。比如说现在消费的绝大部分内容都还是人产生的,或者是人来合在一起产生。但如果绝大部分内容都是AI产生的,我们的内容消费形式,包括分发形式可能发生什么样的变化?所以现在世界上大部分的价值还是人创造的。但如果大部分价值是AI创造的那人和AI之间怎么去共处?AI与AI之间怎么去协作?我觉得那个时候可能就是全新的商业模式,包括像机器人这种。
戴宇森 01:19:37
所以为什么我们对长期创业公司可能出大东西有信仰?哪怕现在我们看到的只是说新瓶装旧酒,AI写文章,AI画画。是因为我们觉得技术当扩散到一定程度,它产生的这种全新商业模式,其实才是真正的大机会。
张小珺 01:19:50
去年看到哪些不靠谱的机会。
戴宇森 01:19:52
我觉得很多机会不能讲不靠谱,而是说太早。其实我举个例子,你如果很有远见,你在黑莓时代你说我要做个抖音,未来肯定会有抖音。你也许对的,你就是太早了。其实我们很多时候就是先烈和先驱,只有一线资格,很多时候其实他只是做早了一点。所以我开始有一个整体的看法,就是对AI的发展要有耐心。始终你会发现短期高估,长期低估。比如说当有人看到说了就说物理世界物理规律要失效了,我觉得肯定就太快了。
戴宇森 01:20:17
对,就是移动互联网让大家觉得,比如说一个应用几个月就做出来了。因为移动互联网时代大家看到了一个应用很快,几个月之后有100个超它的。因为超一个应用就很简单,所以大家可能奇怪的用这种速度去思考问题。那可能就会发现,是不是AI这个模型出来,我一年之后我也要有,但实际上可能就是同的一个时间节奏,所以我觉得往往很多不靠谱,其实不是说那个事儿不靠谱,而是说它太早了。
张小珺 01:20:41
每一次OpenAI的升级会对于VC来说是有一个大的投资调整吗?
戴宇森 01:20:46
我觉得肯定具体操作上还是会有很多的。就比如说我觉得一直以来就是说创业公司你不要站在大厂的这个主航道上。我一直打个比方,就火车,火车在它的轨道上你要去拦他,那肯定不靠谱。但留下的轨道之外,因为它们脱离轨道会比较难。
戴宇森 01:21:01
我觉得肯定对很多做视频模型的公司,这些都会是很多的挑战。但是我觉得其实反正我觉得都有更多的机会。因为你看到这个AI的能力在变强,AI能力在变强越大它有可能解决更多的问题,产生更多的价值。而这些价值很多时候是会被创业公司所获取的。如果AI它很弱智,它这个模型没有进步,那创业公司你不会被他干掉。但是AI就没有价值了,那反而是我们更不愿意看到的结果。
张小珺 01:21:24
绿色pick你们去年一年的是什么样的工作状态?更忙还是更闲?
戴宇森 01:21:28
去年肯定是比之前要忙很多的,当然也是因为去年reopen,整个大家也能忙得起来。当然最核心的是AIG里面有太多的东西需要去读去学。其实原来投个消费,投个移动互联网,你不用去读paper。我像去年不是说很多大佬都是自己下场读paper,确实我跟Peter我们有个内部读paper的小组,就当时帮我们实际上七八个人。我们那时候不是还写公众号做那个测评,我们经他还开周会讲讲他们信心的配合有什么说我觉得这些对于很多我们原来投TMT的这些投资人来讲,其实因为我们这个是专家,就我自己肯定不是专家,我们是属于journalist。所以这方面是有很多基础需要去学习的。但我觉得很有意思,我认为创新有的时候是有一些类似的规律。我们经历过互联网、移动互联网的创新,也研究过一些创新规律之后,我觉得在又来到了一个创新的早期,我觉得有很多是可以去借鉴和通用的。
季逸超 01:22:19
我觉得这一波AI开始跟我们之前有一个特别大的一个区别,就是以前的AI无论是从爆发的这个时间,你可能感觉到它是一个缓慢的释放的。就比如说当时这个AS4小龙,其实我们现在来看也都是CV4小龙。比如那个时候可能是reconnect,导致图像领域的工作要word起来,你也要具体细分。比如有的是做人脸识别,有的做目标追踪。而现在特别大的一个区别就是以ChatGPT为首,它可能真的是一套技术解决了很多很多以前LP领域不同的公司,或者说不同人擅长的东西。
季逸超 01:22:49
所以现在的AI无论是业界还是学界,其实大家的注意力都在高度的集中。这就导致比如说我们要跟踪这些进展的时候,其实我们也在逐渐的迈出自己之前舒适的这个领域。像比如说之前我会说我是做信息抽取,我是做知识图谱的。后来逐渐跟大家介绍的说,我是做LP的。但现在其实逐渐可能大家要都在往多模态的一个方向去汇集。所以现在可能对于每一个创业者来说,他手上的工具箱是前所未有的丰富。但是对于每一个技术专家或者researcher的话,可能也要求你要更加了解整个大的一个行业。所以都是一个机会跟这挑战并存的一个时间点。
戴宇森 01:23:24
我觉得对于绝大部分VC来讲,你尝试去判断技术是很难的。是我们就从我们投资哲学上就放弃了对这点的判断,当然我们要去学习技术,了解大家在关注的重点领域是什么,你这个领域目前大概sota是什么样的,包括大家在关心什么样的问题。但我们始终认为我们不可能比直营他们懂技术,我们的肯定是远远不如他们懂技术。所以我们最重要是要找到最优秀的人,让他们带领我们去看到未来的可能。因为我觉得有很多投资人去讲,为什么?但是我想既然大部分人都没有预测到ChatGPT的出现,那其实可能大部分人也没有遇到过做法这么快的出现。其实很多时候我觉得还是要关注在驱动技术发展的一些根本的东西上。
张小珺 01:24:05
今年全球和国内预计还会有多少钱进入这个领域。
戴宇森 01:24:09
我觉得比去年多一个数量级是有可能的。
张小珺 01:24:13
国内的钱从哪儿来呢?
戴宇森 01:24:14
从VC的角度,财务投资基金的角度是会难一些。但我觉得从战投,不管美元的、人民币的,其实都还是有很多钱再继续加码。只是说可能就去年出来的下注阶段。那现在大家可能对于比较有信心头部的公司能够更多的重注。一个数量级并不说就会十倍,也许多两倍、三倍,这也属于一个,但我认为肯定是大幅增长的。如果去年是百亿美金。今年我觉得肯定是千亿美金金,非常毛估估的一个计算了。就是从买卡去不去训练招人这个阶段。
张小珺 01:24:42
做到以后。
戴宇森 01:24:44
因为好的创业者都会有对未来的vision,这个vision并不一定是一样的。我觉得可能比如有的是想做通用的,有的可能是在磨砺班要求专用的,有的可能是要把成本做低的。但我觉得目前来讲,首先还是在赛跑的阶段,我觉得可能还是首先是要尽可能的追OpenAI,我觉得现在很难谈超越或者什么,但是你至少能够跟得紧。就deliver的结果来看,因为你规划的是要超越,但是你可能抵制的结果首先是要接近。
戴宇森 01:25:09
我觉得训模型这个事情,目前还有很多是科研成本,是当然很多科研成分的时候,你就很难去做一些细节的判断。我们只能对工程和产品商业。比如商业上我能预测一个公司去年年报做了多少,今年做多少,这是好预测。但是科研的事情很多时候就不那么好预测了,所以我觉得很多时候精细到太精细的预测我觉得很难。
张小珺 01:25:29
最近还有一个大事儿,google推出了开源模型,这个对于整个市场会有什么样的影响?
戴宇森 01:25:34
我觉得肯定整体上对做应用的很多人是好事儿,但是肯定对于做开源模型的,比如说mr,这个可能面临压力会比较大。
季逸超 01:25:43
Java这个模型其实它开源的时候,虽然讲的是说基于Gemini ni的技术积累跟这些工程上的基础设施。但其实你们会发现Gemini a并不是像jermaine一样是一个多模态多元的模型。它其实跟比如说我们更熟悉的llama,还有一些国内的比较优秀的J开源模型,其实也并不一个代差上面的一个差异。所以其实我觉得jam ma的开源并不是一个特别显著的一个事情。当然这个对于google来说可能更多的是一个象征意义,就是大G又回到了开源领域,这几点大家所愿意看到的一个情况。但具体这一个模型本身,我觉得它的意义是有限的。
戴宇森 01:26:17
起码目前来看就是sota达到了比如说miss jr或者是lama 2的这个手表。但是好像也没有说就明显哪里特别突出不一样,所以非常初步观察,因为出来真的就几天。
季逸超 01:26:28
其实我已经用了一段时间了,刚才这个结论我可以负责,他并不是一个非常显著的事对。
戴宇森 01:26:33
因为现在他也在针对一些伙伴去开放去。
张小珺 01:26:35
如果比如说说phone。未来开源一个模型的话,那国内这些大模型公司不就白做了吗?有这种可能性吗?
戴宇森 01:26:41
我觉得当然是有这个可能性的,比如说现在GPT是就地开源,对吧,就可能说我觉得这是一个实在的威胁,就跟安卓一样,大家最后其实大家也不会去选择自己要从头做个安卓。但我觉得在目前闭源模型的能力是如此的可能的强大,以及投入如此之多的时候,我觉得开源一个sota BB模型这样的这个举动可能目前还是比较难的。
季逸超 01:27:04
这块也会补充一点,就是即使OpenAI现在突然开源了GP4或者同等级的开源模型,其实如果你以国内的视角来看,好多时候你也是不敢用的。因为其实alignment这个事儿其实会涉及你与谁align这个问题。对,所以我们也要考虑我们现实的一些情况。所以他可能反而不会对国内的大语言模型产生形成一个特别直接的冲击。
张小珺 01:27:24
现在这种环境下,你们更关注哪一群人?你们的创业画像,那些高校出来的人,那些背景的人。
戴宇森 01:27:31
年轻AI native,最好是对海外比较了解,有过海外经验的,能够搭建一个比较完整的团队。比如说我创业的那会儿是09年的,那个时候创业还不是一个那么竞争激烈的事情。所以作为创业公司,你犯错误的机会可以多一点。但现在创业就越来越高手过招,如果你一招不慎可能就挂了,是吧?所以现在我觉得对于创业者,尤其你要做一个大家关注的大事儿,那你肯定这里面团队的综合能力和连续创业者会越来越多。见过猪跑还是挺不一样的,像pick这样的就会很不一样。
季逸超 01:28:05
自己就是。
张小珺 01:28:06
猪AI越来越强悍,给人类一点建议。
戴宇森 01:28:10
我的一个看法就是,当然如果有人说AGI的各方面都比人强,那那现在也很难想象。但是我觉得至少现在的情况来看,我们做的工作要有可能去交,而不是说我们在做很多这种非原创性的AI能够做的很好的工作。对,汽车出现了之后,那人就不用跑的比汽车快了。我们现在很多人的很多工作内容,其实就是一个在做一个缝合怪的工作。就是我从这里复制点信息,那里拷贝点信息,这里搞点信息,就把它缝在一起。这个是现在比如说大元模型非常擅长的的事情。所以我觉得世界会更加对于原创性的思维,更加在AI的训练材料里找不到的思维会更加的奖励。
戴宇森 01:28:55
我会觉得大量的内容,对不是那么原创的内容都会变成AI所创造的,或者AI去完成的那人类可能就在去进行那种要么是必须要人和人互动的,要不然就是这种必须要有高度原创性的这个内容。至于原来那种这个时候既不原创也不难,只是需要个人干,那这个可能很有可能都会被别人替代掉。所以这个里面我觉得主要让自己的工作和能力不要落入到内容里面去。
戴宇森 01:29:20
我觉得很重要的就是我们当时看互联网最好的这些创业者也好,投资人也好,或者哪怕是从中获得了比较好回报的从业者来讲,其实都是充满好奇心,愿意找去尝试。在这时候更早的去得到这相关的这些知识和经验的。哪怕现在这些应用都很早,哪怕这些应用都还处于不完善的状态,多去尝试,保持开放心态,多去试一试,这个很重要。我记得那会儿我们在面试产品经理的时候,就是看打开手机对吧?你有装些什么?你倒是个天天玩新东西的人,还是一个手里就这么几个。
戴宇森 01:29:51
所以好奇心我觉得长期来看,对于技术革命的时候是非常重要的。包括我自己,我们就都不是技术背景。有人说我不懂AI的技术怎么办?我始终觉得假如你是个记者,那也应该去做采访AI的记者对吧?如果你是个律师,你应该去做AI相关的法律的研究。如果你是一个投资人,那你可能更应该去看A的领域,所以就是不是直接做这个事情的。但是你的职业跟他的关联始终是可以去进行这样建立的。
戴宇森 01:30:16
是我相信他是一个大的革命,我相信他会对我们的工作产生很大的影响。在这个时候,我觉得就是我们怎么样能够帮助这种生产力革命的发生。这个是我觉我就我自己的一个想法pick.
张小珺 01:30:27
我给人类的建议的话。
季逸超 01:30:29
我可以建议一个非常小且非常可操作的一个建议,就一定要多记录自己的生活。其实从ChatGPT出来之后,我多了一个习惯,就是我很认真的在写日记。最近半年我这已经升级到了多媒体日记。就比如每天自己的照片跟自己做的事儿,我会有图文并茂的记录。
季逸超 01:30:45
因为这是我们作为有机生物体,我们其实是一天不如一天。我今天是我人生中最好的一天,是我人生中最聪明的一天。但是AI这个东西它其实一天比一天强的。所以我们现在要做什么呢?提前给未来的AI做一个准或者带路。
季逸超 01:31:00
你可以把你自己每天的生活好好记录下来。这样的话其实你自己的数据就像刚才雨森讲了,这个其实是不会被外面的AI给吞并的东西。而如果你把你现在年富力强的时候的思路交给未来的一个AI的那其实你一定程度上能获得一个数字的一个永生。所以这是我给人类的一个非常可操作性的一个小建议。
戴宇森 01:31:20
看来你需要一个AI pen,把你的信息尽可能收集下来。我之前在机会上写过个笑话,就是说好好消息,我们终于发明了能把你的所有数据生成大模型上传到云端,让你实现数字永生的手段。坏消息你过去的几十年都没存。
季逸超 01:31:36
对的,就是这个意思。因为我们不知道道在什么时候能到达大家想象那个程度,所以从现在开始,大家请好好收集自己的数据。
张小珺 01:31:43
宇森。
戴宇森 01:31:43
你为什么喜欢发极客?因为极客上有很多很聪明很有意思的人。当然也因为极氪是小宇宙中国最好的博客软件的股东,当然也是因为我们是继科的股东。
张小珺 01:31:52
你们现在怎么给AI公司估值?因为以前AI公司他们估值方法,有一种是按照人才密度给估值,一个人多少钱,现在会吗?
戴宇森 01:32:01
虽然肯定不会显示的说这个估值怎么算出来的,但我想在现在这个阶段,AI公司的估值反映了很多是这个公司的人才密度。在现在的AI这个领域,因为技术还没有大幅度扩散,所以顶级人才和普通人才的价值差异可能是很大的。因为我知道这个东西怎么做,我那就比100个不知道的人要更好。当然同时也和他们解决的问题的大致的尺度有关。如果是一群很优秀的人要解决个大问题,那并不是每个人都有资格去或者说有足够的能力解决大问题的。如果他解决问题很大,比如说像funny model,而且他确实需要这么多钱,也是个供需关系,对吧?就是一旦做出来可能会变得很有用。但是在这么早期的阶段,肯定很多时候还是处在一种靠经验感性,或者俗称拍脑袋去估值的这个阶段。但我觉得大致上与刚才说的这几点,团队优秀程度、事情的大小、事情的难度,需要的资源数是相关的。
张小珺 01:32:51
上一代公司也没聪明的脑袋,结合起来产生什么呢?好像也没有什么实质的技术。
戴宇森 01:32:56
说上一代的AI公司?我觉得这是个非常好的一个的问题。我的一个简单的看法,之前的AI主要还是集中在一些比较垂直的领域。比如说CB当时下一个围棋,或者当时在自动驾驶其实已经广了一些了。但是自动驾驶问题是它需要的门槛太高了。因为它高速的一旦出问题会死人的,对吧?所以之前的这个AI我们看到了很多影子。但是这个过程中它其实还是局限在某些垂直的领域。
戴宇森 01:33:22
但为什么我对于现在这一波AI我会更加乐观一点?是因为我们已经看到ChatGPT里面的,包括像sora这样的模型,就它已经是普通人能实实在在用得上的了。我们已经看到现在的GPT已经有一亿多人用过了,并且目前每天都有很多人在用。
戴宇森 01:33:38
其实我自己虽然在国内访问下去比较难,但我会给你举一个我最近非常好的一个使用场景。就是就我在曼谷的时候,当然我不会讲泰语,就跟ChatGPT说一句话。我就说当你听到泰语翻译成中文,当你听到中文翻译成,然后就直接打开了ChatGPT的对话模式。它现在就突然就变成了个双向翻译器,这样我掏出来给对方对吧?对方说他他就会讲中文,那我讲中文他翻译成台语。当然这个功能你可以用一些其他的硬件实现,但是我觉得这个就点了大模型,非常通用的,非常的它你只用一句promptpt,他就能把这个事情做得很好,对吧?
戴宇森 01:34:10
这个价格很多价值很实实在在的。比如包括我现在可能在出国旅行的时候看到一个东西,我可能拍个照片看一下,问一下到底这是什么东西。你会发现它已经不是一个少数场景,少数尝鲜者使用的,它真真正正能到了很多普通人的普通生活场景中使用。而且对于语言模型来讲,因为它可以写代码,它可以通过代码去对外界工具进行调用去使用。我认为它的这个通用性会强很多。因为自动驾驶你就有自动驾驶,你很难立刻迁移到别的地方去。它是非常专业的东西,所以我觉得还是稍微有些不太一样的。当然也肯定就这里面会有很多探索,不一定能最后结出果子来吧。其实我们很多人也在想,OpenAI没有之前的那100亿美金的探索,怎么会有ChatGPT呢?
张小珺 01:34:54
最后来聊聊对于sora或者对于大模型不了解的地方。但是很想了解。
戴宇森 01:35:00
我觉得第一个从最直接的一个数据,需要什么样的数据才能够做到这样的水平。这里面是不是有一些就是目前我们还没有意识到,大家都没想到,因为容易想到的,比如3D引擎,什么高质量的视频,这些有什么有没有什么是我们没有想到的。Trix这个可能是最直接最快的问题。
戴宇森 01:35:18
长期的问题,我觉得始终就是说对于这个真实世界的模拟能模拟到什么样的程度。因为我觉得这个里面是这涌现出最有让人兴奋的地方。我比较倾向于认为他可能能够足够到大部分的场景都已经足够好用。比如说OPI他放了一个视频,是蚂蚁在那个洞穴里面前进。有人说这个蚂蚁不对,这蚂蚁只有四条腿,我心想人去想象一个蚂蚁,那人可能也不知道蚂蚁有几条腿,对吧?
戴宇森 01:35:45
你只要能够对事业给出一个足够合理的生成,其实这个时候已经可以用来解决特别多的这个问题。因为毕竟我们人就是每天看着这个视频,我们在脑子里面申请我接下来要做什么。并且我的一个动作,我对他结果的预测,其实也是在我脑海里面,可能就是一个视频性。我认为我把这瓶水拿起来会发生什么,其实我脑子里面也是一个视频的预测。我觉得这可能是一个通向世界,不一定是一个从理性的角度去理解世界。可能他最后还是得不出牛顿定律,但是他能够对这世界已经形成足够好的理解,我觉得这个其实是一个非常让人激动的东西。Pick除了。
季逸超 01:36:22
sora的技术细节以外,其实我最关注的一个点就是它究竟能为开发者提供怎样程度上的一个接口或者可控。因为我们可以类比一下ChatGPT,就最早咱们普通用户用到ChatGPT,就是他可能只不过或是一个聊天的一个机器人。但你会发现,比如最近一年在ChatGPT或者说它的接口之上,诞生了很多不同的应用。无论你说是agent还有一些更细小的一些,比如说单纯就帮你做总结,或者说给你做翻译。其实这些都是ChatGPT这个东西的通用性所带来的一个质变。它其实不单纯是聊天,他把以前所有的LP的任务都用预测下一个子这样一个范式去统一了。
季逸超 01:37:00
我们现在看见sofa这个模型来了,sofa它已经在视频生成上展现出了极高的水平。但我们也在想,它有没有可能它是一个视觉领域的一个通用的一个模型呢?比如视觉领域有很多经典的任务,像你有那个大疆无人机的话,你知道比如说你让无人机的摄像头拍着你的车,你点一下它,画一个框,一直去追踪你这个车。类似的任务能不能用sora这样的一个视频生成模型,以补完的形式去实现呢?就比如说我是开发者,我想让他进行一项新的视觉方面的任务,只需要给他几个例子,他也许就能把这个任务给做好。所以我最关注的就是sora在视频生成之外,究竟能给这个社区或者给上面的开发者生态能带来怎样的一个新的可能性。
戴宇森 01:37:41
我觉得真正对sora是怎么做的,你优酷派的很多揣测,我确实觉得我们不在一个最有利去了解这些事情的位置,所以我们讲了很多揣测,当然也是我们从认为比较可靠的一些角度去获取大使用的,都是盲人摸象,只能说可能就有一些自己的猜测。所以我自己也非常期待在比如三个月、六个月、一年之后,我们对于我们AI对SORA会有更多的了解。包括你像你对指定的采访业务。很多人说大模型会胡说八道,我觉得人也是胡说八道,只是人往往意识不到自己在胡说八道而已。沙漏温暖不够你。Sometimes to say the man. The guys well turn and the lines.
张小珺 01:38:31
好,这期节目就是这样。如果你喜欢我的节目,欢迎前往苹果podcast、腾讯新闻、小宇宙、喜马拉雅、QQ音乐订阅张小军商业访谈录。如果你有其他想邀请的嘉宾,想听的内容,或者你有任何想探讨的话题,都欢迎各位听众朋友们在评论区里留言。我们下集再见,拜拜。
戴宇森 01:39:05
但我只想。
戴宇森 01:39:12
I just just stay.