傅盛:GPT推动语音机器人的黄金时代

2023-10-09 20:25:21

1.jpeg

等了六年,傅盛的好日子到了。


傅盛的狗出名了,那只名叫“三万”的狗,证明了ChatGPT的强大——这个去年11月推出的聊天工具,有了逻辑推演能力。2月13日晚间,傅盛询问ChatGPT,猜猜为什么自己养的狗叫“三万”。ChatGPT回答,可能是因为它在宠物医院治疗骨折手术花费了3万元钱,所以取名叫“三万”。当晚11点,傅盛兴奋地给王小川打电话:“小川,这东西(ChatGPT)有推理能力。”“是啊,我也觉得有推理能力。”王小川回答。“我是最不相信AI能超越人的,今天我彷徨了。”当晚,傅盛在微博感慨道。傅盛的好奇心旺盛地滋长,他还问过ChatGPT以下问题:老鼠能不能吃掉一头大象?穿山甲能不能穿透钢板?如果把大象放进冰箱,要分几步?傅盛甚至完全依赖ChatGPT写出了一段贪吃蛇代码,还调试出了一个“个人助理”的程序。其实他都已经20多年没编程了。傅盛早在2016年就宣布All in AI,并投资了机器人公司猎户星空。过去几年,他遇到最大的问题是,机器人能解决99%的问题,但最后1%的问题解决不了,因为服务机器人要求100%的能力,换句话说,要智能。“因为服务机器人一天递送200次,你99%都满足了,比如1%出问题,迷路一两次,那就没法用了。”傅盛强调。就连女儿都朝他抱怨:“爸爸做的是人工智障。”因为机器人回答不了女儿千奇百怪的提问。等了六年,ChatGPT让傅盛看到机器人的天花板被打开了。语义理解从60分提升至90分甚至99分,机器人行业从“人工智障”真正变成人工智能。《沸腾新十年》一书中写道,傅盛缺乏安全感,多年巨头间的争斗,让他始终走在边缘创新和进化认知的道路上。但回头看,傅盛走过的那一段所谓的“弯路”,其实是走得早了点儿。不过现在,他等到了。

傅盛的精彩观点如下:
1.OpenAI 走的路,其实是让神经网络学习文本之间的关系,你也不用教它,这有点像学母语。
2.未来大模型会朝着两个方向走,一个叫大公司核战争,大公司造出来一个爱因斯坦,或者是一个马斯克;另一个则是平民化的大模型,在场景上寻求突破。
3.互联网是生产关系的变化,它是信息的重要链接,信息效率的改变,今天ChatGPT不一样,它是直接产生生产力,引发生产力变革。
4.ChatGPT本身是一次交互革命,这是科技史上第一次机器围着人转,以前我们都是人围着机器转。


以下是《中国企业家》采访傅盛实录(有删改):

3.jpeg

来源:中企图库

1.png

OpenAI走学母语的路线

《中国企业家》:你说的“三万”那个故事,我听很多人讲过,他们说的都是,“我有一个朋友”……傅盛:有的不是我朋友也这么说。因为(2月13日)我发了微博,第二天还上了微博的热榜。《中国企业家》:你从GPT-3.5的时候就开始在用,到了GPT-4有什么进步?傅盛:它的推理和逻辑更强大了。GPT-4和GPT-3.5最大的不同是,复杂程序的准确率比较高。实际上“贪吃蛇”代码并没有在GPT-3.5上面调出来,在GPT-4上,就直接调出来了,还加了最高分、最低分以及一些特效什么的。当然中间也有错误,交互几次,它就调好了。我20多年没有接触过编程环境,我给自己的目标就是不看任何网上的资料,不请教任何同事,我要独立重新掌握一门语言。ChatGPT还建议我不要用iPad。为此,我重新用上了Mac电脑。它告诉我怎么用命令行,我才知道sudo命令,一点点地装起来。《中国企业家》:你之前说过,不太相信AI能够超越人类,但ChatGPT出来后,这个想法松动了。傅盛:不是松动,而是直接就觉得可以了。以前,我也做NLP(自然语言处理),最多的时候投入一个快100人的团队,那些大公司投入就更多了,上千人,但都做不动了。我有一个内部演讲,认为语义理解实际上是人工智能的一个皇冠。图灵在1950年提出了图灵测试,定义人工智能的对话能力,只要人机对话能够骗过人,你就通过图灵测试。现在来看,ChatGPT肯定是通过了。《中国企业家》:行业特别是大厂,投入了很大的精力做人工智能的研究,为什么没想到用大模型的方式来解决?傅盛:不是没想到,是不相信。语义理解分成两条路,其实绝大部分选择的都是第一条路,比如最早百度做搜索,谷歌做搜索。第一条路就是我们学外语的方式,语言学里的,标好主谓宾,然后切词,做知识图谱,这样做的好处就是,一开始问题量不是特别大的时候,能得到还不错的回答。比如,我们去问淘宝客服,因为你意图比较明显,你就是来退订单,只要有“退订单”三个字,哪怕其他词,系统都不理解,只要“退订单”一出现,关键词加强,然后就用各种策略就能够满足一部分应用。OpenAI走的路,其实是让神经网络学习文本之间的关系,你也不用教它,这有点像学母语,就像一个小孩儿,你天天丢在旁边,不用刻意教他,到了三岁他就会开口了。他听了足够多的时候,他就会了。《中国企业家》:这是人类的学习模型。傅盛:只有OpenAI还觉得这条路可以走通,而且ChatGPT前几个版本其实并不成功。很重要一点,他们发现了有一些地方已经有不错的信号。但OpenAI每次试的成本也很高,1000多万美元训练一次,训练完以后效果不一定比上次还好,你又得重新调整。我经常说,一按钮就是1000万美元,过两个月再看一下,效果不好,再来一次,又1000万美元。你说大厂哪个部门经理能经受起这样烧预算,烧完还不一定比前一种好。毕竟传统的知识图谱什么都能回答,但你这边2000万美元烧进去,一看效果,还不如前面的回答,你就被Fire(解雇)了。《中国企业家》:这是一个一把手工程。傅盛:对。除非一把手说我必须这么干,你们死也死在这。任何一个大公司体系下的人,就算是VP级,你也很难跟老板交代。尤其老板没有技术信仰的时候。OpenAI总共烧了20亿美元才出的效果。国内我还有一个判断,未来的大模型会朝着两个方面走。一个叫大公司核战争——大公司的目标是造出来一个爱因斯坦,或者一个马斯克,所以他们会不断加码,核战争开始了,谁没有个自己独有的大模型,就要被淘汰。另一个则是平民化的大模型,这一两个月看的就非常清楚了。为什么是1000亿参数,没人说得清楚。可能在某一个专业领域500亿就可以。我不需要爱因斯坦,就像博物馆讲解的产品,100亿参数都可以。所以大家都在场景上寻求突破,所以这一个也是有可能的。我们可能走这条路,我们从去年底开始推进与机器人的结合,近期会出产品,具体做法不能说太多。我相信一定有大量的人做“平民化大模型”。未来,我们整个终端都会发生变化。没准微软明年就出款手机,这个手机没准就抛弃了过去所有的界面和App Store。可能微软先颠覆谷歌,然后就准备搞苹果了?《中国企业家》:之前在移动互联网的浪潮当中,其实我们体现出了模式创新的能力,但现在一下就把你原来的模式覆盖掉了,因为底层变了。傅盛:大家都在比文心一言和ChatGPT的差距,但不能这么比,大模型牛的是它的逻辑,首先我问了这么多问题,它几乎没有一个问题会说,听错了,不理解,然后输出的答案是高度可控的。为什么ChatGPT是跨时代的?以前可能正确率是99%,现在,你会觉得ChatGPT一本正经胡说八道也是挺好的。

22222.jpeg


来源:视觉中国

3333333.png

百年未遇之生产力大变局


《中国企业家》:我们经常会在某一个浪潮来了之后,听到产业重构这样的话,之前区块链、元宇宙,这次不太一样?傅盛:我认为这是区块链、元宇宙没法比的,连移动互联网都没法比。ChatGPT本身是一次交互革命,这是科技史上第一次机器围着人转,以前我们都是人围着机器转的,我们最早用电脑就得去学盲打,后面学鼠标。即便在苹果手机时代里面,你得去学哪个界面怎么用。乔布斯说过,每一次交互变革都是一次产业的巨大的改变机会。苹果已经抓住过两次,一个是苹果-1电脑Macintosh,带来了图形界面,接下来是iPhone。再接下来是语音了,这也能理解为什么Siri那么早就上线了,乔布斯最后心心念念的就是Siri。交互本身就会让很多行业发生巨大变化,但一定是双重叠加,一定是个生产力革命。《中国企业家》:就是比移动互联网更底层,更底座。傅盛:如果从底层来说,我觉得它更像蒸汽机。蒸汽机的出现,是第一次让人类额外获得了动能。以前我们叫热能变成动能的一个范式转换。ChatGPT第一次把电能变成通用的人工智能,就相当于你掌握这种能力以后,你就到处都是人口,人口的意义不就是除了人本身的意义,就是劳动力嘛!这是社会生产力变革。生产力革命是因为ChatGPT有了逻辑,有推理能做决策,很多决策它可以帮我们做。就等于一家公司如果用好了ChatGPT,你可以有1000个助理,10000个助理。只要你想清楚需求在哪,你能很快去使得公司效益提升。这是生产力的提升。我觉得互联网更多像生产关系的改变,它是信息重新链接生产关系,以前我从中间商买东西,我现在从淘宝上买,厂家直销。互联网就是信息效率,生产关系发生变化。今天ChatGPT不一样,它是直接产生生产力。以前老板得雇10个人干活,现在雇2个人,有8个是ChatGPT。所有行业都应该以生产力的模式重新组织企业结构。《中国企业家》:生产力和生产关系的变化一定是交互的,生产力的改变到一定程度,它还会重构生产关系。傅盛:生产力范式发生变化,生产关系需要重新适应,所以整个社会的变革就会非常明显,只要有脑力劳动的行业,都要被重构。很多技术路线也会改变,比如自动驾驶。以前是人教车规则,你给它了很多规则,总结了很多规则,你认为它能应对所有情况。其实,最后就剩1%、2%过不去。跟语义理解也一样,最后百分之几过不去。但现在,可能自动驾驶你不用做了,你只要给他足够多的数据、摄像头的数据,然后把司机的动作和数据关联,车自己去学了。有一天你可能一个没注意,它就会自动驾驶了。今天我才回过头想,为什么当时特斯拉不要激光雷达,不要毫米波雷达。《中国企业家》:苹果用Siri来交流,再加上刚刚说特斯拉一直用摄像头获取信息的方式,隐含了领先的头部科技公司,其实它对未来的判断,还是比较准的。傅盛:大公司永远是对科技前沿最了解的。当年苹果的鼠标不就是从施乐公司抄袭过来的?鼠标也是一种交互的过程。大公司永远是最早发现机会的那一个,但会错过时机。《中国企业家》:这一轮我们看到中国科技圈出现了很久没有出现过的这种亢奋,技术人才的流动性一下子就变快了。傅盛:好多人都是在做大模型。我个人的看法,我觉得这一波创业公司做大公司定义的OpenAI很难,这个东西就是一步先,步步先。美国跟中国的大模型的距离差别,我估计也就一两年。大公司资金丰厚,中国其实库存了不少算力A100芯片,我不认为算力是回事,但是可能大家会忽略一件事叫商业化,大公司商业化是天然的,就像互联网巨头,他是拿着一年几百亿元的利润去打仗。大家水平都差不多的情况下,商业化能力很关键,大厂本身就有这么大的基础,然后持续地跟你这样耗。大厂的人才厚度还有招人的能力,大家不要低估了。然后还有更重要的一点,说实话,我做人工智能之后,真不觉得技术人才是决定性的,知识普及非常快。我们做AI很激烈的时候,团队关键成员被挖走,想了半天没招,我就自己带团队,天天给他们开会,买人工智能的书看。模型搭得差不多的时候,我就说,这好像跟做杀毒差不多。有人就说,老板,你不懂不要乱说。我说,杀毒就是弄个特征码发出来,你在这来一堆数据训练一次发出去,最核心的是快。它有Know-How,技术的确有难度,但这个东西就是摸爬滚打,没有像天堑一样不可逾越,今天有几个开源技术以后,它本质上更多的还是训练的活,数据集的训练。《中国企业家》:我们上次交流的时候说过一个观点,“互联网已死,没有创新”,但这次不一样。傅盛:我一度觉得美国互联网APP创业已经没啥机会了。2017年和2018年就形成了这种看法,因为我们很早就做海外。现在整个被重构了。前几天看了YC的路演(demo day),100个项目,基本上一半是基于大模型创业的,各种服务APP。突然感慨,我们大模型还没用起来呢,人家已经全都在做。突然感觉互联网这一波,我们的发展突然间就落后了,不仅是大模型方向,是整个生态方面,整个业务开发者的思路全都落后了,人家全是基于大模型,已经做得细到一个保险卡。

6404444444.png

机器人的好日子来了


《中国企业家》:机器人方面,你说,之前有几年是特别难的,从2016年猎户说All in AI,是比较艰难的一个过程。傅盛:我们最早做的是服务场景,不同工业场景的硬编码,环境封闭稳定,工业机器人对精度要求很高,从A点到B点要非常精准,本质上它属于机械制造和一部分工程自动化,AI属性相对少。但是服务场是开放环境,各种各样的变化,光线、障碍物等等,我们说服务机器人最难的是最后那1%。控制那99%是没用的,服务机器人一天递送200次,你99%都满足了,比如1%出问题,迷路一两次,那就没法用了。在人工智能不是特别强的时候,我们就要在场景中投入特别多,这是以导航服务为例。再以语音服务为例,我们收集了大量的问题,每个场景加上来可以去做问题,做泛化模板,然后机器人也就能回答一些问题,但当用户突然又换一种问法就回答不了,大家就说好像没那么准哈。语音服务还有一个问题,互联网要解决的很多语义理解,它只要把头部问题解决得好,你就基本可用了,因为有可能百分之八九十的用户就问那些问题。但我们机器人的场景很分散,比如在图书馆,有人会问这本书在哪,在博物馆,有人会问这个文物怎么样。这些都是尾部问题,然后尾部问题的满意度一下子就下来了,大家就会觉得机器人做的不怎么样,实际上它是行业能力的天花板,这就是过去两年我们遇到的最大问题。刚讲第一个导航服务,经过过去几年探索深耕已经很好了,所以我们递送场景,机器人已经可以高效的解决了;第二个语音服务场景,是一直等到ChatGPT出来,我们才觉得这个机会到了。《中国企业家》:所以就能理解为什么你看到ChatGPT就如此兴奋了,因为它解决了你思考了很久,又没有更好的方法来解决的一些问题。傅盛:我们的语音交互做到了行业第一。北京冬奥会,我们豹小秘是唯一入围在公寓入驻与导览翻译场景的语音交互机器人。你要是在嘈杂的商场环境里问机器人,店铺在哪里,它能回答,但要是问,有什么优惠券,就有点难度了,因为打通都是麻烦的。但现在它具备学习能力后,把文档导进去就好了。《中国企业家》:现在能够去想象一下ChatGPT用在机器人的场景当中,比如用在猎户星空当中,你能假设有几个场景?傅盛:比如博物馆的讲解员,比如餐厅的点餐。现在点菜,机器人完全可以做,而且可以介绍每道菜。以后孩子就可以机器人陪伴了,我觉得这个机器人陪伴它不是一个“十万个为什么”,而是十亿个为什么,你的好奇心全都会满足。

55555.jpeg


来源:中企图库

《中国企业家》:以后猎户星空机器人接上GPT技术后可以自编程?傅盛:刚自动驾驶没讲完,语义理解本质上是逻辑序列。第一以后编程范式会简化很多,很多控制不是硬代码实现,机器人识别导航环境就很容易了,当然这个比语言模型相对远一点,大脑和小脑的分工会重新划分,智能化会占更大比重。第二就是您说的自编码,最近不是有个很火的AutoGPT,这个过程需要些时间,应该也不会太远。我们马上要做的还是餐厅场景,譬如对机器人说,下午2点到4点到门口揽客去,今天餐厅推毛肚火锅,想10句宣传语,每30s换个宣传语,然后机器人说“好的”,这个就很快能实现。《中国企业家》:猎户星空为应对这种变化,做了哪些调整?傅盛:公司的OKR调了,重新把语音服务变成一个核心点。以前我把服务机器人变成4个部分,叫做AI+软件+硬件+服务,然后当时认为每一部分都差不多,比例各占25%,但是2022年蹚了一年海外业务后,我们对服务要求加强了。因为服务机器人它不是个卖货模式,它不是个成熟产业,所以我得给我的客户提供一系列的服务型解决方案,包括怎么去找你的用户,怎么去让你的员工真正知道机器人应该怎么部署,所以我们就把它变成一个服务升级。但现在把AI提高出来,成了底层能力。《中国企业家》:所以很多人原来都以为机器人公司,它不是建立在人工智能上的?傅盛:我们在人工智能投入超过1亿美元,大部分钱都投给它了,但是它展现不出来。我是做产品的,技术做的不错,在产品上体现得有限,对于我来说是很痛苦的。我认为随着ChatGPT出来,服务机器人整个行业天花板就被打破。《中国企业家》:但现在大模型就没有开源,GPT-4又没有开源,怎么办?傅盛:首先,我们在研究一些开源的大模型;第二,我一直觉得易用性还是一个巨大的机会,比如我们今天就讲ChatGPT,一问,60%的企业家都听过,但不用。我为什么在公司内部要去宣讲?我们一定要理解,现在有一种说法,一个是把ChatGPT神化,另外还有一类说是搜索,只不过做得好一点。我们要在中间找原理。我为什么要去写那个程序,我得知道它的能力边界在哪里,知道它实践当中有哪些东西。只有知道它真正的原理,你才知道该怎么做这个应用。我当年做360的时候,也没什么杀毒的技术,我们把它做得更简化,更好用,先用起来,再快速迭代,反过来再把杀毒技术慢慢做好,小步快跑。《中国企业家》:你会做一些类似于投资之类的动作吗?傅盛:会上市公司层面做,我们也会专门加强。我们肯定会去找在应用上做的项目和公司。如果用OpenAI的模式去做,你这家公司其实估值不超过10亿美元,你就没得玩了,而且你还得持续融资。《中国企业家》:你经过这么多年的苦熬,可能好日子刚刚开始。傅盛:我是这么认为的。我们当时All in AI,现在想起来当时肯定是偏乐观一些,就觉得语音理解就是以自然语言交互为核心的模式会出现,所以大家都围绕这个展开的,没想到语音转文字我们做得很好,反倒是语义,机器人理解不了。从另一个角度也可以说,坚信当时的决定是没的,但在具体战术的时间点上,就是GPT技术出来早一点就好了