Media/Author
出海相对论
Date
Sep 6, 2023
前言 「如果有一篇 AI 的新论文提出了某种不同的训练方法,OpenAI 内部的观点往往是:这都是我们之前玩剩下的。而当新的 AI Agent 论文发布出来的时候,我们内部都会十分兴奋。因为这对于我们而言也是全新的,创业者和工程师在构建 AI Agent 方面同样处于最前沿。」—— OpenAI 联合创始人 Andrej Karpathy伴随着 AI 在全球的持续火热,除了大语言模型 LLM,另一个焦点应该就是 AI Agent 了。从今年的3、4月开始,AI Agent 就持续引发 AI 界乃至全社会的密切关注,也被很多人认为是这轮 AI 究竟能对人们真实生活产生多大影响的关键所在。比如今年3月底发布的 Auto-GPT,通过自主实现用户设定目标,一经发布即火爆全球,虽然目前在解决实际问题能力上依然有诸多欠缺,但并不妨碍开发者和用户持续的热情。目前(9月初)Auto-GPT 在 GitHub 上已经狂揽了将近15万 star。还有4月7号斯坦福和 Google 联合发布的「西部世界」沙盒虚拟小镇 Smallville,25个 AI Agents 智能体不仅能在里面上班、social、甚至能谈恋爱,且每个 Agent 都有自己的个性和背景故事,仿佛美剧《西部世界》中所描绘的场景正在走进现实。Ben's Bites AI Newsletter 创办人 Ben Tossell 说:「未来 AI 智能体将无处不在。价值数十亿美元的公司将从会一个部署 AI 智能体的小团队发展而来。」如果部署单个 Agent 就存在巨大的机会,那么理论上来说:Agent 平台将具有更大的想象空间。本期我们就非常荣幸,邀请到 AI Agent 构建引擎 —— MindOS 背后的公司心识宇宙创始人——陶芳波博士,和我们一起聊聊 AI Agent 相关话题。*本文是「出海相对论」第十期文字版,略有删改,搭配音频食用效果更佳。文章较长,超28000字,有多学科视角下关于 Agent 智能体的专业认知与商业洞察,可以在微信读书模式,结合大纲阅读。
大纲 & 话题
1.为什么说创新速度是企业最重要的竞争力?
2.团队如何在快速迭代中掌握节奏?关于组织建设有什么心得?
3.目前 MindOS 的用户群体是哪些?有什么有趣的商业用例?
4.如何用新技术解决意图识别、任务调用的问题,以及大模型的幻觉问题?
5.什么是 Agent,与 Copilot、Chatbot 有什么区别?
6.MindOS 和 Character.AI 以及 ChatGPT Plugin 的区别是什么?
7.作为一个 AI Agents 构建平台,MindOS 要如何打造壁垒?
8.为什么要出海?从软件来说,全球与国内市场的核心差异是什么?
9.在海内外大厂从事 AI 相关工作与自己下场做 AI 创业公司有何不同?最深的感受是什么?
10.Agents 爆发后,软件和交互会发生怎样的变化?人在其中应该做什么?
Jay欢迎来到全新对话类出海中文播客——出海相对论。大家好,我是Jay。
佳芮大家好,我是佳芮。
Jay本期我们主要关注的是 AI Agent 智能体,以及相关的 infra、平台、应用、出海等话题。伴随着 AI 在全球的持续火爆,除了大语言模型 LLM,另一个焦点应该就是 AI Agent 了。现在还有说法是大模型进入了下半场,虽然我们也不知道上半场是怎么结束的,但确实 AI Agent 话题从今年3、4月份开始,就持续引发 AI 界乃至全社会的密切关注,也被很多人认为是这轮 AI 究竟能对人们真实生活产生多大影响的关键所在。比如今年3月底发布的 Auto-GPT,以及之后出现的 BabyGPT、AgentGPT 等,在当时就引起了广泛的传播,虽然它在解决实际问题的能力上依然有很多欠缺,但这并不妨碍开发者和用户持续的热情,目前(9月初)Auto-GPT 在 GitHub 上已经狂揽了将近15万 star。
Auto-GPT GitHub地址:https://github.com/Significant-Gravitas/Auto-GPT
OpenAI 联合创始人 Andrej Karpathy 就称「Auto-GPT 是 prompt 工程的下一个前沿。」还有4月7号斯坦福和Google联合发布的「西部世界」沙盒虚拟小镇 Smallville,25个 AI Agents 智能体不仅能在里面上班、social、甚至能谈恋爱,而且每个 Agent 都有自己的个性和背景故事,感觉美剧《西部世界》中所描绘的场景正在一步步走进现实。
论文地址:https://arxiv.org/pdf/2304.03442.pdf
英伟达高级科学家 Jim Fan 就曾表示——斯坦福智能体小镇是2023年最激动人心的 AI Agent 实验之一。我们常常讨论单个大语言模型的新兴能力,但是现在有了多个 AI 智能体,情况会更复杂、更引人入胜。一群 AI,可以演绎出整个文明的演化进程。
关于 Agent 的商业前景,Ben's Bites AI Newsletter 的创始人 Ben 说:「AI 智能体将无处不在。价值数十亿美元的公司将从会一个部署 AI 智能体的小团队发展而来。」 如果部署单个 Agent 就存在巨大的机会,那么理论上来说:Agent 平台将具有更大的想象空间。
本期我们就非常荣幸,邀请到 AI Agent 构建引擎 —— MindOS 背后的公司心识宇宙创始人——陶芳波博士,和我们一起聊聊 AI Agent 相关话题。陶博本科在清华,博士毕业于伊利诺伊大学,曾任职于微软研究院、Facebook 和阿里巴巴达摩院等 AI 大厂。在心识宇宙已公布的近亿元融资中,红杉、险峰、线性、PNP 等知名VC都在投资人列表中。我们还是回到惯例,先请陶博和大家打个招呼,也介绍下自己的经历和 MindOS 以及心识宇宙这家公司。
陶芳波Hello,大家好,我叫陶芳波,很高兴可以参加这档播客节目。我稍微补充一下,我们还有一个投资人,是杭州的一家非常好的机构,叫银杏谷。我个人的经历其实也比较简单,就是一直是做 AI 这个行业的研究为主。在创业之前,其实我一直都是在各个大公司的实验室里,包括在学校里面做 AI 的研究工作。跟今天主题有关的一个分享是,关于我为什么会选择在比较早,大概三四年前就开始去考虑 AI Agent 这件事情,我觉得跟我的两段经历有关。其实这两段经历都是两段很苦的日子。一段是我读博士的时候,大概有整整两年时间我发不出文章来。一个很大的原因是当时大概在14、15年,那时候很多 AI 的工作其实都还是在用一个模型去解决一个很具体的问题。
所以你会发现你做的很多事情,比如你可能花了半年、一年的时间去做的所有事情,其实都是在寻找数据,之后用这些数据去解决一个具体的问题。那时候就发现原来你曾经认为很高大上的 AI,好像最后本质上是一个数据清洗的工作,当时就让我很沮丧。所以我当时读博士的时候,有一段时间其实是很不开心的,因为不知道自己花那么多时间在做的事情的意义是什么。这是第一段,我当时很不开心。后来又有一段苦日子,是我从 Facebook 的研究所回到国内,在加入阿里巴巴之前,我其实有半年的 gap。那个时候全世界范围内有一个很有意思的现象在发生,就是大模型逐渐在出现,但还是在 GPT-3 之前的那个时代。
我在 Facebook 做的是 Facebook 背后的推荐系统的底座模型,其实那个模型也非常大,可能是当时全世界最大的模型,但是它和我们今天提的大模型的概念还是很不一样。所以就有半年的时间,我那个时候一直在看一些超越于技术的书,比如说有一些脑科学的书、认知科学的书和哲学的书。然后那个时候我才慢慢意识到,原来我当时真的想进入 AI 行业,其实是为了真的能够去研究人的智能的一些更底层的东西。而不是为了训练一个模型,让它能够去识别人脸,或者训练一个模型能让一个内容被更好地推荐给一个 Facebook 的用户,所以又算是一次价值观的崩塌。但是其实那也是一个好事,你会在这样一些很孤独的、很苦的日子里面慢慢意识到,你可能需要去找一些真的能让你感到兴奋的方向。所以也是在那个时候,我开始在阿里巴巴去成立一个实验室,叫做神经符号实验室。那神经符号实验室就是一次非常早期的对于 AI Agent 的一次实验性的尝试。我们当时招了大概15-20个研究者,他们的背景有的来自于脑科学,有的来自于认知科学,有的来自于做类脑芯片。所以其实是各种各样不同的背景,不只是做机器学习的人,来尝试共同去想下一代的 AI 系统应该怎么来设计。所以今天随着大模型的发展,包括 AI Agent 概念的发展,我们发现越来越多的人意识到其实创造 AI 本质上是在创造一个类人的智能结构,对吧?但是那个时候其实这样的观点或者这样的追求其实是不太被当时的社会环境所认可的,所以我们只能以一种实验室的方法很小规模的来做。那我在做这个事情的时候,我意识到有三个点可能跟今天我们要讨论的 AI Agent 有比较大的关系。
第一个就是我觉得在2020年左右,从我们的角度来看,在 GPT-3 出来之后,其实技术上来讲, AGI 这件事情我没有看到很明显的技术障碍,至少没有科学上的障碍,可能有很多工程上的障碍,这是一个点。
第二个点是在我们做 Agent 早期研究的过程当中,我们发现从某种意义上来讲,这是一种全新的服务形态,也就意味着比方说出海的产品很多都是软件,包括过去三四十年或者五十年,全世界最大的主题就是软件吞噬世界,对吧?那我认为 Agent 或者说是 AGI,它可能未来会完全成为一个软件的新载体,然后它真的有可能变成比软件更加普遍的一种存在方式,来围绕着我们每一个人的生活去出现。所以它是软件的下一代,这是它从产品和商业层面来说。
第三个点我当时意识到的,我觉得更有意思,就是我认为如果我们把 Agent 或者说是 AGI 当作一个超越于模型工具的社会的主体去看待的时候,你就会发现它和我们人类几千年来所有的技术都不一样,因为它是一种可以参与到社会当中的独立的形态,而不是一个被人拿来当工具使用的一个拿来即用然后用完放手的东西。所以如果是这样的话,其实从做 AI 的角度来讲,你慢慢就变成从研究技术到研究产品,最后变成去研究一种全新的社会参与的主体,怎么跟人类来形成一种新的社会结构,一种新的社会参与的方式,一种社会参与的契约。我觉得这些是我当时在那几段苦日子里面琢磨出来的一些非常天马行空的想法。后来也觉得工作了也蛮多年了,读书也读了很久,那这个想法我也觉得是对的,只是我不知道到底要多少年才能出来,所以我就说那要不成立一家公司吧?所以就成立了心识宇宙。
心识宇宙这家公司的意思,就你看它名字也很有意思,左半边叫心识,其实就是某一种具有人类一样思考方式的一种数字载体,mind,对吧?当然宇宙这个词就大了一点,但我想表达的其实是它是一种全新的社会结构,也就是说这种 digital mind 和人类的 mind 可以结合在一起,形成一种新的社会结构。然后为了达成这个目标,相当于这个名字就是我们的愿景。那达成这个目标第一个要做的产品,或者是要做的技术,我们叫做 MindOS,就是我们现在主要的这个产品。因为你首先要让这些智能体 Agent 以这种更加独立的方式存在于我们社会当中,你得有一个引擎能够创建它们。所以 MindOS 你可以理解为叫做心识或者心智操作系统,它是一个来构建这样不同能力的,不同个性的,不同社会角色的一个数字智能体构建引擎。
那现在这个阶段,其实你在真的去看我们发布的 MindOS 产品的时候,你会发现它是一个很好的构建引擎,你在里面可以创造你的各种各样类型的助理,各种各样类型的数字角色。当然它还是更偏向于功能性,能够帮你完成某一个领域的任务,或者能够当作你某一个领域的伙伴或者助手,但是在未来我觉得 MindOS 会慢慢地走向一种更加偏个人化的操作系统这样一个概念。就是当这个市场里面已经有了很多很多的 Agent 了,那么怎么让这些 Agent 其中的一部分可以真的围绕着一个人的生活和工作的需求去组织起来,去围绕着个人的视角再去重构,可能这是我心里认为这件事情下一个阶段了。已经做出了技术,那么接下来你就考虑不同的 Agent 是怎么样变成一种新形态的软件,而且这种软件和软件之间其实是可以互相交互的,对吧?那么这样的一种方式再怎么样围绕个人的需求变得非常有价值,这就是 MindOS 的下一个阶段。然后再往后可能我们希望它真的有机会去撑起那个社会结构的巨大的一个构想,当然这个我相信还有很多很多年才会到来。
佳芮我刚才觉得有一点真的很有意思,就是关于软件的下一代。其实今天我们说 AI 重新再来的时候,大家都在聊一个话题,就是 AI 重塑工作流。因为我一直在做 ToB,做了很多年,我们会发现当我们的客户要去做一个流程的时候,其实要在 B 端的软件里边点击几十次,比如60次、100次,尤其是 ToB 你做大客户做得越多,那个系统就会变得越来越复杂。那在过去的场景下,基本上我们会发现培训成本、使用成本都是非常高的。我们也在做一些尝试,如果是通过 AI 驱动, AI Native 的方式,可能我们可以把所有这些交互界面全都干掉。那比如说我直接发布一个营销流程,那 AI 可以把后面所有的流程全干掉。那这个真的就是我们说的 SaaS 的下一代,这是很让人激动的一件事情。
陶芳波我不知道是让人激动还是让很多 SaaS 公司恐慌。
佳芮这个我觉得特别像是中国没有特别久的互联网时代,直接进入到了移动互联网,就是因为互联网不够发达,而直接有了移动互联网。那我们看 SaaS 中美的话,美国 SaaS 一直发展得都非常棒好,但中国 SaaS 一直没有发展起来,那很有可能就是通过 AI 把 SaaS 这个阶段直接就干掉,直接来到一个 AI+SaaS,或者其实也不是 AI+SaaS 了,真的是一个纯的 AI 驱动的一个新的工作流时代。
Jay我们先聊个可能和 AI 不是很相关的话题。我注意到心识宇宙去年初成立,一开始就提出建立一套心识框架,但那会做的其实更偏元宇宙、虚拟人生成,到后来市场上都说 AIGC ,再到 ChatGPT 出来以后大家说的 AGI ,然后你们出海,转型做更偏 PLG 的 AI Agent 构建平台。短短一年多的时间,你们好像一直在迭代,当然也都拿到了一些结果。
关于这件事情我注意到去年6月份你和《十三邀》的许知远在36氪有一场对话,其中谈到:这一代创业者存在一个很有趣的挑战。过去大家尝试做一家公司、做一些壁垒的时候还是有很多选项的。比如打造一个很好的品牌,比如去做一个很好的平台,通过规模优势、网络效应来打造竞争力,但在过去几年相比一个词这些变得不再有那么强的竞争力了,这个词你认为就是伊隆·马斯克(Elon musk)说的——创新速度。我也去看了马斯克那个采访视频,关于特斯拉2014年开放了300多项电动车专利以及所有源代码,马斯克说他不在乎专利,专利是弱者才玩的游戏,在技术方面更多的是你的创新速度,而不是遏制对方的发展。
虽然大家都在说创新,但其实真正做到持续创新并不容易。这里想请陶博展开聊聊:

Q1:为什么说创新速度是企业最重要的竞争力?这个过程中体感如何?

陶芳波我是一个深度的关于创新速度,或者说是认知迭代速度,总之就是速度的一个很大的 believer。我觉得这个东西有的时候其实是一种被迫的选择,就是当我们进入到了社交网络时代以来,你会发现其实人和人之间信息填平的速度在被巨大的加快,也就是说我认为在这个时代其实是不存在真正的黑科技。这里有两个原因。
第一个原因就是,因为我们做研究或者看别人的研究,你会发现虽然很多研究看上去很厉害,但是你真的去深挖它的本质的时候,大部分创新其实是来自于某种组合,或者说可能连组合都没有变化,只不过是你看待它的视角稍微提升了一下,这就是我们说的认知的变化,对吧?但是东西还是同一个。我觉得很多黑科技本身其实并不是黑科技,哪怕我们说真的有一个黑科技,在今天的这个时代下,像 GPT-4 其实领先了大家很多,但是当它成为一个社会的共同话题的时候,其实要去追上它的时间往往也不会超过2-3年。那也就是说你以前建立起来的哪怕很强的技术壁垒,各种各样的壁垒,其实在今天我觉得不存在「一朝鲜吃遍天」,就是一个铺子养你一辈子的这种感觉。在这样的一个快速变化,尤其是在认知在快速被填平的一个时代下面,唯一能靠得住的就是你怎么样在这个变化当中也依然保持变化。尤其是这两年,我相信很多人都会有一种魔幻现实感,就是觉得好像什么 AI、室温超导、核聚变这些东西,好像以前在科幻小说里面的东西慢慢变得好像能够摸得到了,我也有很强的这种感觉。那这说明什么呢?就是世界进入到了一个科技加速的状态当中。在这个加速当中你不只说是要跟这个时代一起跑了,如果你真的是不变的停在那里,你肯定是很快就会被迭代掉。你跟时代一样跑,你可能还能一直在里面有一个位置。但是如果你真的想从0到1创造一家伟大的企业,那你可能不仅是要 follow,你可能还要引导时代的变化,这是我觉得速度这件事情在今天变得尤为关键的一个点。然后由于它这种结构在快速的,可能两三年就在发生一个变化,我们可能原来做的平台的优势,原来做的资源的优势,马上或者两年之后从另一个视角来看就变得不重要了,对吧?所以其实你要 dynamic 地去 follow 它。然后另外我觉得其实 Elon Musk 讲这句话的时候,它也来源于某种硅谷的创业哲学,就是以前硅谷有一本书很有名叫《The Lean Startup》(精益创业),就是说你做任何一个事情,你不要尝试一下就做得很完美,你一定要尝试去做,然后快速地迭代。同样的思想,我在 OpenAI 里面也看到了,Sam Altman 有一个采访里面提到的一个点很有意思,他说 GPT-4 并不是一个黑科技, GPT-4 是什么呢?他说是很多很多的,几百个、几千个 small wins,这些小胜利的一个集合。小胜利是怎么来的?比方说这周我可以加3个小的改进在里面,下周我加5个小的改进在里面,但是随着长期的积累,可能一年你能就能给这套系统做300个改进,而这300个改进没有任何一个是黑科技。看上去好像每一个都很小,但是组合起来就把 GPT-4 和其他模型之间的差距拉得很大。我觉得这个就是今天创新的本质,其实从我的感觉来讲也是的。你做 Agent 也好,做别的也好,都是一样的。你永远需要去关注 small wins,不要去尝试搞一个大新闻,一下子搞一个 big win,我觉得 big win 其实是由 small win 的积累导致的。这也就代表着这个团队,包括我相信 OpenAI 他们自己,哪怕在 GPT-4 发布之后,他们肯定也是在不断的保持一个快速自我迭代的一个过程,这样才能永远站在这个时代的前面。所以这个是我相信要做一个伟大的公司我的一个感受。那从我的角度来讲,我的体感也很简单,就是如果没有这个心态,我可能对于 AI 这个事情的理解可能都得靠公众号才能教给我。但是因为我个人觉得我们公司或者我个人在尝试去更多的自我反省和思考,今天我们对于 Agent 的思考框架和我三年前开始做的时候其实已经很不一样了。而这种迭代过程一方面很有趣,另外一方面我觉得不管我们公司有没有成功,但确实我们成长了很多,我觉得这个可能也比较重要。
Jay顺着这个话题,我想顺便聊一聊组织。我注意今年初你有一封 CEO 公开信,我觉得信中有几点还挺有意思的。你在信的开头提到心识宇宙存在的意义,第一个就是做一家让员工有「自由感、创造感和美感」的公司(而且不卷)。你还提到:企业发展最大的关键词是平衡,换言之节奏感很重要,要充满节奏感地去随着变化而变化。我们都知道对于一家健康的有生命力的企业,组织力是至关重要的,尤其是拥有高人才密度的科技公司。或许我们的听众中就有心识宇宙将来的员工也说不定,所以也想请你分享一下:

Q2:心识宇宙团队如何在快速迭代中掌握节奏?关于组织建设有什么心得可以分享给大家?

陶芳波对,不卷这个话题蛮有意思的,我喊得很响,但其实做得并不好。
佳芮刚刚也想问,就是创新速度和卷好像一脉相承,你刚刚也一直在聊持续做 small wins,所以怎么能做到不卷?
陶芳波因为这个不卷其实最早的时候,我觉得有一个很小的故事可以分享一下。我在决定创业之前的一年和我的一个后来投资我的天使投资人叫王淮,他是线性资本的创始人。因为我们一起在 Facebook 工作过,所以有一些交集。我跟他聊了很有意思的一个话题,我们在聊一家公司叫拼多多。因为我当时很好奇一件事情,那时候我刚从硅谷回来,然后硅谷的公司你们知道确实不是很卷。然后我发现拼多多其实有一个现象,我就问了王淮一个问题,我说黄峥明明是一个有这么长时间谷歌经历的人,而且他在美国也待过很久,为什么他回国创建一家公司的时候,他会选择的模式是一种很卷的方式,而且还成功了?因为王淮也是在美国待了很多年,所以我就问他,他就说你要适应国情,那个时候我就说我不相信。我说如果我创业的话,我一定想要去试一试有没有可能做一家公司,可以让员工觉得有很大的自由感,但是同时可以做到比卷的公司更好,这个是一个契机。所以我们刚刚成立的时候,我们的愿景里面就有一句话,就是让创造和美无处不在。如果我们的员工都没有那种创造感和美感的话,我相信我们做的产品也是不太会让用户有创造感和美感的。这个是整个的 back story,它的背景故事。但是真正核心的一个点是为什么我这么相信不卷?先说我确实没有做到,但是我相信不卷其实跟我个人的经历有关。因为我自己认为我最有创造力的时间其实就是刚才我提到的最难的那个时间。而那个时间我不仅没有工作,我甚至处于一种半失业状态,而且同时我又处在一种比较孤独的状态。然后我就发现其实人在最自由的时候,其实具有一种特殊的能力,如果说得玄乎一点,就是可以与神对话,或者和某种超越于你生活的一种灵感的源泉去发生一种对话。而这种对话要到来,其实一个人要做的很简单,就是把自己稍微清空一下,给自己的内心留足够多的空间,然后你也不用去刻意寻找,它就会来。其实有点像是艺术家的那种生活方式,对吧?我清空自己,然后让灵感自己找到我。我一直就觉得,如果一家公司里面每一个员工的工作方式是这样的,创新的方式不是尝试去做很多很 hard 的thinking,尝试去写很多报告,而更多的是让自己清空一下,让创造的灵感过来,那我相信这家公司有可能可以成为全世界最有创造力的公司,这其实是我的一个非常美好的愿望。但是我真正在创业的过程当中我也会发现,因为创业公司的定义就是一家马上就会死掉的公司,所以你有的时候并没有这个奢侈去可以 afford 允许这样的方式普遍的存在,因为这可能在短期内会降低你的速度。但我今天依然相信长期来讲的话,有机会我希望把心识宇宙创建成一家真正不卷的公司,而且大家用这种空间感来给自己构造工作动力的一种模式,这个是我的一个个人追求。然后节奏感我觉得刚才提到 pivot,对吧?我也做了好多 pivot,我觉得其实这个过程当中有好有坏。我自己是相信 pivot 的,包括我昨天在跟一个国内的投资人也在聊这个事情。他认为因为这个时代发展有迭代,比方说移动互联网时代,其实你看它的早中晚期,其实大家的商业机会是完全不一样的。早期的公司在晚期是活不了的,晚期的公司在早期可能也是活不了的,因为跟整个基础设施的进展和社会认知有关。那么我相信 AI 这个时代也是一样的,它可能会经历早中晚甚至更多时期,而且你发现每一个时期你背后的基础假设不一样,你能成功的产品形态不一样,你能够构造出来的商业模式也不一样。所以我交流的那个人他跟我讲,他非常相信 pivot 是一个公司的核心能力。因为时代一定会变,你要生存就永远不可能只靠聪明,你可能要靠非常强的 pivot。你要什么时候 pivot?多大程度上 pivot?你 pivot 的到底是技术还是产品,还是某种商业模式?在过程当中你到底怎么样去权衡内部的员工对于这件事情的接受度?因为很多公司的员工,包括公司内的人是不太喜欢 pivot 的,因为你会觉得好像我每天都在变,对吧?但是作为 CEO 或者作为公司的创始人、联合创始人,有的时候被迫要去接受、去选择这个挑战。所以这里面就有一个很重要的节奏感,它也不仅仅是说你看外部的环境变化的时候你应该怎么样去 pivot,比如像我们从国内 pivot 到海外,从 ToB pivot 到 ToC,其实背后有很多因素在起作用。包括 ChatGPT 的发布,包括全世界对于 AI 这件事情的认知程度、接受程度到了一个什么样的阶段,包括中美之间的一些关系,这些都是我们在做 pivot 时候的一些平衡的考量。但是从另一个点上来讲,我发现更难的其实反而不是外部环境告诉你该怎么去选择,而是当你选择了 pivot,或者你选择了以某种节奏感去变化的时候,你怎么样能够拉上你的每一个小伙伴一起去做?我觉得这个事对我的触动很大。因为确实也有很多我们非常欣赏的员工因为这样的 pivot 而选择离开我们公司的,其实还是很让人伤心的。但这里也要平衡,就是平衡你的共识在组织内能够传播的速度和达到共识的速度,和你在外面做选择的时候的这个选择之间也有一个平衡需要去把握。我觉得这个是我学到的最大的一个 lesson。
佳芮其实刚刚我听到组织这一块我还蛮触动的,一个是聊到卷,其实有一个说法是创业公司就是在一个坠毁的飞机上修发动机,所以你飞机持续在坠毁,你就没有机会去有一些平衡,可能等到飞机平稳飞起来以后才能够说真正的不卷。而且创业公司早期我觉得所有公司都会面临一样的问题,就是我们很难找到自驱力非常强,整个团队都是非常强的人,这个确实我觉得在人才上所有的公司面临这样的挑战。像刚刚你讲到的,你本身是一个自驱力很强的人,你自己本身是对这个世界充满好奇心的人,所以你在非常自由的环境下是有创造力的。但确实可能我们创业早期的时候很难找到这样的人,所以可能就没有办法让这个团队全都不卷。另一个是刚才你聊到的 pivot 话题,因为昨天我正好回奇绩创坛内部做分享,聊到包括奇绩、YC,大家都在说所有的公司持续都在做 pivot,我觉得和你刚刚聊到的 pivot 本身也是很大的迭代,包括和你讲到的创新速度也是非常对应的。我昨天聊到的一点和你今天说的特别像、特别巧,我说的点就是其实本身你 pivot 就是打碎自己的过程。我原来信誓旦旦跟团队讲,我们就要往这个方向冲,我们就这个方向,这个方向是未来,然后 8 个月以后我说不对,那个东西是错的,我要改。那你怎么和你的联合创始人交代?怎么去和团队去交代?你怎么真的把自己打碎?我觉得如果一家公司持续在 pivot 还能持续上涨的话,这个创始人的迭代速度是非常强的,真的是能持续碾压打碎自己,这个是非常厉害的,尤其是你们 pivot 这么大的情况下,还持续能往上走,我觉得还是非常棒的。
陶芳波谢谢,这是创业者的共鸣。
Jay我们聊聊 MindOS,我前两天登了 MindOS 官网(网站地址:http://mindos.com),实际感受了一下这款产品,发现有各种专业的智能体在上面,比如行业分析师、旅行顾问、财务咨询、股票分析师等。
我看到你们 COO 林宋琪对外表示过:你们的理想状态是服务一些小型的 B 端客户和相对专业的 C 端客户,基本上是面向公司的决策者。比如说心理咨询师、律师、牙医等由一人或多人合伙经营的小型企业,这是现阶段第一批希望触达的用户,因为这部分人群能够自主完成决策,周期短并有很强的创新能力。我们也知道,在找到 PMF 之前,我们并不一定知道自己真正的客户在哪里以及是谁。寻找 PMF 是一个循环迭代的过程,通过不断的收集反馈并完成验证,使产品达到与市场相对匹配的程度。一切都开始于目标用户,他们将最终决定你的产品在多大程度上能满足市场的需求。所以从 PMF 的角度也想请陶博聊聊:

Q3:目前 MindOS 的用户群体是哪些?有什么有趣的商业用例吗?

陶芳波对,这个问题我其实个人更感兴趣的是关于 PMF 寻找的这个话题。刚才也提到 MindOS 现在是一个 Agent 构建引擎,我们创造了一个 Agent 的 marketplace,大家可以在这里面去分享你的 Agent,然后让别人来使用,它更像是一个 Agent 的交易平台。可能未来也会慢慢再去做一些产品上的 pivot,让它更加偏向于个人,围绕个人的需求去展开的个人操作系统这样的一个概念。我自己是觉得就是 PMF 这件事情,我一直在想这个问题,就是这个词对于今天的 AI 产品是否合适?因为我们以前说 PMF ,比如 SaaS 就会很关系 PMF ,C 端的产品也会有一些关心 PMF 的角度。我觉得今天对于 AI 的产品来讲, PMF 是非常难的。为什么说它很难呢?我其实一直在怀疑,传统的 PMF 的概念在 AI 这个时代是不存在的,或者说至少今天我们其实还是达不到的。因为原来我们做 PMF ,产品经理这个角色会很重要,比如就像你说的,我去找一群目标用户,对吧?看到一个他们的需求,然后做一款产品。但这种模式是在一个比较成熟的基础设施的情况下,产品经理或者一家创业公司可以几乎单维度地去思考这个问题。为什么呢?因为它的基础设施是成熟的,它的技术框架几乎也是成熟的,然后它的商业模式是可借鉴的,然后各种各样的东西在移动互联网时代和互联网时代都是非常 ready 的,所以你要关心的就是市场和产品之间的匹配,其他的东西都已经有成熟的方案可以做了。
但我发现今天这件事情对于 AI 来讲特别难,除非你做的是一个类似于叫 AI plus 的东西,那么其实你的本质还不来自于 AI,你的本质来自于 plus 的那个无论是营销或者说是工业,对吧?那个部分你还是可以去尝试找到很好的 PMF。但如果你做的是一个 AI Native 的东西,也就是说它的核心是 AI,所有的价值都是由 AI 创造的,拿掉 AI 之后这个东西就没价值了。其实也有很多人都在教我们一定要去做 AI Native 的东西,我也相信 AI Native,但你真的去做 AI Native 产品的时候,你就会发现原来基础设施是不完整的,成本是很高的,速度是很慢的,然后交互的范式是没有人定义好的,商业模式我今天都不知道,是通过广告还是怎么样,对吧?当有那么多超出产品的变量在底下在变化的过程中,我觉得寻找 PMF 就会比原来我们做一个移动互联网产品会难很多。也许你可以做一款产品让别人用,但跟 PMF 还是有很大的差距,这个就是我今天的一个感受。那回归到这个点,我觉得我们的产品,包括我认为世界上今天为止所有的 Agent 产品都没有达到传统意义上的 PMF 的那个状态。我们今天也许只能判断的是这个产品是不是提供了一些用户价值,但因为 PMF 里面包含了它的商业的可持续性,包含了整个模式包括你整个市场打法的一种可扩展性,整个这些东西都蕴含在里面,我觉得今天对于 AI 来讲这还是一个 unknown question。那从我们的角度来讲,为什么我们要不断的 pivot?其实今天我认为我们还没有到摸索 PMF 的阶段,虽然我们可能会跟投资人讲说我们是在找 PMF,但从我个人的角度来讲,其实你更多的还是在寻找。
Agent 想象当中如此美好,但是跟这个世界的用户去切的时候,到底以什么角度才能给他们提供真正的价值?都是说一个 AI 什么都可以帮你做,但这个东西太抽象了。所以我们的用户从比如你刚才提到的小 B 和大 C 出发也是很正常的,就是因为这个东西太新了。其实大众的接受速度和我们在投资圈和创业圈的人相比要慢很多很多,哪怕是在海外,更不要提在国内了。就是真正的 AI 大众化,我觉得可能会在三年甚至五年之后才开始。那么在这之前你能关注到的对象,或者真正对你有一种天然的探索欲的人,就是那些 AI 的爱好者、创业者、投资人、专业工作的人,对吧?他们才会真正愿意在这个阶段去跟一个 AI 产品,去投入精力去试它,去磨合它,去尝试把它成为自己工作和生活当中的一部分。所以这种选择我觉得也是一种相互匹配,因为他们也在找产品,我们也在找用户。
佳芮People mission fit。
陶芳波对,people mission fit,或者说叫好奇心和早期产品的 fit,我觉得今天是在这个阶段。当然这个阶段非常有价值,当你成为了这个阶段早期的真的找到那个匹配的人,其实 PMF 也是可预期的,但可能那个会再晚个两年、三年。然后我觉得 AI 整个在 Agent 这个时代也会到一个阶段,比如说5年之后,甚至更长比如7年之后。那个时候也许产品经理真的可以像今天我们做一款移动产品一样,只需要去思考用户群是什么,要解决的问题是什么,然后我应该怎么样设计一款产品去满足用户需求,但其他的所有技术成本、商业模式,所有的问题都可以借鉴成熟的模式来做。我觉得那个时候整个 AI 才真正走向了大众化和普及化。所以我们其实是一个很早期的产品,这也是为什么今天对我们感兴趣的比方说是一个以色列的大学教授,那他是很高知的人,对吧?然后他就会说,我想尝试你这个东西来教自己的医学生,去当他们的助教,真的能够指导他们去完成一些医学实验的过程。然后也会有很多投资人希望通过用我们的产品来完成他们更好的投资工作,更好地找项目。那我们的整个产品迭代,刚才 Jay 也提到了,就是从 prosumer(产消者,专业消费者)开始,尤其是 prosumer 里面的 early adopter 开始,然后慢慢变成更多的 prosumer,然后慢慢变成稍微白领一些的人,然后再慢慢变成可能是像我们爸妈那样的人。
我觉得 MindOS 也会经历这个从专业化走向大众化的一个过程,至少我希望它能够走完这个旅程。然后我觉得很有意思的一个点,因为我们说操作系统,那肯定我们也知道 Windows。后来我们再看那个鲍尔默(微软前 CEO),早期在那给 Windows 卖货的时候,你会发现他卖的东西真的都是给专业人士用的,他会说你做一个表格你可以多快之类的。你看 Windows 这样的个人操作系统,早期其实也是从最专业的人开始,因为完全是一种新范式。所以新范式尤其是生产力工具,你要从最核心的对生产力有最高需求那群人开始,慢慢 Windows 就变成了一个大众平台了。
佳芮:刚才聊到产品,其实我最近一直在思考一个问题,就是今天可能 Prompt engineer 和 AI 产品经理我觉得有很多非常重叠的地方,很多需求是类似的。因为最近我调了很多 prompt,我感觉可能需要这个人有非常强的构建测试数据集的能力,他得知道什么内容是好的,他得有自己对内容的一个品位和辨识。那至于说真的产品是什么样,就像你说的可能远远还没到。我也去 MindOS 平台看了一下,看到有非常多有意思的例子,包括你刚刚讲到像以色列的大学教授,包括一些投资人在想怎么用这个系统帮他更好地做 deal sourcing。其实2016年 AlphaGo 击败围棋手开启了上一波人工智能的浪潮,那时候很多应用的需求和今天的应用需求也是非常类似的,包括上一代有很多创业公司都在尝试去解决这样的问题,只不过因为当时技术还没有 ready,所以这些创意最终没有成为很好的产品。今天有了大语言模型的加持, ChatGPT 的加持,其实从整体的效果来看,可能5年前想做的事,今天真的是可以再去实现30%、40%。因为我之前一直在做聊天机器人,我经常说上一代的 Chatbot 是分类器定义的时代。因为如果想要搭建一个 Chatbot,就必须要提前设定不同的领域,然后标记出不同的意图和实体,通过自然语言理解识别用户属于什么领域,什么意图,然后再去执行下一步的动作。当时在识别意图的时候还要标记各种问题的问法,比如订票的场景就要写十几种订票的问法,然后把这些问法做成一个归类最后定义成意图,再进行下一步的动作,即使这样,在很多识别的时候依然不够准确。今天得益于大语言模型,有了非常多新的技术方法。比如最简单的,可以通过构造 prompt 的方式实现过去的意图识别,直接替代了传统的意图识别模型而且干掉了标准的环节。但是因为大模型本身存在幻觉,所以在一些场景下,这种方法在一些场景下识别的准确率会受到很大干扰。
你们官网介绍说 MindOS 可以开发具有独特记忆、个性和专业知识的可定制智能体,最快只需3分钟。通过构建强大的智能体,可以生成高品质内容并提供针对性服务。这方面也想请陶博分享一下:

Q4:MindOS 如何用新技术解决意图识别、任务调用的问题,以及大模型的幻觉问题的?

陶芳波其实对于用户或者需求场景来讲,应该关心的是 AI 完成任务的程度,或者说是用户的满意度,意图只是其中很小的一环而已。那我稍微分享一下我关于这件事情带来的一个巨大的变化的理解,其实回归到一点就还是说软件和 AI Agent 到底差距在哪里。
人最早的服务其实都是人和人之间的,对吧?在信息时代之前,我们的律师是一个真的人,我们的医生是一个真的人,我们的健身教练是一个真的人。然后我们创造各种各样的 App 和软件,如果用一句话去描述软件的话,它就是对于人的服务的一种有损的压缩。我们因为没有办法让软件具有独立思考的能力,所以我们就把一个服务在过程当中的一些高频的链路从人脑当中拆出来,然后变成了软件的一个又一个的按钮、列表这样的 GUI 的组件,然后让用户在用的时候,看到这个界面的时候,就知道自己高频的需求应该通过这些东西来完成。但事实上这些东西的设计是来自于产品经理的,是他在拆解需求中高频的部分。
但是不管怎么拆,他永远都只能拆出一个压缩过的版本,对吧?因为毕竟没有独立的基于当下的你的场景和需求动态去思考的这个部分在里面。哪怕我们加入了 AI,就是像你刚才提到的五年前的 AI,比如有意图识别。你有没有发现,当我们在尝试把 AI 的过程拆成语言理解、意图识别、动作选择这些部分的时候,其实你已经认为它没有智能了。
佳芮是工程化的AI,所以变成了人工智障。
陶芳波因为你不信任它的智能,你才需要去拆它。如果你信任它,你觉得它拥有像人一样的智能,你为什么要帮它去拆这些东西?我跟你交流,我会说你的意图识别对不对吗?我不会关心这个部分,因为它只是你大脑思考当中的一个环节。所以今天大模型带来的一个巨大的改变是什么呢?就是因为它拥有了某种我叫做组合涌现的能力,不仅是涌现,而且是把比如说推理、记忆这些东西都组合在一起去涌现在一个模型里面。所以就把原来对于无论是像软件那样去拆分任务流,还是像 AI 那样去拆分任务环节,把这些模式都给打破掉了。
在这个时代你一定要把 AI 当人看。如果是人的话,我无论是找任何一个人去帮我完成一个任务,我需要给的是什么?给合适的 context。至于说他用这些环境里面的信息和信号怎么样去完成这个任务是他的事,不是我的事。那这个时候我们做新的 AI 产品也是一样的,你不用管他的语言理解的部分怎么样,像我们以前还会做什么 NER(命名实体识别)、POS tagging(词性标注),然后 intention the classification(意图分类),然后 classify 了之后才会说我这个 intention 要对应那个 action,对吧?这些其实都被压缩成一个环节了,就是你告诉它你有这些 action 可以做,然后你又告诉它你有这些用户的需求和用户过去的一些任务的记录,那它会怎么选择?然后它这一步选择其实就已经把所有的这些中间的环节都压缩在里面了,这是今天 AI 的使用方法。
但是这个 AI 的使用方法,你会发现它做单步的判断和选择还是 OK 的,但是我们如果把这种思考模式叫做系统1的思考,人还有一种叫做系统2的慢思考的过程,对不对?我们做一件事情的时候可能可以分步去拆解,然后一步一步地去规划,通过中间过程的结果再来重新判断下一步该怎么做。这些能力在 ChatGPT 的那个模型里面是看不到的,所以我们需要为大模型再去构建一套类似于系统2的架构。
Agent 这件事情从技术上来讲很大程度上就是在构建这套架构,通过这套架构把 AI Agent 和外部世界连接起来,而且这种连接是自主式的连接,而非是用户一步一步指导式的连接。这种自主式的连接一旦产生了,我们就说它其实是对于人类服务的一种无损的压缩。就是它可能把人类的服务能力压缩到了一个软件里面,这个软件可能是一个 AI Agent,但它是无损的,因为它具有像人类的判断过程在里面,这就是一个很厉害的点。所以我觉得今天如果说我们要做 AI Native 的产品,我们首先一定要把它当人看,你怎么跟人交互你就怎么去利用好它。如果它缺少一些跟人有关的部分,我们再通过补充一些工程的架构去满足,但不要把它应该做的事情让人来做。因为你一旦这样去做,你做着做着就会发现你其实还是在定义 workflow,你还是在定义任务的需求。那最后你做了这个东西,虽然背后有很多 AI,但其实你的交互和能力跟你做一个传统的 App 和软件可能没有太大区别,这个是我认为很有意思的一个点。那至于说 Planning 里面有很多技术大家都在研究,像我刚才提的系统2的一些层面的东西,比方说像 ReAct 这样的一个技术框架。
ReAct: Synergizing Reasoning and Acting in Language Models。地址:https://arxiv.org/abs/2210.03629
像 Auto-GPT 里面有一种我们叫对于工作记忆的一种建模,对吧?那里面有很多很多技术细节,我觉得这些技术细节就回归到我刚才一开始分享的那个案例上,你真的发现其实这些技术的方向以前 AI 的人是不研究的,以前谁在研究?认知科学的人在研究,脑科学的人在研究。他们会说这个脑区是做工作记忆的,那个脑区是前额叶,是做判断和分析的,这个脑区是放一些长期记忆的,然后我的思维的过程、认知上面的这种模式,以前我们在 AI 的文章里面是完全看不到这些东西的。所以今天的 AI,其实当你真的要尝试去构建真正好的 Agents,或要想要去推动这个技术进步的时候,你必须去结合这些学科里面对于人本身思考的一些建模,然后和大模型的训练技术结合到一起,这样就会很有意思。
刚才还提到一个很有意思的问题叫幻觉问题,对吧?其实我觉得幻觉和创造力本身就是一体两面的东西,如果 AI 没有幻觉,那它一定也不是真正的智能。如果没有幻觉,那无非就是在记忆,那如果在记忆,然后把记忆的信息重新组织起来说出来,其实传统的技术我觉得做得也比较好。我们今天其实想要把控的是它的幻觉到底是不是 make sense,其实本质上是想解决这个问题,那我觉得幻觉要允许它存在。
但是幻觉的问题是像我刚才提到的,我加入了一些更加复杂的规划机制,比如说我给它一个复杂的任务要分8步去做,那每一步如果出错率都是20%,你可以用最基础的概率计算去算一下,你会发现它的完成率、成功率可能不到20%,这就是一个很大的问题。人类是怎么来解决这个问题的?我们还是回归到人,人脑其实也有幻觉。你今天做一件事情分了8步,其实每一步你的出错概率也不低。但是人有一套机制,有一套自我监控体系。
比如当你做到第四步的时候发现结果不对,然后你会回去再从第二步开始换个方向走,对吧?就是人其实是有一些宏观的机制在确保不断地 validate(验证)中间的这些结果是否符合最后的那个目标的。而今天其实我们在说 AI 有幻觉的时候,其实我们缺乏这套机制。
所以今天我觉得也有一个很有意思的现象,从技术上来讲其实是有两股力量在拉扯。一股力量就是我尝试给 AI 去做更多步的思考,尝试让它的能力变得越来越丰富和复杂,越来越自主。因为我做一个自主的任务,我一定是分好几步的。但是这里就会引发幻觉的放大。另外一股力量是我希望为它能够横向去构建一种机制,让它无论步骤有多少,我都可以不断地去 validate,使得它永远都有一个很强的对于目标的方向感。那么这又可以把幻觉的问题往下减,或者至少是希望它产生好的幻觉,产生符合我们目标的幻觉,而不是偏到姥姥家去了。
因为我们用 Auto-GPT 就发现骗到姥姥家去了,做着做着它都不知道自己在干嘛。所以 AI 最大的问题是不知道自己在干嘛,但是人是知道自己在干嘛的。所以哪怕任务再复杂,比如说我做一个任务花三天时间,我中间可能有成百步上千步,但我依然知道我在干嘛,我最后做的东西又好又复杂,但是又稳定。那这就是我觉得今天在做 Agent 这件事情的时候,我们在技术上可以去尝试解决的问题。但我不认为这里有什么科学上的障碍,我觉得是一个工程上的障碍。如果我们足够了解大脑的运作机制,认知科学给我们提供的那些理论支持,我觉得是可以做出来的,这个是我比较乐观和有信心的一个点。
佳芮我觉得还蛮有意思,把认知科学和工程去做一个结合。其实我在最开始接触 ChatGPT 和大模型的时候,包括你刚才也在聊哲学,你有一段时间在研究偏意识形态的内容,我发现今天我们说去研究机器,可能更多真的是去先研究人和人的交往是怎么样的,再进一步去想人和机器的交往。我们也说 prompt 本质上就是你能不能清晰地表达自己,你和人有的时候都没法清晰地表达自己,最后没有办法让人帮你去完成任务,那反过来你说这个机器好蠢,因为你没有表达好自己然后你反向去责备机器好蠢,这也是一个非常低级的行为。
你也聊到幻觉,我就忽然想到一句话,就像你说的,其实就应该让机器有幻觉,人也是因为不可控才变得有魅力,才变得让人很向往。所以陶博是一个同时拥有多学科思维,同时把工程和哲学混合在一起的人,学习到很多。因为刚才我们也聊到了很多 Agent 话题,心识宇宙也是一家做 Agent 的引擎,我们接下来就一起聊聊 Agent 的话题。Agent 一词其实起源于拉丁语( Agere ),意思是「to do」。Open AI 安全团队的 Lilian Weng 对 Agent 有个定义是 Agent = LLM(大语言模型)+memory(记忆)+planning skills(规划能力)+tool use(工具使用)。
Lilian Weng 推文链接:https://x.com/lilianweng/status/1673535600690102273?s=46&t=0hi_zov6zXj3Ap9cGzwJ3w
当然这更偏自主智能体(Autonomous Agent),主要是为人类服务,更像是一个高效的工具。自主智能体就是可以根据人们通过自然语言提出的需求,自动执行任务并实现预期结果,比如 Auto-GPT。另外还有一个生成智能体(Generative Agent)的概念,主要是为了模拟人类行为,更像是一个有情感和个性的伙伴。生成智能体可以在同一个环境中生活,拥有自己的记忆和目标,不仅与人类交往,还可以与其他智能体互动,比如斯坦福小镇以及更远的具身智能。LangChain官网给的一种解释是说,Agent 是根据用户的输入,来决定是否使用工具以及具体使用什么工具。
链接:https://docs.langchain.com/docs/components/agents/
我的理解是 Agent 的一个很重要的环节是「Action」,也就是行动,在很多场景下直接调用 API。想请陶博站在资深从业者,同时也是目前专注在这一领域创业者的角度给大家讲讲:

Q5:什么是 Agent ,Agent 和之前很火的 Copilot 和 Chatbot 有什么区别,以及 Agent 和大语言模型的关联是什么?

陶芳波我觉得这个问题特别难回答。我自己其实不是很喜欢 Agent 这个词,包括你刚才提到的 LangChain,我觉得它对 Agent 的定义是非常狭隘的,当然可能也是为了更好让人理解。甚至包括 Lilian Weng 的那篇文章说 Agent 是大语言模型+记忆+规划+工具也是。
为什么我觉得这是一个很局部的视角,是因为 Lilian 那张图是我当时在阿里的时候就画过的,我们当时阿里那套系统就是类似的,就是让一个大语言模型上面加记忆系统,加行动能力,加一定的规划能力,其实就是那张图,一模一样,也有四个方向。
佳芮追你的步伐。
陶芳波也不叫追我的步伐,因为他们还是模型做得更好,我们当时的模型很差,所以其实当时最终的表现没有那么好。但是我后来重新在认知,我觉得我在不断革自己的命,我就觉得那种视角很狭隘。
我觉得 Agent 这个词不好,是因为历史上有很多波 Agent。最早的那种 Agent 其实是网络的 Agent,网络代理,对吧?其实就是纯工程的,也叫它 Agent。后来强化学习出来了之后,很多人拿强化学习里面的那个可以跟环境交互,然后会下棋、会打游戏的东西也叫 Agent。现在我们似乎又为 Agent 赋予了一种更宏观的概念。我本来是一直叫 Mind,我觉得 Mind 更好,而且 Mind 的目标非常清晰,全世界有真正 Mind 的只有人类。那么如果我说我在创造一个 AI Mind 的时候,其实就是在尝试去从人类的视角去看待它。
那我举个例子,如果我们从人的能力的视角来重新评估 Agent 这件事情,你刚才提到的 Action 其实就是特别简单的一个东西,就是和外界环境去互动的能力,这个环境最简单的就一堆 API,对吧?我把一堆 API 告诉 AI,然后说这是你现在要做的事情,你要在里面选一些 API 去用,然后完成一个任务。我觉得这个就是人类拥有的和外界互动的能力。但人类拥有的能力除了这种可以直接去选择工具使用,其实还有一些更强的和外界互动的能力。我可以跟一个动态变化的环境去互动,对吧?我可以跟一个浏览器去互动,点一个东西就会出现新的结果,然后我再去判断下一步怎么走。或者说我们人类生活在这个物理世界里面,其实环境也是在不断变化的,所以和外界的互动性只是人作为一种高级智慧其中的一个维度而已。
为什么我会认为我们需要用一种更加广义的角度去看 Agent?是因为最终 Agent 一定会成为某一种社会参与的主体,它一定是跟人具有某种比较平行的能力集合,人才可以把对于另一个人的投射,投射到 AI 上面。我对于比如坐在对面的二位的投射,我肯定认为你们有和外界互动的能力,我肯定认为你们有自主性,对吧?不需要每一步都让我来指导;我肯定认为你有某种长期性,也就是说今天我做了这个 Podcast,不会下次再聊的时候你们什么都不记得,甚至你的想法不会有任何变化;然后我肯定觉得你们有某种社会参与性,对吧?
还有一个很重要的点,我们交互的过程难道都只是 chat 嘛,对吧?如果我今天是在线下跟你们聊,可能我们就会拿一块白板边讲边画。
佳芮今天好可惜没在线下。
陶芳波也许我们就可以一块去看个电影或者去散一个步,对这个世界的环境再去发生互动。所以一个纯粹的聊天框其实是人和人之间交流的很狭窄的一个通道,人和人之间还知道怎么样更好的交互。所以从这个角度来讲,我觉得 Agent 能做的东西非常多,但是由于语言是很具有欺骗性的,就 Agent 这个词因为过去被赋予了别的意义,所以不同的人看 Agent 的时候我发现真的很不一样。那 Action 当然是第一步,没有 Action 那 Agent 不管怎么样就都是一个聊天机器人。但是有了 Action,它就能超越聊天机器人了吗?也不一定。你看 ChatGPT 在做 plugin,它尝试把大模型加上一些背后的能力。但我依然不认为 ChatGPT 加 plugin 是一个 Agent,因为它缺失了一些我觉得最基本的东西。比方说从交互的角度来讲,它缺失了一种多种模式之间的切换。
所以你刚才提到一个很有意思的点,一个叫 Chatbot,一个叫 Copilot,我自己觉得它们都是 Agent,但它们都是 Agent 的一种交互模式。
今天我们是要重新去定义 Agent 和你的交互模式是什么样的,这个在我们做 MindOS 的时候体会很深,可以给大家介绍一个 MindOS 里面的 feature。它有两种模式,一种就叫做 Chat 模式。在这个过程中你跟它聊,你给它下一个任务,然后它就会告诉你一步一步思考的过程当中它是怎么样执行动作来完成任务的。
但是它还有一个模式,我们叫 Canvas,就是画布模式。画布模式打开了之后,当 AI 产生了一个报告,或者 AI 画了一幅画,你可以把它放在一块白板上,你跟它并肩地站在一起,跟它去讨论,跟它去共创。这时候是不是有点像Copilot,但 Copilot 面对的对象不是一个静态的软件界面,而是一个动态的由 AI 自己现场画出来的东西,这就很像人和人在用白板交流。所以 Chatbot 和 Copilot 其实只是视角不同,一种是我们面对面的视角,一种是我们两个并肩面对一个环境的视角,我觉得它其实就是你和 Agent 未来的交互过程当中几种不同的视角而已。除了这两种视角,我们有没有别的视角?比方说我们可以有一个长期的任务流、思维流的视角,你可以跟 AI 去讨论你过去 partner 的过程当中,到底是有哪些有价值的东西,然后也可以拿过来对今天我的需求是有帮助的,这就是一个历史视角了,对吧?
然后还有一个就是群体视角,就是说 MindOS 为什么要创造一个引擎,把不同的 Agent 放进去,是因为我觉得将来它会走到一个程度,是 Agent 和 Agent 之间,其实是 as a group, as a team 来满足你的。那么其实这时候你已经面对的就是一个群体了,而不是一个聊天框了。所以我觉得 Chatbot, Copilot 都是 Agent,但 Agent 又远远超越它们。
所以我觉得大多数人对于 Agent,如果我们一定要强行去切分的话,我觉得 Agent 这个概念在三个层面上是需要有巨大的突破的。第一个就是背后的技术,对吧?我需要它能够跟环境交互,有自主分析的能力,这是技术层面它的后端能力。第二个就是交互形态,我觉得如果最后所有的 Agent 做成的都是 Chatbot,这个世界就太无聊了。我每天和 10 个 Chatbot 聊天,然后天天打字,我这不是回归到原来的 DOS 时代了吗?这一定不是我们想要的一个世界。所以一定有一种全新的交互范式,需要通过 Agent 这样的方式出现,也许是我刚才提的视角切换的模式,对吧?第三个就是 Agent 和 Agent 之间到底应该怎么样被组织起来,到底构建了一个怎样的生态和社区?我觉得大概有这三个命题。
因为社区的问题又关系到 Agent 和 Agent 之间服务的分发应该怎样完成,软件的分发是通过 App Store,对吧?用户去下载一个独立的 App Store,然后在你的屏幕上放一个16宫格或者25宫格在那里面去选择。但是我们将来如果真的是手机上有50个 Agents,我要看看我每天要翻哪个人的牌子吗?去跟它聊一下?不需要对吧,你其实不需要去关心那么多的复杂度,其实它们之间互相之间的分发协作已经自动就完成了。
所以我觉得大部分人今天在研究 Agent 的时候,是从能力的角度来研究;我认为交互和生态和它如何被组织起来这样的问题一样重要。我觉得只有把这个想清楚了,可能 Agent 才可以成为一个真正我们认为的全村的希望,因为我们老说大模型可能不够,要 Agents。我觉得 AI 真的要成为颠覆互联网的东西,它一定是把后两个阶段的问题,交互的问题和组织结构的问题,分发的问题也能够到一定的成熟度才可以。
佳芮对,你刚才聊到,不能期待一个智能体还得需要人去控制它,既然它能够完成这个小任务,那它也能完成一个任务的调度。从我的理解看,你觉得 Agent 很重要的一点是它能够根据环境的变化,根据外界的变化让自己有一些调整。我们前面也聊到 ReAct,其实它很创新的一点就是在过去研究的时候,都是把推理和行动是分开两个命题去研究的,但今天我们说 ReAct 的时候是把推理和行动都结合在一起,然后我的行动收到反馈以后会影响我下一步的推理决策,然后再去做行动,这样循环去做的。
又回到我们最开始聊的这个话题,创新速度和迭代,pivot,其实我发现人和智能体是非常相似的,我们希望打造的智能体就是能根据外界的变化不停地改变,我们其实自己要打造一家伟大的公司,核心也是我们能不能适应环境的变化,让我们也持续发生改变。
Jay我们顺着这个话题聊聊 MindOS。可能听众有些不一定能够体验到这款产品,但是大家其实听了很多关于 Agent 的话题,或者说从其他渠道了解到 Agent 会觉得很 fancy 对吧?我们描绘了非常多有趣的有想象力的东西,作为一个普通用户大概率会很期待这些 Agents 给生活带来的各种便利。但对于像我这种非技术背景的人来说,如果想要直接自己通过 prompt engineering 的方式搭一个 Agent 其实还是很困难的。
MindOS 作为 Agent 引擎就可以很好地解决这个问题。7月3号心识宇宙在 Product Hunt 上发布了最新版本的 MindOS(地址:https://www.producthunt.com/products/mindos),并且当天就在 SaaS、Productivity 和 AI 三个领域位居榜首。另一方面,我们知道像在 AI 独角兽 Character.AI 上也可以自己搭 Bot 或者叫 Agent ,当然这款产品更偏娱乐属性,不过我也看到前面提到的你们联创&COO林宋琪公开表示过:可以把 MindOS 平台理解为一个功能性更强的 Character AI。
说到功能性我想起来之前 OpenAI 总裁 Greg Brockman 曾经在一次公开演讲中现场演示,通过ChatGPT Plugins就能直接完成任务,比如购买食材,还能自己发 Twitter ,当时非常振奋人心。虽然后来事实证明这件事情被高估了,就连 Sam 自己也说过他不相信 ChatGPT Plugin 除了 Browsing 之外还有其他的 PMF 。不过我个人认为大家的目标某种程度上都还是比较一致的,都在尝试去摸索找到未来世界的入口。也想请陶博就这两个大家比较熟悉的产品进一步分享一下:

Q6:MindOS 和 Character.AI 以及 ChatGPT Plugin 的区别是什么?

陶芳波对,这其实是很多人都会问我们的一个问题。我一直以来有一个感觉,我认为当一个新物种出现的时候,其实在早期你是很难区分出 A 和 B 的差距的。就比方说早期的今日头条和其他新闻 App,其实看上去对于普通的用户来讲很容易产生一种错觉,就是它只是另一个新闻软件。或者 TikTok 和比如说我们以前很早其实就有一大批短视频的应用,比如美拍。就是物种发育的时候,就像我们人的胚胎和老鼠的胚胎小时候都是长一样的,但是越长大就会越不一样。那这里面的不同是什么呢?我觉得关键在于创造它的这个人对它视角理解的不同。
为什么我这么讲,我当然不知道 Noam Shazeer 就是 Character.AI 的创始人,包括 Sam 或者 Ilya 他们,就是 ChatGPT 的创始人他们脑子里面对于这件事的构想是什么?我只能通过他们产品形态的演变去看他们怎么来定义这件事情。
我认为 Character.AI 和 ChatGPT Plugin 他们肯定都希望做他们心目中的 Agent,但我今天看到的他们对于 Agent 的定义还是像一个能力更强的 Chatbot。当然他们俩能力强的方向也不一样,Character.AI 强在于它的个性和趣味性,而 ChatGPT Plugin 强在于它的逻辑性和它的开放性。我认为我们做的东西都不能叫做 AI Native,如果一定要去取一个名字,你可以叫做 Agent Native。它里面蕴含了一个很大的假设,就是这个社区里面的基本单元到底是什么?基本单元是一个独立的 Agent 吗?还是说它是一个plugin?
Plugin 本质上是某种外部的工具,这个工具可能是一个数据库,可能是某个发 Twitter 的行动指令,对吧?所以它有点像是说我这个系统只有一个主体,就叫做 ChatGPT,是一个麻雀,但是我为这个麻雀装很多很多不同的翅膀,让它能够飞得更厉害,而且用户可以选择我当下要去用什么翅膀去飞。但是我们的理解是在未来 Agent 的世界里面,其实这个社区里面的基本单元是一个 Agent,也就是说它本身就是一个麻雀。那这个麻雀它本身虽然很小,但它是五脏俱全的,它有它自己的记忆系统,它有它自己的和用户全新的交互界面,它有它独立的一套工具集可以去使用,它有它自己背后的个性,它有更好的满足于你的服务的能力。所以其实你一下就能差别出来。一个是认为我要做一只超级麻雀,它有1万副翅膀;还有一个是说我希望做一个麻雀园,里面有各种各样的麻雀,每一个都是一个完整的主体,然后它们之间互相在用一种超越于 API 的方式去沟通,用自然语言方式沟通。我觉得这是跟 ChatGPT Plugin 最大的区别。和 Character.AI 的区别,你刚才也提到斯坦福小镇,所有的这类 Agent 我们会叫做 Social Agent,它更偏向于怎样去挖掘人的社会性的部分,而不是挖掘人的逻辑性和理性的功能性的部分。这个在早期可能是有一定的差距的,我们确实是希望有很多很多 Agents 在我们的平台上,但它是偏功能型的,然后它更像是每一个人组建了一个自己的 one man army,而不是说我找了一堆朋友,每个人都很有趣,我跟他们去聊天。这是我们跟 Character.AI 的区别。
我们希望给每一个人真的能创造一个他自己的 AI team,这个 team 你拿来跟你一块创业也行,或者说只是你公司里面的一个员工,你拿来帮助你去做各种各样任务的完成也行,都可以。但是它一定是尝试去解决你的效率的问题,或者说是解决你的复杂工作的脑力 load 的问题,我觉得这个是比较重要的。
为什么我们想用这种方式去切入,还涉及到一个我个人的价值判断,就是我觉得如果将来这个世界变成了大家每天都跟 Agents 发生很多的互动聊天,或者说每个人最后很多时间都花在跟 AI 聊天,而不是在跟人互动上面,我觉得这不是一个更美好的世界。所以我希望我们的 Agents 可以更好地让人有更多的时间和空间能够被空出来,我们不用每天打那么多电话去同步一些事情,然后我们不用每天去做重复性的任务,这样的话我们就有更多的空间做人和人之间那种更加真诚的沟通,也许就可以向我们说的「让创造和美无处不在」这个愿景能够更接近一点。
佳芮不卷真的到来了。
陶芳波不卷可能真的就到来了,但是其实技术这件事情很危险,因为背后有资本的力量在,你总是希望更多地霸占人的注意力,对吧?更多地霸占人的时间,所以很容易不小心就变到了反方向的一个选择,这个可能是我个人非常希望能够避免的。
Jay我觉得其实是大家不同的 vision 和 trade-off 之间的区别,可能大家构想的未来世界是不一样的,然后你想要去创造的那个东西也不一样,或者说基于当下自己所处的环境和现有资源所选择的路径是不一样的。比如说其实 Character.AI 我也用,我觉得跟苏格拉底聊一次天也有一些意思,但我并不想一天都跟他聊天。或者说像乔布斯说的愿意和苏格拉底共度一个下午,但我不会用我的生命交换。但我想表达的是这件事也有价值。但另外一方面, AI 是提升生产力的,我们想要让大家生活更加便利,让大家能够更有时间去做自己有意思的事情,去接触真实的生活。我觉得就是大家所预想的那个未来可能某种程度上有一些不一样,或者因为世界也是多元的,所以我觉得也不分好坏。
我们顺着这个去聊下一个话题,刚才其实涉及一些差异化竞争的话题,但还远远没到。如果说 Agent 将来真的会无处不在,并且类似互联网和移动互联网的演进过程,那么 Agent 平台就可能成为操作系统级别的入口,也必将是兵家必争之地。无论是 iOS 还是安卓,无论是英伟达或者其他工具协同类平台,构建壁垒的方式都绕不开生态和体验,只是具体接入和使用的东西不一样而已。你之前也对外公开说过:通过更全面的能力、更丝滑的产品、更简单的交互,让中小企业甚至个人也能快速定制属于自己的 AI 助手或数字员工,帮助行业应用开发者更高效地创建自己的服务,是你们下一步的目标。在这个问题上,想请陶博分享一下:

Q7:作为一个 AI Agents 生成平台,MindOS 要如何构建壁垒?

陶芳波我觉得你已经回答了这个问题,我觉得就是体验和生态。很多人以为技术是壁垒,我觉得技术不是壁垒,在这个时代技术都是组合创新,然后是 small wins,所以包括 OpenAI 在内,其实没有一个公司是靠技术来构建壁垒的。但是体验我觉得很重要,对于一个未来有可能成为入口的 Agent 平台,我觉得它的体验一定是围绕着每一个人的真实需求出发的。但是做技术很容易做成炫技,我觉得我们是犯了这个错误的,所以我们现在也在尝试改正这个错误。
然后第二个我觉得功能也不是壁垒,生态是壁垒,这个我也非常认同。因为从最抽象的角度来讲,我认为真正厉害的创业者其实是一个信仰的传播者。最厉害的产品一定是用户创造的,不是公司的开发者创造或者产品经理创造的。为什么这么讲?比方说 Facebook,你觉得这个平台它的功能很厉害吗?其实没有的,但它所有的价值都蕴含在用户被 Facebook 传播的这种信仰认同了,让它在上面去不断地丰富多样性。苹果也是一样的,他们认同了 Steve Jobs 的信仰的传播,所以为他去创造了很多很好的体验。但是从纯功能的角度来讲,我觉得如果拨开上面所有的这些生态和用户的参与,其实这些产品不可能像今天这样成功。所以我觉得最好的创业者,最厉害的创业者一定是在构建某种有点像是宗教。其实宗教也好,政治也好,包括做一个产品也好,本质上都是尝试把某种信仰注入到大家的内心,并且让他们发自内心去认同,并且愿意去以超越经济回报的方式参与到这个过程中来,从而你就带动了整个社会或者说社会当中很大的一部分人群跟你一块去创造这个产品。因为你一个人无论多么聪明,一个人的脑子包括一个100人团队的脑子,再怎么聪明也无法创造出足够的多样性和丰富度,一定是要用户参与的。所以我很喜欢去做类似这样的事情,是因为我很欣赏这些伟大的创业者,我觉得像他们那样去思考问题,像他们那样去影响人们的生活,去尝试影响他们内心对于一些事情的信仰,是非常非常有趣的一件事情。如果有一天我们要成功,也一定是靠这种方式成功,而不是靠说 MindOS 背后的技术很厉害,或者说我们有一个天才的产品经理。当然天才的产品经理可以把体验做得很好,但最终还是回归到你怎么让用户来参与到这个产品的设计里面,参与到这个产品的创造里面。而且 AI 时代你会发现能让用户去定义体验的产品往往是最成功的产品。
Jay我们接下来聊聊出海。了解到其实一开始 MindOS 主要是面向国内市场提供 ToB 服务的,合作了一些头部的包括电商、游戏、科技等企业客户。到今年4月份就看到你们在海外市场 launch 内测版了,并且有很多海外媒体开始发布 MindOS 的信息。我搜了一下你们的社交媒体账号:今年2月注册 Twitter ,4月开始运营;4月同时开始运营 YouTube ;然后也看到 Mindverse 官网(地址:http://www.mindverse.ai)现在显示总部在新加坡。你之前海外大厂的经历我们开头就提到了,我记得联创& COO 之前也有 Facebook、Tiktok 这些大厂市场管理的工作经验,我们也知道国内无论是大模型还是软件市场都存在或多或少的问题,这些应该都和你们选择出海有关。想请你分享一下这段故事:

Q8:心识宇宙为什么出海?以及从软件来说,全球与国内市场的核心差异是什么?

陶芳波我首先要 disclaimer 一下,我觉得在出海这件事情上,可能听众中的大部分人都比我更有经验。对于我们为什么出海,其实也是一个主动选择加被动的选择,主动的部分就在于毕竟我们的初创团队很多都是有海外经验的,那么对于我们来讲,其实这一代的中国创业者如果有机会去做一家世界级的公司,肯定是一个梦想。我相信马云、张一鸣这样的上两辈的创业者其实也有这个梦想,但我觉得这一代抛开一些外部因素的话,其实我们会准备得更好一点,毕竟我们有真正在海外的足够多的经验,这是主动的部分。
被动的部分其实跟整个大模型的格局有一定的关系,为什么2月开始去考虑,是因为我们发现 ChatGPT 的出现并不只是一个技术,它更多带来的是一个对于市场认知的培训,它让尤其是海外的无论是 B 端的客户还是 C 端的专业人士认识到, AI 真的可以变成生活的一部分。这个教育在过去 AI 发展的 70 年都没有完成过,所有人都觉得 AI 还是很远的东西,或者说是影响不到自己生活的东西。所以这里要感谢一下 OpenAI,他们做了这件事情之后,让做 AI 公司虽然竞争变得更激烈了,但确实也让这个市场对我们更友好。
然后这个市场更友好的其实是海外,因为国内的话由于一些限制,所以大部分人在中国可能今年和明年更多的还处在追大模型的阶段,还没有机会能够发展到 Agent 。因为我们是这么多年一直想要做 Agent,那如果海外的 B 端、C 端的用户对于这件事情的认知度和接受度更高,我觉得我们也应该顺势而为去走海外这个市场。至于出海这件事情背后的什么 PLG,然后 GTM 的策略,然后海外的商业模式,什么 subscription model、 consumption model,我一概不知,都是现学的,因为我以前是一个搞技术的,反正就是学。
然后我也可以从你们这样的播客里面学到很多,然后也看了很多出海成功的公司,我觉得确实我们还是一个学生的心态,在尝试把这件事情做好,因为目前我们做的也不是特别成功,但我们希望能做得越来越好。
佳芮相信你们的创新速度和迭代速度,我觉得这是你们最核心的优势。
Jay对,就是一群聪明人做事,哪怕一开始或者是中间走过一些弯路,只要时间足够长,早晚能做出点事。
佳芮对,下一个问题有关你个人。你之前在微软研究院、Facebook、阿里达摩院这些海内外大厂都从事过 AI 相关的工作,也在内部带领团队做过一些大项目和新项目。我觉得既然选择创业大概率是看到了什么非去不可的未来,或者经过深思熟虑然后因为一个特别的契机完成了临门一脚,总之当初一定是怀揣着某种追求才下场创业的。但脱离了大平台的资源,以及2022年极其不确定而低迷的市场和资本环境,我也看到你在CEO全员信中说:2022年创业时,谁也没有想到这一年的关键词是“活下去”。迷茫和不确定性,是这一年给几乎所有人的注脚。融资、商业化、招聘、甚至零食供应都受到了很大的影响。同时这一年也走了不少弯路:比如反响平平的产品,比如陷入战略上懒惰战术上勤奋……现在距离年初又过去了大半年,相信这大半年你又生长出了新的体验和感受,能不能请你给大家分享一下:

Q9:在海内外大厂从事 AI 相关工作与自己下场做 AI 创业公司有何不同?最深的感受是什么?

陶芳波在开始创业的第一天,我内心可能就有一个声音冒出来说:打工的话这辈子都不会再去打工了。因为我有一个对于这个世界的看法,一个观点,或者说是我的人生观,我觉得蛮有意思的,可以分享一下。我觉得这点受到 Steve Jobs 的影响很大,他在一个采访里面有一段话我印象非常深刻,他说,你不要觉得这个世界是没有办法变化的,这个世界是一个已经存在的 Established System。这边戳一下,那边就会冒出来,然后这边戳一下,那边就会冒出来。是这样的,你可以影响它。
但第二句话我觉得更震撼,他说,你也不要觉得你能力不够,其实这个系统不是与生俱来的,而是被人创造的,而且是被那些 people not smarter than you 的人创造的。其实他们没有比你更聪明,也不是真的比你天才很多,就是因为他们从第一天开始,他们的目标就是去改变这个系统。当然这个系统指的并不是说什么政治系统、经济系统,它是一个更宏观的东西,everything。
我后来就一直在思考一个问题,因为我读书包括读博、工作其实都还挺顺利的。但是我后来发现一个事情,就其实那个不是在创造这个系统,而是说这个系统别人已经建立好了,然后我是想要去优化一下被设计好的一些规则,然后我在这个优化的赛道上一直尝试成为第一名。因为尤其我们中国人的教育会把人培养成这样的思维,就是其实你并不想跳出那个赛道,而你只是希望在那个赛道里面比别人做得好。
那改变这个系统其实就不一样了,改变系统是你要打破所有对于这些赛道的定义,我为什么一定要去做最好的基金经理,为什么一定要去做升职最快的华人工程师,为什么高考一定要考全省状元?因为这些都是以前别人设计好的系统的结构,没有你其实第二名自然就变成第一名了,所以其实不需要你。不会说没有你这件事就少了个第一名,实际上只是少了个人,而第一名还是第一名,还会有第二名、第三名。所以后来我觉得这个事就特别没有意义了。如果说人生只能活几十年的话,尤其在30岁左右,我就觉得要不去试试看能不能去改变一下这个系统。那么改变这个系统你就很难在大厂里面去做了,虽然我觉得阿里和 Facebook 待我不薄,还是给了我很多机会的,但同样你依然没有办法完全去掌控。
你想要可以去戳一下,怎么样去把里面的一个东西调一下,慢慢去走到改变系统那个阶段。我觉得这个是我当时创业的初心,我觉得这件事情在宏观上你去尝试把这个系统的结构按照你认为更好的方式去改变一下,这个事情很美妙。但是真的做的时候你就会发现太难了,如果说2022年是活下去,我2023年都不知道该用什么词了,可能就是无语的状态。
不只是对我,而是对整个行业来讲,宏观大环境确实很差。但同时哪怕宏观大环境很好,其实你也会发现比如说我们在做的 Agent 这件事情,尽管有 OpenAI 帮我们做了大量的市场教育工作,但你会发现你真的要去把这样的一个理念传递给别人,让别人从原来的结构里面跳出到一种新的变化的结构里,只是画个饼说这个更好很难做到。
你真的要聪明得多,去找到一点点小的切入点,把这件事稍微往外拉一点再拉一点才能达到。所以你会发现一个老的已经构建起来的系统,改变它的阻力比你想象的大得多。这也是为什么你会发现当你去看这个世界的结构的时候,你可能可以数出全世界历史上不超过50个人为这个结构真的做了显著的贡献,也就是说这个世界的结构可能是由人类历史上不到100个人构建的。
Jay《人类群星闪耀时》。
陶芳波对,可能就真的只有这么一些人。所以你想要真的能足够大的去影响这个系统,成为那里面的其中一个人,可想知这件事有多难。我是更加真实地体会到了这种难,我觉得这个难给我带来的一个教训是什么呢?就是原来我还是一个很有野心的,至少是雄心勃勃的人。我现在学会的是,有期望可能有的时候反而是一件不好的事情。
当然你已经选择了这个事情,这件事情本身肯定没有问题了,因为你有一个美好的愿景,你希望把大家能够一步一步带到那里。除非你的愿景本身就是毁灭世界,那是不好的,对吧?你的愿景是美好的,你能说服自己,能说服别人,我觉得你就应该去做。但是你必须意识到这件事情它很难,而这件事情能够成功更大的概率是不要去想结果,而只是就四个字:热情地做,就永远热情地去做,向它朝着的那个方向去走,我觉得这个是我创业之后最大的一个 lesson。
佳芮我有同样特别深的感受,去年我有一个关键词叫接受,因为我每年会写自己的总结,也会写全员信。去年我的关键词是接受,我去年才真正理解到什么叫做尽人事听天命。可能最开始大家都在说这件事,但最后你会发现可能好多时候我们就真的只有努力去做,至于结果真的拥有蛮多不确定性的。
陶芳波甚至我后来觉得努力地做都不对,因为努力地做总觉得听上去很苦逼,就是热情地做。就是充满热情地去你想要去的那个地方。因为现实总是一团糟的,所以太关注那个你会失焦,至少我尝试让自己不要给自己一种心理暗示是我们的处境是很苦逼的,环境是很不好的,我觉得那反而会让你忘掉你为什么一开始要出来创业,至少对我来讲。
佳芮所以创业者需要持续保持特别强的乐观,因为乐观者往往成功嘛。
Jay刚才你说的努力很苦逼,我觉得还蛮有意思。有一句话是罗曼罗兰说的,就是英雄主义是你知道这个世界的真相依然选择热情,这是热情的一个点。但是还有一个非常有名的 Podcast ,在苹果 Podcast 上可以搜到,叫 Huberman Lab。
链接:https://podcasts.apple.com/us/podcast/huberman-lab/id1545953110
它是斯坦福的一个神经生物学教授,我听他上次分享了一个关于努力的研究:我们往往觉得结果是努力的犒赏,这是不对的,其实如果你把努力本身当成犒赏,就会很享受这个美妙的过程。
所以我觉得还是大家对这件事情的角度不一样,我只是提供一个视角。我们聊最后一个话题,其实刚才聊了好多次了,这个话题是关于想象力,或者说关于星辰大海的。现在逐渐有一种共识:在 AGI 时代,人机交互方式将有机会被改写。因为当下的计算机、智能手机等,人和软件之间的信息交流都建立在 GUI 图形界面的基础上。过去由于 AI 的能力限制,基于语言的交互只能浅尝辄止。如今在大模型能力飞升的背景下,AI 可以充分理解人类语言、链接各方面能力,基于语言的人机交互会更方便和容易。2011年,网景创始人、著名风险投资家 Marc Andreessen 马克·安德森在《华尔街日报》上发表著名文章:《为什么软件正在「吞噬」世界?》
文章地址:https://www.wsj.com/articles/SB10001424053111903480904576512250915629460
之后我们一步步见证这个现实来临。其实软件最明显的价值驱动因素之一就是自动化,因为时间和资源有限,人类无法跳过努力获得自己想获得的。而以软件为代表的生产力工具释放了我们的时间,并通过执行更多任务来提高我们的产出能力,让我们更平衡工作与生活,也使我们能更专注于自己的兴趣、创造力和成长。但从目前来看,生产力的提高似乎并没有带来想象中的美好,人们还是很忙碌、内卷,疲于奔波。我记得你在和许知远的对话中也谈到:你觉得 AI 除了能解决具体问题之外,也许能从整个灵性层面、意识层面赋予一个机器功能。不是完全替代人跟人交朋友,而是有没有可能成为社会人类情感的连接剂,解决现代人的心病?英国数学家、哲学家阿尔弗雷德·诺思·怀特黑德曾说过:「文明的进步是通过增加我们无需考虑就能执行的操作数量来实现的」,而 Agent 恰恰就在这方面具备显著能力。从这个角度来说,人类的文明等级将有望得到进一步提升。在这方面也想请陶博展开聊聊:

Q10:Agents 爆发后,软件和交互会发生怎样的变化?人在其中应该做什么?

陶芳波:软件和交互的变化,我们刚才其实聊到一些,就是回归到更加自然,然后一个关键词就是软件消失于无形,可能我们不再需要那么多的设备,那么多的屏幕,然后需要那么多的操作,更像是回归到一种原始的人类社会的交互方式,我觉得这个是一个大方向。至于中间具体的形态是怎么样,我还是觉得会经历很多迭代,伴随着基础设施的变化。但我觉得你刚才提到的那个问题,我是非常有感触的。
我当时为什么和许志远交流的时候特别关心这个问题,是因为我一直认为科技界有一个很不好的风气,就是存在一种,你可以叫它硅谷假设。因为你刚才提到了人类文明的提升和人类的幸福感的提升,我认为这其实是两个命题。
文明的提升很大程度上人是通过它的生产力水平和能够使用能量的数量级别有关系,通过这些去定义,但幸福感可能是完成另外一个维度。但是硅谷假设指的是什么呢?就是硅谷的创始人们往往是年轻的技术从业者,他们拥有一种比较直接的思维,认为当我用技术去创造了更多的效率,连接了更多的人,让任何社会当中的某种结构被放大或缩短了之后,这个世界一定会更好,这是他们的假设。所以当时我在 Facebook 工作的时候,扎克伯格他一直在说我们的目的就是连接全世界。然而连接全世界听上去是对的,但是后来很多社会学家研究发现这种更加密集的连接,更加没有障碍的通讯,造成了人更多的焦虑感。
所以他们有一张图表,就是 Facebook 在全美的普及率和青少年的自杀率几乎是一样。那我想也许文明是进步了,但是人的幸福感肯定不一定在进步,对吧?那这里面问题很多,我觉得是一个20多岁的创业者,他创造出一家伟大的企业,他真的能想明白这件事的长期影响吗?第二是监管在这里面也没有一个很好的角色,他们可能关心社会效率、GDP 有没有发生更好的提升,但可能也并不关心这个社会被带到了一个什么位置。
因为这里面有一个比较值得担忧的点,就是当社会带入到一个充满社交网格社会之后,我们其实没有办法再拿掉它了,它就变成了我们的一个生命的外部的生命维持系统,拿掉它其实人会经历很大的痛苦。所以我自己是什么感觉呢?我不知道听众们怎么想,如果有一天没有微信,没有 iPhone、没有 Facebook,让我在山里面,或者说哪怕在街上没有这些外部维生系统支持,我会过得特别开心和幸福。但是我很难过这样的生活,因为我总是想会不会有人来找我,对吧?所以其实我们已经变得对它有点依赖,但这种依赖我觉得是对人的幸福感的一个很大的影响。这也是为什么我说这种交互,因为它背后有资本的力量,投资人也好,或者是公司发展有这个诉求,它总是会关注更大的发展规模。那更大的发展规模一定来自于更多的广告,一定来自于要更多地去占用用户的注意力。
那么如果把这条路走到极致之后,所有的公司都会沿着这个思维走,而且永远都希望任何一个用户一天24小时都在你这个产品上,使用它,然后我中间随便插点东西就可以赚到很多钱。所以人的注意力其实本质上就是财富,就是最宝贵的资源。而好的产品是给人更多的自由去运用他们的注意力,而不是把人的注意力都剥夺过来。从这个角度来讲,我觉得很多今天的产品都是需要去怀疑的,但它一定是在商业上很成功的。在人类文明上是不是成功了我不知道,因为我不知道文明等级应该怎么定义,我觉得可能精神更重要一些。
那你说这个交互的变化会变成什么样?我至少希望是 Agent 消失于无形,然后把我们本来需要花在很多事情上的时间由它去 take,而我们变得更自由。而不是说它变成了一个新的数字生命支持系统,一种更强的数字的生命支持系统。
Jay更多地占用我们的时间。
陶芳波:更多地占用不仅是时间,注意力,Agent 还会占用一个东西叫情感。你会有投射,你会对它有情感投射。所以它把你的注意力占据了之后,可能也把情感的那种依赖给占据走了。比如你的女朋友可能虽然不是很喜欢找你约会,但是如果要把她拉走,那对你的痛苦会很大,对吧?类似的可能也会发生在 Agent 上。
所以我希望这样的事情不要发生,它相当于会变成一个社会的底层运作机制,变成了一种基础设施,但是不要像吸血鬼一样吸在每一个人身上。我说的可能比较严重,但是我自己觉得如果这个世界不改变一些它背后的这些基础的运作机制,比如说资本的回报机制,然后大家创业的时候做假设的一些更加长期的考虑,我觉得这一波 AI 很有可能也会变成那样。
佳芮:你刚刚说的一个点和之前张小龙有一个公开演讲说的特别像,当然是在视频号非常火之前说的。他希望微信能够让人回归于人,不要把大家的注意力吸走,能够放下手机去看一看外面的世界,去看一看马路,感受一下外面的世界。这是微信的创造者,期待人们能剥离微信。但我们看到后面,其实就像你说的,先是抖音的广告收入超过微信,然后抖音的用户停留时长超过微信,那微信必须要做一些动作。后面又有了视频号,持续还是在想如何把用户的注意力吸走。其实我觉得张小龙是一个非常理想主义的人,但是就像你说的,可能在背后的资本,或者说今天可能整个社会运转的一个机制,那应该如何去做选择?这还是一个蛮沉重和宏大的话题,但确实需要有人去思考。
陶芳波对,当时 Facebook 有一个很有意思的点,当时是真的邀请那些社会学家来 Facebook 内部做分享,告诉他们 Facebook 是青少年自杀的原因。
佳芮但我觉得这文化非常好。
陶芳波至少这是一种精神。但张小龙那个点,我觉得今天哪怕没有视频号我也会怀疑。因为我其实是很崇拜张小龙和 Steve Jobs 的,他们其实有这个目标,心里面是有这个意识的。但是我发现最后难道今天困住我们的不是手机和微信吗?尽管他们很努力的去做了,我觉得这个问题可能会更复杂一些。
佳芮对,包括还没有 ChatGPT 这些的时候,很早之前当时他说 AI 可以比你更聪明,但你比 AI 要善良。包括后面大家都在聊科技向善的这些话题,包括你聊过AI PUA。
陶芳波对,因为如果 AI 在情感上可以跟你产生某种连接的时候,它那种 PUA 的效率你只能逼着就范。现在你看视频还都是引导式的。
佳芮但已经把很多人的思想给拽走了。
陶芳波对,AI 可以是那种胁迫式的。
佳芮我觉得这个可能是所有做 AI 的科技创业者都需要去思考的。我们作为创始人或者未来我们做得更大真的做到企业家,可能大家都是应该去承担一些社会责任的,应该让整个文明变得更好,我们才能变得更好。
Jay我突然想到在互联网的早期,包括计算机出现的早期,那些嬉皮士,那些有各种思想的人,他们聚在一起去聊天,包括文艺复兴那些人聚在一起聊天。当然我不是说我们是那样的人,我只是说这样的讨论蛮有意思,它似乎孕育着一些新的东西。因为在新的范式到来之前,我觉得其实大家应该去聊聊这样的话题,就是这不是一个纯技术性的东西,甚至不只是一个纯社会学的东西,它是一个值得人去从很深层次去思考,然后不停地去纠正,然后慢慢的找到正确的路。因为大家都希望是一个更好的未来,我们希望未来的舞台是我们想要交给的人建设的舞台,而不是自己讨厌的那些人去建设的舞台。那么陶博要不要总结一下,今天其实我们聊了很多的话题,如果你觉得还想要再表达给听众一些什么,或者说你想要总结告诉大家的。
陶芳波我首先觉得 AI Agent 这件事情跟今天的主题有关,这是一个值得去关注更多的赛道。你不一定要现在就跳进去创业,我们是已经上船了没有办法,但是现在创业也不一定是最好的时候,因为它有不同的形态和不同的阶段,什么时候跳进来也都可以,因为这是一个很长期的机会。但是大家一定要去关注它,因为我觉得人类的生活方式、交互方式,甚至像你刚才提到的文明的级别或者等级的一个跳跃的,跃迁的一个关键点就是 AI。我们过去历史上所有的技术都是工具,现在突然超越了工具,我觉得这是大家需要关注它的最重要的原因,所以可以看看怎么去参与到这个过程当中。第二是我觉得无论做什么事情,也是我个人的一个痛苦的教训,就是把期望放下,接纳那些哪怕是很不好的部分,可能会给你带来痛苦的部分。比方说像我们创业者今天在经历的融资的困难,然后市场的困难,国际关系的这种困难。因为人活这么几十年,其实顺顺利利过,也许还不如中间有那么一些段落,所以可以把这些磨难也当做一个礼物。至少可以这样骗自己,这会让自己一个是过的开心,第二你真的想做的事情可能成功概率也会更高一些。
佳芮我自己创业的一个心态的改变,我上一期播客也在聊这个,我自己的一个特别大的改变,就是我接受了这个世界就是艰难的,然后我接受了所有的事情都是艰难的。这样的话,当所有一切来临的时候,它变得很顺的时候,我反而觉得特别感激。然后当一切有困难的时候,我觉得就是人生的常态。这其实是能让自己的心态变得越来越平和。
Jay对,今天感谢陶博,其实我们今天不只是一个纯商业话题的探讨,可能跟你之前的经历有关系,还是有关哲学,有关神经科学,有关脑科学的一些探讨,我觉得非常有意思。也许和很多去聊这个话题的人不太一样,但起码从我们个人而言收获非常大。那我们今天就到这里,谢谢大家。
Loading...
richardseraph
richardseraph
一个天马行空的思想者,立志做中国版本的布兰森
小红书
统计
文章数:
15
最新发布
食品饮料行业报告
2024-12-17
2.2 Sustainable living town&Facilities
2024-12-12
本信息模板的核心思想
2024-12-7
2.1 Digital twin&AI tools
2024-12-7
2.3 High-tech work
2024-12-7
3.1 Life related
2024-12-7
公告
🎉数字分身模板已上线🎉
-- 感谢您的支持 ---
Co-Founder of
Epiphany science and industry group.ltd
仙地科学工业集团
枝蔓集团