新闻中心
乐鱼体育入口:混乱分裂吞并:2024年AI的信仰之战
2024年,硅谷的生成式AI大战丝毫不比2023年逊色,只是这一年的AI战争更残酷更直接:
巨头们不但拼模型能力,还拼爆款产品,同时继续投入数百亿美元拼算力建数据中心;而几家一年前还是明星项目的初创企业却因为资金烧光,直接被巨头吞并。
在学术界,技术领袖们对AI的未来依然争论不休、骂战不断:GPT5依然没有踪影,Scaling law甚至被认为已经遇阻“撞墙”。
然而2024年底,谷歌Gemini 2.0的发布,以及OpenAI一连12天发布更新,却让大家对2025年AI的进展又有了一些新的期待...
这期内容我们将回顾下生成式AI在硅谷的2024年有哪些drama,又有哪些实在的技术进展和路线年的AI会如何发展。
我们将结合与技术大佬的采访聊天,从巨头的AI布局路线、产品落地、陨落的明星公司和冉冉升起的新星们,以及业内对2025年AI展望这几条主线来展开,看看过去一年都发生了些什么。
OpenAI在2024年的drama并不少:2023年底的董事会风波之后,2024年OpenAI的高层依然极度不稳定,人才流动性很大。
联合创始人、首席科学家Ilya Sutskever在五月离职。之后他宣布创办自己的初创公司Safe Superintelligence,快速融资了10亿美元。
和Ilya一起离职的还有超级对齐团队的关键技术人物Jan Leike。之后在九月,CTO Mira Murati也宣布离职,有消息称她正在为她新的初创公司融资。
同时,联合创始人、前总裁Greg Brockman在休了三个月的长假之后回到了OpenAI。
OpenAI用了一年的时间来处理高层之间的人际冲突,如今终于暂时稳定了局面。坏消息是多数的创始成员都已经离开,好消息是这场宫斗终于结束。
Sam Altman有了稳定的权利,接下来或许可以更顺利地推进他想象中的AI发展方向,包括将OpenAI从非盈利组织变成赢利组织来更好融资,推出更多可以商业化的产品等。
2024年10月,Sam Altman为OpenAI完成了新一轮66亿美元的融资,公司估值来到1570亿美元。但OpenAI烧钱之狠也是有目共睹的:
《》获得的融资文件显示,OpenAI2024年预计收入达到37亿美元,但预计亏损将达到50亿美元,而2026年亏损可能会高达140亿美元,这一估算还不包括给员工的股票激励兑现。
虽然OpenAI承诺投资人收入在成倍增长,预计在2029年达到1000亿美元,实现盈利,但按照这样的烧钱进度,OpenAI在2025年的两大趋势会是必然:第一是大规模融资;第二是更激进的商业化。而这其实和2024年OpenAI的路线年,OpenAI没能如预期发布GPT5,这让市场中不少人失望,但惊喜的是4o的多模态进展。此外,o1和最近o3的发布让人看到模型能力进化的另外一种路线。
事实证明,4o发布之后,特别是在免费版本中提供有限的4o功能和4o-mini之后,ChatGPT的订阅人数大幅上升,依然在2C领域上远超竞争对手。
o1这个内部代号为“Strawberry”的强大模型更新,让我们看到了在预训练上堆参数的“大力出奇迹”之外的、通过推理阶段的算法突破找到一条新的通往AGI的道路。
最近发布的o1整体模型,凭借在推理能力上的显著提升,展现出非常不错的结果,但在产品方面,我们仍需更多努力。
而o1尝试自己解决问题,比如在后台将问题分解为小步骤。这时你需要权衡的是延迟的问题,因为后台处理可能需要花费一分钟。所以我认为对于特定的应用场景来说,这种做法肯定是有效的,特别是如果你不介意延迟的话。
其它的更新比如说ChatGPT Search升级、与苹果Apple Intelligence的协作等等,看上去就非常不痛不痒,甚至感觉是在给12天的发布会凑数
o3在数个测试上的能力,无论是程序员编码竞赛(Codeforces)中超过99%的人类程序员,还是博士水平的科学问题(GPQA)已经超过一般人类博士生,还是最难的前沿数学测试,还是抽象推理能力基准考试ARC-AGI,o3比o1的提升可以说是惊人的,而这个版本的更新仅仅用了三个月的时间。
这让AI业界的不少人相信,OpenAI在o1和o3这个强化推理这个范式转变是有效的,这让担心AI大模型已经“撞墙”的人们稍微松了口气:至少AI模型的发展还在推进。
Tick-Tock的意思是左边是数据驱动,右边是规则驱动,乐鱼体育官网两边会来回跳动。一会是用更好的数据集去训练它,但同时用更好的算法去推动它,乐鱼体育官网所以就是在算法跟数据两边Tick-Tock(摇摆)。因为现在o1和o3更多的还是算法,但是之前包括 GPT 其实也是数据集的驱动。所以,在(数据和规则)这两边的摇摆的时候,应该会摇出下一个大的 breakthrough(突破)或者milestone(里程碑)。
如果说Gemini 1.0是用于组织和理解信息,那么Gemini 2.0则是让信息变得更有用
谷歌目前对外开放的新模型是Gemini 2.0 Flash,在响应时间上比上一代的1.5 Flash性能更强、延迟性更低。在多模态上,2.0 Flash支持图片、视频和音频的输入以及多模态的输出。
Sora在最开始公开到最终对用户发布的这10个月中,包括谷歌在内的竞争对手已经赶上来并在多模态能力上做得更强了。
我个人认为,智能眼镜在一些场景下比手机更适合作为agent入口的交互硬件,因为它可以捕捉人们的目光,作为音频视频和屏幕的呈现载体,而用户也能得到7*24小时永远在线的体验。
看得出来,Sundar Pichai非常重视Project Astra,认为它“展示了通用AI助手的曙光”,而谷歌Gemini大模型依靠长文本的能力,能让Project Astra记住长达10分钟的会话内容来提供个性化的服务。
虽然目前来看,这个项目还在比较早期的阶段,如果我们看看之前提到的OpenAI定义的五个AI层级,Agent能自主行动完成任务已经是第三个层级了。
很多application(应用)把自己叫agent之后没有在算法上面有真正的创新,也没有数据。如果就做agent,我个人觉得下一步还是要往数据的角度去走,agent也需要数据。我觉得下一步 2025 年,可能会在这几个层面。
同时,谷歌新发布的论文,描述了一种新的注意力技术“inifini-attention”(无限注意力),能使Tranformer大模型在有限算力情况下处理无限长度的输入。
而谷歌的Gemini模型将上下文窗口从最先进的20万扩展到了100万到1000万——这几乎是一个50倍到100倍的增长。对于大型语言模型来说,这个上下文窗口实际上是一项非常有用的技术:上下文窗口越大,你可以向模型提供的输入就越多。
有谷歌的Gemini底座大模型的多模态和长文本能力支撑,NotebookLM的AI播客功能可以将文档、视频或者音频总结生成一男一女对话的方式,让用户用“听内容”的方式获取信息,在播客podcast这种媒体形式无比流行的硅谷形成了病毒式传播的现象级别产品。
你可以理解他是个产品创新。NotebookLM是Google Labs出来的,但Google自己是有底座模型的。Notebook LM用的底座其实也不是Google Gemini,而是谷歌自己内部的一个定制化底座。所以,如果你不是那么懂底座,纯第三方的来用谷歌Gemini API,你未必能做得出来NotebookLM。
产品创新之上要结合对底座的理解,不然光是产品创新,我觉得可能不能跑得特别远。
所以在多模态的AI第二轮大战中,OpenAI是进攻者,而谷歌依然是防御者,下一场硬仗无论是第二层的reasoning,还是第三层的autonomous AI agent,2025年都会非常精彩。
Anthropic的商业模式目前更2B和2D,对企业和开发者群体更受欢迎,但2C方面就不太理想了。
这是因为背后的软件开发人员主要利用Claude执行调试代码、解释Git操作及概念等任务。
很多开发人员认为,Claude 3.5 Sonnet会非常适合需要深度理解和复杂推理的应用程序,而OpenAI的模型对于较简单的任务可能更具成本效益。
之前媒体的报道说,Anthropic在2024年的收入会超过10亿美元,比之前预测的要高很多,说明市场还是非常买账Anthropic的模型能力,特别是最近他们又挖了很多OpenAI的核心人员过去。
xAI在2024年做了三件大事:搞定了算力、搞定了融资、开源了自己的大模型。乐鱼体育官网
除了钱之外,马斯克还是第一个搞定大规模算力集群的:2024年,xAI位于美国田纳西州孟菲斯市的数据中心正式投入使用,历时122天建成创下纪录。
相当一段时间以来,Grok的聊天机器人只向马斯克旗下的“X”用户提供,但在2025年很可能马斯克会全面开放Grok。
除了在大语言模型上的进展外,Meta也一直在探索除了“大语言模型”(LLM)之外的其它AI路径:2024年12月11日,Meta新发布了Large Concept Model(LCM),翻译过来是“大型概念模型”。
另外,由于Meta 2024年在智能眼镜上的尝试成功,以及旗下Facebook、 WhatsApp、 Instagram、Messenger、Threads等庞大的用户群体,还有AI和广告结合的前景,市场非常看好Meta如今在AI大战中的位置。
说到智能硬件,苹果在2024年发布了Apple Intelligence三件套,我们之前有详细聊过,但因为端侧模型和agent的发展可能还没有到能让硬件产业与AI结合得特别好的程度,苹果在AI进展并不大。
虽然目前AI生成的素材还没有那么精致,但无论是从广告标题和文案的多个版本,还是自动调整广告大小,还是利用文生图、文生视频和文生音乐更高效的制作广告,AI都有非常大的潜力。
同时,也有分析认为,Meta可能会在自家的开源模型Llama上进一步开发出企业级客户服务的业务,也将会是一块很大的蛋糕。
这个短语是拉丁短语“Aut Caesar Aut Nihil”的变形,意思是“要么是凯撒,要么什么都不是”;
最后几家科技巨头中,再说说亚马逊。亚马逊的路线和其它几家都不太一样,采取的是一个卖铲子生意的模式。
在12月召开的亚马逊云科技re:Invent大会上,亚马逊的最新策略非常清楚:
除了亚马逊云科技,芯片公司本身,像英伟达,AMD,英特尔等芯片公司本身,以及上下游的电力公司以及数据中心服务公司也会继续是市场关注的焦点。
这家公司成立于2022年,可以说重新定义了全球第一个对话式AI搜索引擎,月活跃用户已经达到1500万人次,日活跃用户200万人,连英伟达创始人黄仁勋也为它站台,称每天都会使用。
Perplexity的聪明之处在于,自己不训练模型,而是使用多种大型语言模型,包括GPT、Claude、LLAMA、Mixtral等,以及来自多个搜索引擎的排名信号和第三方数据提供商的数据。
他曾在一个小型的聚会上分享说,有很多项目找他投资,他答应的原因只是为了帮助朋友,毕竟他的名字在天使投资人的那一栏能帮很多项目更容易拿到投资。但为数不多的他真心想投资且看好的项目,就当属Physical Intelligence了。
Physical Intelligence表示,π0将使得机器人变得更容易编程和使用,使其能够更高效地执行多样任务。
我觉得π0更多是 training data driven(数据驱动)的路线更代表的是algorithm(算法)驱动的路线肯定也要在算法上继续做迭代,也可能在推理侧引入一些方法。当然难一点就是推理,因为具身智能的推理侧要在端侧发生,可能对算力的要求会更高一些。
同时,斯坦福的机器人中心在2024年开业了,我也去参加了开业仪式,有机会我们去那里采访一下跟大家分享最新的项目和有意思的进展。
由于篇幅原因,还有很多科技巨头的进展、初创企业和新趋势我们没办法一一列举,包括AI视频生成的初创公司Pika和Luma,音乐生成初创公司Suno,最近很火的AI编程应用Cursor和Devin,李飞飞博士的World Labs、该有2025年初引起一片震撼的DeepSeek等,之后有机会我们详细做成单独选题来聊。
总的来说,2024年的硅谷非常精彩,有混乱,有质疑,有倒闭收购,也有为了AGI信仰继续战斗的科技从业者们。
虽然2024年出现了o1、o3的路线,但更大模型、更强的能力依然是被市场所期待的。
我一直都在期待更好的技术,不一定要GPT-5,也可能是Anthropic Claude的4、5、6代,或者是xAI、Mistral。我认为,虽然现阶段的GPT-4可以做的事越来越多了,但是更大、更强的模型在某种意义上会让模型的使用变得更容易。所以,如果有了GPT-5或者Claude 4、5,那么基于GPT-4的一些自我工程可能就不再必要了。
我认为这两条主线将会持续很长一段时间,希望有第三种并行努力的方向,那就是寻找不同的模型架构,因为现在的模型基本都是基于Transformer的,还有一些基于diffusion模型用于生成图像等中间工作。我希望能有其他非transformer、非diffusion的模型架构出现,让生成结果更有效、更高质量、同时降低成本。如果在这方面能有所突破,将再次对AI行业产生巨大的影响。
在硅谷的AI生态中,已经衍生出了多个派系:有更大的模型、大模型衍生出的垂直模型、不信仰Transformer而在探索其它通往AGI路径的研究者,同时也有应用、硬件、agent智能体、机器人、无人驾驶,还有“卖铲子”的英伟达、数据中心、电力上下游等等,这些生态在2024年得到了进一步的巩固与布局,而在2025年,我们会看到更多技术的进展。
当然,硅谷只是AI发展的其中一个主力战场,全球其它市场的AI也有非常快速的发展,今天我们只是稍微总结了一些硅谷的情况,也欢迎大家给我们留言最值得提的公司,技术或者事件,这对我们团队更进一步探索AI产业非常有帮助。