全球大模型进化的下一个方向,OpenAI的GPT-5做出来了



OpenAI CEO萨姆·奥尔特曼正在发布GPT-5 图源/OpenAI官网直播
GPT-5出现,意味着大模型终于进入了一个新竞争点——能同时指挥多个Agent协同工作,并处理复杂任务
文|《财经》研究员 吴俊宇 周源
编辑|谢丽容
美国明星AI(人工智能)创业公司OpenAI的每一代旗舰模型,都会引领全球未来半年的技术潮流。美国西部时间8月7日,这家公司发布了GPT-5。
OpenAI CEO(首席执行官)萨姆·奥尔特曼(Sam Altman)形容,GPT-3给人感觉像是在和高中生交谈。虽然偶尔灵光乍现,但也有很多恼人的地方。GPT-4o或许像在和一个大学生交谈,它具备了真正的智能和实用性。而现在,有了GPT-5,就像是在和一位专家对话——一位在任何领域都能随时待命、专业的博士级专家,他们能帮你实现任何目标。GPT-5不仅能聊天,还能为你做事。
GPT-5是两个模型(长思考版+高效率版,前者可以深度思考,后者可以高效问答)组成的一个系统。它会在用户提问时,自动判断切换版本。
OpenAI官网披露的性能基准测试结果显示,GPT-5超越了上一代旗舰模型OpenAI o3,GPT-5(长思考版)幻觉数量比o3少了六倍。国际市场调研机构Artificial Analysis长期对全球主流模型进行性能基准测试,截至8月8日的测试结果显示,GPT-5目前是全球性能最强的模型。

性能提升的同时,GPT-5推理算力成本也大幅下降。OpenAI官网公布的测试结果显示,GPT-5成本表现优于 OpenAI o3,输出token(AI推理算力计量单位,一个Token可以是单词、标点、数字、符号等)数量减少了50%-80%。
需要巩固“脆弱的优势”
OpenAI一直是大模型赛道领头羊,它是全球估值最高、收入最高的AI创业公司。截至今年8月,OpenAI再次融资83亿美元,累计融资超过797亿美元,估值3000亿美元。
截至今年8月,ChatGPT日活跃用户1.8亿,付费企业用户数量500万。截至今年4月,ChatGPT付费个人用户数量2000万。

此前有媒体报道,截至今年7月末,OpenAI预计将实现120亿美元的年度经常性收入(ARR,Annual Recurring Revenue),同比增长超过80%。其中消费者订阅(ChatGPT Plus等用户订阅产品)收入55亿美元,商业与合作伙伴(ChatGPT Team和Enterprise企业部署版本)收入36亿美元,API(软件调用接口)调用收入29亿美元,代码专用产品收入4亿美元。
OpenAI作为全球最大AI创业公司,融资、营收、估值远超它的最大竞争对手——全球第二大AI创业公司Anthropic。
Anthropic 2023年至今已完成14次融资,总金额182亿美元。目前Anthropic估值615亿美元。OpenAI估值是Anthropic的4.9倍。截至今年7月末,Anthropic年度经常性收入预计约为50亿美元。也就是说,OpenAI营收规模是Anthropic的2.4倍。
虽然手握优势,OpenAI面临的市场竞争却变得更激烈。美国市场,谷歌的Gemini、Anthropic、AI创业公司xAI都是它的直接竞争对手。这几家公司的旗舰模型和OpenAI的差距几乎只在三个月以内。中国市场,两款开源模型——阿里旗下的Qwen系列、AI创业公司深度求索旗下的DeepSeek系列,和OpenAI旗舰模型差距仅为3-6个月。
2024年以来,OpenAI模型迭代明显在提速。但过去一年,OpenAI却遭遇到了比过去更多的批评。模型迭代次数多,但性能提升却未达公众预期。OpenAI多位创始团队成员出走。这家公司坚持的闭源商业模式也招致抱怨,业内调侃OpenAI应更名为“CloseAI”。

摩根大通7月18日研报指出,OpenAI融资主要被用于算力和人才投入,未来四年可能还要花费约460亿美元用于算力成本和员工薪酬,预计2029年才能盈利。摩根大通还认为,谷歌的Gemini 2.5 Pro和中国的DeepSeek-R1崛起表明,大模型市场竞争激烈,性价比日益重要。
一位中国云厂商大模型业务负责人今年4月曾对《财经》表示,2025年大模型的发展主脉络之一是,提升精度并降低算力成本,简单说就是多、快、好、省。
“卷模型”不能确保永远领先,但却仍是维持优势的少数路径之一。GPT-5正是在这个背景下诞生的——它在性能提升的同时,还降低了算力成本。
为回应“不如变成CloseAI”的批评,OpenAI还在8月5日开源了两款模型——gpt-oss-120b和gpt-oss-20b。市场普遍认为,OpenAI此次开源的主要目的是扩大自家模型在全球市场的影响力(报道详见《为了“不站在历史错误的一边”,OpenAI又开源了》)。

抢占AI应用爆发前夜的先机
AI应用爆发,尤其是Agent(智能体,一种轻量级的AI应用)爆发是2025年大模型落地过程中最明显的趋势。
国际IT咨询机构Gartner预测,到2028年,33%的企业软件将包含Agent,2024年该比例不到1%;到2028年,15%的日常工作将由Agent自主完成,2024年该比例接近0%。
不过,2025年上半年,Agent被认为并不成熟(报道详见《AI智能体,为什么看不懂?》)。原因就是基础模型能力还不够强。
此次GPT-5两项重要技术突破,都是在解决这一问题——一是多模态(文本、图像、视频、音频等复杂格式资料)的模型能力,二是指令遵循和Agent工具使用能力。
OpenAI联合创始人格雷格·布罗克曼(Greg Brockman)在GPT-5发布会以代码场景举例表示,GPT-5树立了一个全新的标准。它在智能体代码任务方面是最好的模型。你可以让它完成一些非常复杂的事情。它会开始工作,调用许多工具,连续工作好几分钟,有时甚至更长,来完成你的目标、你的指令,无论你想创建什么。
也就是说,随着GPT-5的多模态理解能力、Agent工具使用能力成熟,意味着大模型能指挥多个Agent协同工作。它将具备驾驭Muti-Agent(多智能体)并处理复杂任务的能力。
GPT-5开启了基础大模型的一个新竞争点,它的基础能力跃升意味着更多复杂的AI应用将被解锁。每诞生一批新的AI应用,AI算力消耗也会指数级增长。模型、应用、算力的“飞轮”将加速转动。
字节跳动火山引擎智能算法负责人、火山方舟负责人吴迪今年6月曾对《财经》解释上述逻辑。在他看来,无论是中国市场还是美国市场,未来12个月基础模型的能力还会不断提升,有三个提升方向。
其一,多模态(文本+图片+音频+视频)推理模型会成为主角,这是当下正在发生的变化。AI将可以把文本、图片、音频、视频等多种信息融合在一起进行综合推理。它将极大增强Agent对现实世界复杂信息的理解能力。
其二,视频生成模型将成熟可用,预计今年末将迎来一轮爆发。这意味着Agent不仅能理解世界,还能以更动态、更直观的方式生成内容和模拟过程。
其三,多步骤的复杂任务处理能力会大幅提升,预计今年末会有重大突破。这是Agent走向成熟的关键一步。当模型能够稳定、可靠地规划和执行包含数十步甚至上百步的复杂任务时,Agent“烂尾”的问题将从根本上被解决。
在吴迪看来,目前大部分Muti-Agent应用都“像是玩具”,但基于这三条技术主线的突破,他给出了最终判断——Muti-Agent应用2025年末准确率将会大幅提升。2025年底具备视觉理解、推理能力的AI应用普及后,一个基础任务消耗的算力可能就会超过10万token。届时,token消耗量会快速爬坡。

新一轮模型竞赛拉开帷幕
模型、应用、算力“飞轮”转动的基础,是不断提升的模型能力。2025年,全球科技公司的大模型竞赛愈演愈烈,大模型迭代步伐都在加速。
大模型领域的知识迭代以“月”甚至“周”为单位。一篇论文、一个模型就可能颠覆原有的技术路线。一位资深算法工程师曾对《财经》表示,大模型领域,每周都有大量学术论文被发表;几乎每个月都有新的技术突破;几乎每三四个月,领先的模型就会被赶超。
据《财经》不完全统计,2025年1月1日-8月8日的220天内,中美参与模型竞争的11家科技公司(包括阿里、字节跳动、腾讯、百度、华为、DeepSeek、月之暗面、谷歌、OpenAI、Anthropic、xAI)发布或迭代了至少32版大模型,平均每6.9天就会有一版新的大模型被发布。
基础模型更新周期甚至越来越短。OpenAI的GPT-4.5到GPT-5更新周期是161天;OpenAI的o1到o3,更新周期132天;xAI的Grok 3到Grok 4,更新周期142天; DeepSeek-R1两个版本,更新周期128天;DeepSeek-V3两个版本,更新周期87天;谷歌Gemini 2.5两个版本,更新周期仅42天。


GPT-5的发布,将倒逼中美科技公司展开新一轮大模型的竞赛——训练更强的模型、采购更大规模的算力,这条路径在短时间内不会改变。
当前大模型的发展,有几个关键基石。一是数据、二是算法、三是算力,它依赖“大力出奇迹”,即用巨大的资源投入来换取性能提升。
今年6月,杜克大学电子与计算机工程系教授陈怡然曾对《财经》表示,AI演进的基本路线,仍是大力出奇迹。大家一直在讨论,这种模式未来何时是头,潜力何时会被耗尽用尽,学术界也试图寻找新的路径。但目前并没有其他行之有效的方式,所以产业界也没有太多选择,一直在沿着“大力出奇迹”往前走。
目前,中国科技公司,如阿里Qwen 3今年7月更新版本暂时追平了OpenAI今年4月发布的o3。GPT-5发布意味着,新一轮追赶又要开始。
《财经》了解到,阿里大模型研发部门——通义实验室今年核心目标之一就是,模型性能、下载量、衍生模型数量都要保持领先。
阿里云CTO(首席技术官)、通义实验室负责人周靖人今年6月在魔搭开发者大会群访环节曾对《财经》表示,模型性能必须具备足够的竞争力,能够在权威的、公认的基准测试(Benchmark)中证明自身实力。
他还提到,通义实验室一直将追踪研判全球前沿技术动态视为日常工作的一部分。他们不仅会关注人工智能顶会(AAAI、IJCAI、ICML、NIPS等顶级国际学术会议)的论文,还会密切跟踪全球各大开源社区、技术博客以及头部AI公司的产品发布。
上述资深算法工程师认为,大模型领域,任何性能优势都只是暂时的,竞速是持续不断的。

责编 | 张雨菲
封图来源 | 视觉中国
