持续烧钱的大模型挡不住AI行业的热闹

文字|贝克街侦探,作者 |陆振熙 48小时内,智普AI和MiniMax就通过了港交所上市听证会。有人说,这是争夺大机型市场份额,也有人表示,开发大机型的企业因缺乏资金而无法盈利,二级市场急需输血。财报显示,2022年至2025年上半年,智浦累计亏损超过62亿元人民币。MiniMax在2023年和2024年分别亏损2.69亿美元和4.65亿美元。 2025年前9个月亏损5.12亿美元,累计亏损超过87亿元人民币。显然,“不赚钱”是目前主流模特行业玩家无法逾越的鸿沟。这些公司和行业领导者在重新定义人类智能的上限时正在以惊人的速度花费资金。有表明参数越大,损失越大。能力越强大,计算起来就越困难。市场仍在争论“哪种模型更聪明”,但最残酷的问题是:如果连最聪明的机器都解决不了,这还算划算吗?一个长期亏损、短期没有盈利的行业还值得投资吗? 01 真正的技术浪潮经历了长期的损失。在技​​术变革发生之前,没有人能够预测风将吹向何处。只有坚持长远、持续投入的参与者才能产生风。例如,亚马逊从1997年到2001年连续五年净亏损。2000年互联网泡沫期间,股价从113美元跌至6美元。公司于2003年首次实现全年盈利。成立10年来,公司累计亏损超过210亿元。在亚马逊盈利之前,华尔街认为亚马逊的物流资产太重,毛利率太低,而且缺乏无限扩张的利润纪律。因此,我们得出的结论是,亚马逊没有盈利。卖得越多,损失就越多。然而,截至2019年,或许是由于新一代的原因,亚马逊出现了增长盈余。令人难以置信的是,华尔街精英齐心协力,将亚马逊股价推至2万亿美元,超越微软,一度成为全球市值最高的上市公司。尽管现在已经再次被苹果、英伟达和微软超越,但亚马逊的价值得到了市场的认可,目前市值仍稳定在2.5万亿日元左右。亚马逊也不例外。另一家长期亏损、濒临破产的典型企业是如今在网民中广为人知的特斯拉。从2003年到2019年,特斯拉累计亏损超过420亿元,尤其是2017年到2018年。特斯拉首席执行官埃隆·马斯克在接受采访时表示,特斯拉距离今年的 Model 3 生产目标“距离破产不到 10 周”。 2018年,特斯拉饱受“电动汽车无法规模化”、“智能驾驶只是一张PPT”等质疑的困扰。此外,当时电动汽车产业链还不成熟,电池成本仍然较高,软件决定车辆档次的宣传也否定了很多消费者对汽车的认知。但随着电池成本的下降和智能驾驶软件(FSD)带来的好处,特斯拉终于成为市场上公认的公司。专注。除了这两家公司之外,云计算不仅长期亏损,还在2006年至2010年间被市场“忽视”,一度被定义为“IT外包2.0”。大多数人,包括专业人士,都认为公司永远不会将其核心系统放在云端。今天,云计算已成为世界上最赚钱的云平台。 A股上市公司中,云计算公司对传统公司的转型最大,长期毛利率超过30%。当这个行业崭露头角时,一些行业专家公开表示,“早期亏损是进入的门槛”。你可能会认为,已经有长期亏损的公司和行业现在已经盈利,无论是亚马逊、特斯拉、云计算还是移动互联网。这是不可能的。无论世人如何称赞其艰难的奋斗过程,并不是所有长期亏损的企业和行业都能最终等到盈利的拐点。事实上,技术浪潮初期普遍亏损的共同特征并不是“利润忽视”,而是持续投入难以替代的系统能力建设资源。凯特。随着基础设施的形成,盈利能力的转折点通常以非线性方式出现。亚马逊连续十年亏损,但在仓储、物流和云计算方面投入了大量资金,最终成为全球最重的云和电子商务基础设施。多年来,特斯拉一直押注于电池和大规模制造的成本曲线。一旦过了临界点,利润立即释放。云计算的早期发展并没有持续多久,但随着时间的推移,它成为了一种利润丰厚的收入来源,弥补了数据中心和调度系统的损失。对于新兴产业来说,真正的危险从来不是损失本身,而是损失并不能产生任何不可替代的东西。 02 应用场景广泛,大模型的不可替代性 恰好,目前处于亏损状态的大模型行业,具有很大的不可替代性。大型模型是人工智能模式使用大量数据进行训练,具有一般认知和生成能力,并且可以在任务之间迁移。一般是指参数规模达到数十亿甚至万亿级、经过大量数据和计算能力训练、具有跨任务泛化能力的人工智能模型。一个核心特征是模型不再针对单一任务而设计,可以使用统一的模型结构来展示跨各种复杂任务的通用智能能力。大型模型可以为多个行业提供动力,从航空航天到港口、清洁和采矿。以前面提到的特斯拉为例,2021年特斯拉推出了BEV+Transformer智能驾驶解决方案,解决了2D转3D、多传感器融合、复杂场景识别等问题。在感知阶段,BEV(鸟瞰图)通过融合纯视觉的多模态数据,将二维平面图像升级为BEV视角多个传感器位于同一平面,从全局角度解决数据之间的遮挡和重叠问题,提高物体检测和跟踪精度,消除对高精度地图的依赖。深度学习神经网络模型(Transformer)的自注意力机制分析BEV特征图中的各种位置特征,并将2D图像特征转换为3D向量空间以帮助系统理解。通过理解物体之间的空间关系来提高你的感知。此外,Transformer 还可以从环境中生成高级语义信息,包括对象类别、位置、运动趋势等。决策模块可以将高级信息与其他预测结果相结合,生成更精确的驾驶策略。 BEV+Transformer架构显着提升了系统的识别和决策能力,提高了系统对“长距离”的适应能力。特斯拉计划在2022年进一步引入繁忙网格(OCC)技术,提升智能驾驶的动态障碍物识别和复杂场景泛化能力。2023年,特斯拉计划推出智能驾驶解决方案,将整个“感知、决策、控制”过程整合为端到端一体化的智能驾驶解决方案。针对特斯拉丑闻,智能驾驶行业纷纷推出大型号,引发“端到端模块化”与“端到端集成”技术路径之争。从端到端模块化角度,华为于2024年4月推出了乾坤ADS3.0架构,设计为“GOD检测网络+PDP决策网络+本能安全网络”。采用三网协同综合大型模式,G.O.D.通过PDP为本能安全网络的决策和应急响应策略提供无损感知数据,形成“感知-决策-安全”的闭环。 2024年5月,小鹏汽车推出了国内首款量产的端到端大型模型XNGP+,该模型集成了三个主要组件:从集成端到端的角度来看,理想将在2024年10月推出OneModel端到端+VLM双系统架构。它通过单一端到端架构(One Model)提供从传感器输入到轨迹输出的整个链条的直接映射。同时引入视觉语言模型(VLM)构建并行双系统框架,利用VLM的认知推理能力标准化端到端模型行为下界,实现拟人化驾驶、复杂场景处理、安全冗余等方面的突破。在端到端架构下,模型从大量数据中学习规则,不再依赖规则库的手动迭代来创建新的驾驶场景。具备全局优化能力和通用特征数据驱动化,真正实现从“基于规则”到“数据驱动”的跨越,进一步解决部分长尾场景和拟人化决策,大幅提升智能驾驶系统性能,助力智能驾驶向L3级别过渡。即使进入L3时代,端到端模型仍然存在明显的数据障碍和泛化失败。在端到端架构下,模型观看大量驾驶视频片段,学习场景时空特征与驾驶策略之间的映射关系,并直接生成车辆控制指令。这种端到端技术具有无损传输、全局优化、一定带宽等特点。网络化特征满足L2级部分自动驾驶的要求。如果没有packagingrgo,由于技术本身的限制,完全动态自主执行驾驶任务的实现是有限的。这时,既然可以生成动作指令,那么就需要进一步引入一种更广泛的VLA模型,称为视觉、语言和动作,可以更新到可以思考为什么生成相应动作指令的程度。国内企业理想、小鹏等已在该技术领域有所拓展,积累了一定的技术储备。大车型在智能驾驶领域取得的成果,再次带动了车机芯片研发、云计算等算力领域的投资。这也是大模特行业玩家尽管亏损仍继续投入的主要原因之一。这是跟踪旨在推动多领域融合,实现多行业共同迭代。 03 有助于其他行业发展的大规模模型的迭代路径和最终猜测没有理由被排除在市场之外,更没有理由等待行业的拐点。我们现在唯一要担心的是,谁能在这个行业生存下去,直到我们不再需要讲故事的那一天。目前主流大型车型集中在中国和美国。通过数据观察和人工分析建立的智能指标模型,目前主流模型以美国领域为主导。国外的代表公司有OpenAI、xAI、Anthropic、Google等。曾经在开源领域表现出色的Meta,受到Llama4系列进展缓慢的影响,其模型性能下降,逐渐落后。国内,在模型性能评估方面,DeepSeek、Qwen(阿里巴巴系列s)和Wisdom Spectrum型号处于前列,Kimi和MiniMax也属于国内领先型号。虽然腾讯和百度的车型没有进入排行榜,但各家公司的车型还是各有特色。上述格局体现了中美在基础模型和工程进展方面的综合优势。从目前的表现来看,谷歌在上述方面的功能布局比较均衡,覆盖面也比较广。这包括从内部开发的底层硬件(TPU系列)到应用程序的一切,体现在端到端集成的好处上。相对而言,其他球员也在逐渐弥补自己的不足。例如,OpenAI 目前在底层定制硬件方面落后。不过,路透社报道称,OpenAI 已宣布将与博通合作开发新一代 ASIC 芯片,以提高其在计算领域的核心能力。g 功率和成本控制。第0天,国产系列DeepSeekV3.1及以上版本以及GLM4.6适配国产芯片。整理以上模型,不难发现,目前的大规模全局模型仍然以 Transformer Decoder-only 架构为主流。尽管近年来出现了Mamba、KAN等新型网络结构,但它们尚未在工程场景中取得主导地位。变压器系统继续占据核心地位。短期内,Transformer 将继续成为大规模模型开发和优化的基础。其框架、生态系统和工具链的根本优势将继续巩固其主导地位。目前,Transformer 架构的一个潜在挑战是 Sora 的 Diffusion 架构,该架构主要用于图像和视频生成。 Sora 将于 2024 年初发布,将展示 Diffusion 和 Tra 相结合的潜力nsformer 显着提高视频制作的一致性、分辨率和持续时间。 2025年5月,谷歌发布了Gemini Diffusion的预览版,首次尝试使用扩散算法进行文本生成。此后,Byte 还推出了 Seed Diffusion 来跟踪相关地址。目前有观点认为 Byte Seed Diffusion Preview 的性能高于 Google Gemini Diffusion。缩放法则是 Transformer 系统的核心逻辑。 Scaling Law2.0以“后训练+强化学习”为中心路径,Grok反复验证了这一点。 xAI 的发布速度可以从缩放定律焦点的变化中看出。 Scaling Law 1.0 阶段涵盖了从 Grok2 到 Grok3 的 xAI 迭代,性能显着提升,主要是将预训练计算能力扩展了约 10 倍。 Grok3推理模型表明Grok模型已经进入后训练阶段。何Grok4 发布后,训练后(Reasoning)计算能力再次比 Grok3 提升了约 10 倍,使训练后的计算能力要求更加接近训练前的要求。从当前头部模型迭代的进度来看,训练后的算力需求很可能会继续增加。据xAI官网介绍,Grok4是基于一张200.00级的Colossus group0大卡进行训练的。因此,不断扩展的训练模型与国外高密度计算核心集群的库存相匹配。 Scaling Law 2.0体现了算力从训练前向训练后和推理的转变,对密集集群的提供提出了更高的要求。 Grok 4.1 将代理模型奖励引入强化学习奖励范式,并持续将训练后计算能力提高几个数量级。值得注意的是,随着快速大规模模型的迭代,除了追求技术尤其是OpenAI之外,各家公司也在争先恐后地扩充自己的算力。由于算力有限,国内企业需要进行创新的架构优化,捕捉注意力的本质,阿里巴巴和DeepSeek都在强调。从目前的技术发展来看,Transformer架构在中短期内仍将占据主导地位,其核心算法——注意力机制(计算代币之间的相关性以预测最优结果)构成了模型性能的关键环节。因此,国内各大厂商普遍注重护理水平的优化和创新。其中,阿里巴巴的Qwen系列和DeepSeek型号具有代表性。由于短期内难以克服算力的限制,架构创新和算法改进将是主要方向全国基础模特大赛。以 DeepSeek V3.2 为例,DeepSeek V3.2-Exp 与上一代版本 V3.1-Terminus 没有明显的性能差异,我们将 V3.2 定位为“迈向新架构的一代”的中间步骤。V3.2 最大的改进体现在动态稀疏出席(DSA)的引入,显着提高了模型训练和推理的效率。与上一代模型相比,API 输入和输出成本降低了DSA的主要优化集中在注意力机制层,通过在算子和内核层面进行工程重构,在保持模型性能稳定的同时,继续走替换架构改进的技术路径,实现整体效率提升。算力限制下的权衡,为后续架构演进奠定技术基础,也体现了国内模型在基础优化方面的不断积累。 DSV3框架的成功使得许多模型向DeepSeek V3框架引入了特定的架构优化,例如Kimi K2。 K2 的关键改进包括验证在激活参数保持不变的情况下,简单地增加 MoE 参数总数即可满足缩放定律,并且训练和验证损失持续减少而没有过度拟合的迹象。注意力头数量适中。显着降低算力开销,同时保持稳定的性能。只保留第一层的密集层,其余采用MoE结构,改善第一层路由器负载不均匀的情况,提高专家利用效率。引入简化的 cluster-free路由器优化路由调度和计算参数。将模型参数从V3中的671B增加到1T。我们引入 MuonClip 优化器来显着提高训练稳定性和收敛一致性。得益于上述改进,K2 实现了更低的损失和更高的参数效率,同时保持了与 DeepSeekv3 相当的训练和推理成本。 K2的方向体现了国家队在算力限制下通过扩展缩放规则和细化结构来使模型更具成本效益的工程思维。在领先企业的共同努力下,整合推理模型和非推理模型,模型应用的转折点可能会出现。例如,GPT-5使用统一的架构来实现快速思考和深度思考的自适应协作,并使用路由器基于taarea动态分配资源。 GPT-5.1 使用自适应推理和复杂的模型划分来改进 int智能性能和交互体验。 DeepSeek V3.1使用混合推理架构实现统一模型,实现快速思考和深度搜索之间的独特兼容性。引入嵌入式系统后,各大模型厂商的研发重点逐渐从较低层面的模型优化转向更高层面的应用探索和营销,技术竞争也从理论模型创新转向产品体验和绿色建造。结论:虽然大型车型的“基地”已经逐渐统一,但真正的竞争才刚刚开始。现阶段,大型模特行业就像一条修复后的高速公路。下一场战斗不再是谁能铺路,而是谁能制造出行驶里程最多的汽车。该系统构成大型模型的基础。随着系统逐渐统一,竞争制造商之间自然会从“模型有多强大”转向“是否易于使用以及生态系统是否有效?”技术优势开始让位于商业能力,真正的测试才刚刚开始。行业各大厂商不再担心型号尺寸加大或者参数增加,而是关注“哪款产品更好”、“谁能先卖掉智能手机”。这意味着大模型之争正在从实验室的理论创新转向现实世界的产品体验和绿色竞争。谁能肯定地说,今天亏损的公司不会腾飞并成为下一代?Maxims 亚马逊还是特斯拉?
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)已上传由网易号用户发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注