北京大学一位痴迷于机器人大脑的副教授谈到了具身领域最大的“偏见”。

文字|府中编辑|苏建勋 2026年具身智能将有何不同?北京大学计算机学院副教授、“智无界”创始人陆忠清做出了“软件与硬件的区分”的决定。软指的是模型的大脑,硬指的是机器人本身。差异化意味着不同的公司拥有独特的优势并从事独特的工作。 “智能无界”所在的北京鼎好大厦,是一座云集了驰远研究院、零一事物、银河将军等多家明星人工智能机构的大楼。人工智能的差异在这里很常见。卢宗庆先生的看法也与目前实体化行业的发展状况有很大不同。如今,无论是致远“独角兽”机器人、银河环球等备受好评的表现型初创企业,还是星动时代、星海图的融资强力推动,都在推动产生一件事:集成软件和硬件以构建完整的堆栈。然而,吕宗庆和他在2025年创办的智慧无界选择“逆势而行”,成为一家模范公司,只开发机器人大脑,不涉足硬件制造。智萌科技独家获悉,智萌智能近期完成数千万元天使轮融资。由拉卡拉旗下考拉基金领投,领先新界领信巧手跟投,原股东联想之星、星联资本继续跟投。 “无论是国内还是国外的示范行业,对于‘纯粹的平滑’都存在比较大的偏见。”卢宗庆一语道破。他举了一个例子。 Figure是一家来自Built-in Intelligence的美国初创公司,做软件和硬件,其声誉是Physical Intelligence的数倍,而Physical Intelligence只做内置模型。加尔。然而,2026年初美国机器人行业发生的大规模交易,为“关键市场嵌入式模型公司的重估”开了个好头。 1 月 14 日,机器人建模初创公司 Skild AI 完成了 14 亿美元的 C 轮融资,估值翻了三倍,超过 140 亿美元,成为 2026 年机器人行业首个价值 1000 亿美元的独角兽。这笔交易引发了这样的问题:如果一家建模公司创造了一个具有不同本体和常见任务的大脑,那么嵌入式智能公司不应该单独运行所有技术吗?这正是世界智慧想要展示的:cBuild 超越品牌和形式的体现智能模型。目前,该公司已推出Being-H系列右手手动模型,并正在开发一款名为Being-M的模型,可以控制双足机器人的运动和运动。新推出的Being-H0.5型号已经可以控制30种类型的机器人。优化d 用于推理并在 NVIDIA Orin-NX 等机器人常用的小型芯片上实现,它也可以实时运行。目前,公司客户包括PND、灵信巧手等硬件公司。 PND与智慧无国界最近发布的Adam-U Ultra机器人就是一个“软硬协同”的经典故事。连接到Being-H后,PND高自由度机器人将能够“开箱即用”执行桌面整理、代码排序和扫描等常用技能。我们的增值服务Being-Dex使用少量数据进行后续训练,让您在数小时内学习新任务。实现上述功能的基础是超过30000小时的预训练数据。吕宗庆介绍,这是目前全球最大的嵌入式智能模型训练数据集。这背后是我们独特的“人性行动”。有一个“视频”解决方案。 (《智能涌现》注:这里的“最大”特指用于预训练嵌入式智能模型的数据集。)该解决方案可以在人们工作或正常生活期间通过头戴式摄像头记录第一人称手部运动视频。因此,数据规模大,成本低,可以更完整地记录复杂的人类操作。相比之下,大多数企业所依赖的“远程采购”模式需要对特定机器人进行人工控制,且受到成本高、规模小、数据与硬件深度耦合等限制。 △头戴式摄像头可以记录手部动作的第一人称视频,不干扰操作人员的正常工作。照片:采访者提供。 2023年底,卢宗庆开始运用这种数据思想来训练模型。他回忆说,当时该解决方案并没有产生太大影响,行业仍然依赖于模拟和真实数据。但从 2025 年开始,包括 Tesla Optimus 在内的更多机器人公司将开始采用人类视频EO 数据解决方案。卢宗庆认为,2026年,行业内将有更多企业实现“软硬差异化”的价值。原因在于其背后的经济核算。内部开发物理模型每年可能花费数千万甚至数亿美元,其中包括购买卡和雇用员工等成本。相比之下,从国外购买一个机器人“大脑”的一次性成本仅为数万元。在他看来,“软硬件一体化”因其全面的设计而在各大市场更受欢迎,但现实是技术栈太长。建模和硬件构建是两套功能系统,企业很难同时做到这两套。过去一年,我们看到了一些“全栈对全栈”的公司,他们覆盖了VLA,创建了功能演示并筹集了资金,但在现实场景中却无法赚钱,或者暴露了他们的模型覆盖范围并质疑他们的技术的能力。已经出现了几家公司。这让更多的创业者开始考虑完整方式的难度和盈利能力。 “我们不想分配资源和薄弱的硬件。”卢宗庆表示,技术尚未融合,探索应轻。这就是为什么他决定把重点放在“大脑”上。 △卢宗庆,照片:采访者提供了以下对卢宗庆在《智力涌现》的采访。作者总结内容:化身模型、本体和角色划分更加清晰。智能涌现:国内主要化身公司仍专注于“软硬件一体化”,智慧无界只做模型。筹集资金是否会遇到困难?对于这种情况你怎么看?卢宗庆:智慧无国界将于2025年5月正式运营。当时纯模型路线筹集资金并不容易。事实上,情况类似美国市场。同时制造软件和硬件的数字比仅创建模型的物理智能具有更高的评级。物理智能。 (作者注:2025年9月,这个数字的估值约为390亿美元。2025年11月,物理智能的估值约为56亿美元。)我认为原因是早期投资者愿意把钱投到无所不能的公司上,因为物化是一个全新的行业,一开始没人知道未来的产业链会是什么样子。然而,评估是暂时的,并不一定意味着公司的业务会表现良好。我想做的是像OpenAI这样的公司,先专注于科学研究,先创建“ChatGPT”,然后才能开展商业业务。智能的崛起:对于一家公司来说,表现良好意味着什么?换句话说,一个好的具身大脑模型能解决什么问题?卢宗庆:吉机器人的“运动基因”和操控性我认为是通过模型的预训练来实现的。人类不像马、鹿这样的动物,并不是天生就有超强的运动能力,而是基因赋予了人更大的运动能力,而这种能力是可以通过后天训练激发出来的。机器人也是如此,预训练的模型就相当于赋予了机器人初步“开箱即用”的运动能力。智慧无国界还根据具体任务对各种机器人进行后期训练。如果之前训练出来的大脑模型是健壮的,在后续的训练和部署中,机器人可以在30分钟左右学习新的任务:但是,更高的估值会增加资本储备,从而可以进一步进行技术探索,这是否会增加“模型项目成功”的可能性。 卢宗庆:但是,当估值上升时,就会出现恶性循环。公司可能会尝试不同的技术和进入市场的途径。我们投入了很多钱,但一无所获。至少,声誉与企业成败之间的关系并不是绝对的。 Smart Emergence:那么您能感受到一级市场的变化吗?您认为原因是什么?卢宗庆:现在我们看到法人模式公司的估值越来越高。原因是,从商业角度来看,很多机器人公司都会寻求合作。当大家计算了“内部开发的模型能否盈利”的问题后,我们逐渐意识到,综合型智能本体公司能否打造出模型,本质上是一种商业行为。我认为该行业将继续越来越区分软件和硬件。智力崛起:从会计角度来看,训练一个好的化身模型每年需要花费几千万到上亿元吗?卢宗庆:是的。模特工作需要10人左右,年收入2000万元。计算能力也非常昂贵。如果你有100台机器,每台机器有8张卡,一张A800卡每月的费用约为300。需要花费一万元。如果使用H200卡,每月费用为900万元(含存储)。这不包括数据或其他成本。目前第一人称视频数据最便宜,每小时几十元。动作捕捉数据每小时花费几百元。新兴情报:情报无国界目前的支付模式是什么?为什么它比公司进行的独立研究便宜?区分了软件和硬件之后,硬件厂商会不会担心因为软件功能缺乏而被模型公司“培育”呢?卢宗庆:目前的收费是机械化的,需要一次性许可证才能实施。检测费用,少则几万元至数十万元,仍低于出货量较小的企业自检成本。我们还提供Being-Dex,这是一种根据数据量收费的培训后服务。一旦本体公司达到一定的出货量,他们将可以使用类似于SaaS包年套餐的支付方式。届时,模型公司将出现多个,相互竞争,本体厂商将不再害怕其中一家“抬价”。智能化的出现:一旦技术融合,无需花费大量资金进行研发,本体会开启样板业务吗?这会对纯模特公司的业务构成威胁吗?卢宗庆:当技术融合,我们真正达到普通模型可以做很多事情的阶段时,机器人就会入侵我们的家庭。当时我就觉得模特公司的市场要大得多,To C也会有e 可能。有些,比如华为,既有软件又有硬件产品。到了那个阶段,我们甚至可以在 OEM 的基础上创造真正的机器人产品。 △Being-H模型控制的PND机器人正在扫码快递。照片:采访者提供。 2027年,将出现100万小时的数据,模型的功能将发生质的变化,智能将出现。他此前曾参与计算机领域的研究。我在那里。您是如何开始研究面部智能的?什么都没有?卢宗庆:2023年,我使用大规模多模态语言模型玩了开放世界游戏《荒野大镖客:救赎2》,发现模型理解任务和完成动作的能力非常有限。这时我才意识到模型的交互性很弱,根本瓶颈在于缺乏视觉和空间理解。为了改善这一点,现实世界的交互数据至关重要。这是我的第一个机会有权投资体现智能建模研究。智能涌现:无界正式成立后,尤硕智利用2025年暑假的时间,前往各个工厂调研嵌入式智能的落地情况。您是否发现当前行业存在的问题或状况?卢宗庆:这证实了我们之前的判断,即现阶段的身体智能还远未达到可以在实际工作中实现的水平,而僵局的核心点是泛化。例如,在线束排序或精密装配等复杂的非标准流程中,嵌入式智能“独立完成任务”的能力仍然有限。业界谈论的“工业场景实现”大多仍是短周期演示或概念验证(POC)的形式。智力的崛起:为什么?卢宗庆:原因之一在于硬件,稳定、可靠d 使用方便,缺乏灵巧的手,自由度高。右手也缺乏触觉,这意味着他们缺乏重要的力反馈信息,例如接触点。另一部分原因在于模型。到目前为止,业界主要使用的是两指镊子,但尚未开发出功能性灵巧手模型。新兴智能:您提议在行业达成共识之前使用人类视频作为预训练信息。智在无界推出第一款车型时,业界反响如何?卢宗庆:2025年和7月8日我们创建了我们的第一个右手模型Being-H0,业界的反响非常积极。 NVIDIA总部还专门派人来了解这款机型的算力细节。那一刻,大家都觉得很正常,这是一个新的想法。当时,该行业仍然主要使用机器人收集的数据。我们是您的第一家公司使用大规模人类视频数据来预训练我们的模型。 Being-H0 使用了大约 100 万个从第一人称视角操作人手的视频。 ApariIntelligence:2023 年末,我们开始使用人类视频数据技术路径训练化身模型。业界在过去的一年里也大量迭代了各种技术方案,但为什么还没有产生一个通用性好、能在实践中发挥作用的嵌入式模型呢?卢宗庆:我们花了大约两年的时间来训练体现模型。过去的问题中,有两个最本质的点。一是我们没有足够的数据。另一个是我们仍然缺乏足够的训练模型范式。智能的崛起:实体智能需要多少数据才能具备泛化能力?卢宗庆:我们目前积累的数据在4万到5万小时之间,包括第一人称视频和一些真实机器人的数据。我认为数据规模m我们需要达到大约 100 万小时,机器人才有很好的机会快速学习新的复杂任务并拥有真正的泛化能力,这样它们才能真正用于生产线。大概到2027年就会达到这个水平。而且数据来源不能仅限于一种或几种场景。我们在收集数据时注重多样性,不同场景、不同任务的数据不断积累。智慧的涌现:工作一两年,我只积累了四万到五万个小时的视频。 2027年视频时长如何达到100万小时好呢?卢宗庆:以前视频量只有4万到5万小时。原因是技术路线还没有走向“真人视频”,所以很少有人系统地去做。一些最早的数据来自互联网,包括用 GoPro 拍摄的第一人称照片。我们自己收集其中的一部分,例如第一人称视频和使用动作捕捉设备捕捉的动作数据。目前,行业对视频训练数据的需求不断增加,最近出现了许多专门从事视频数据制作的初创公司。一些合作工厂向我们提供了数据,例如工人在工​​作时用相机握住的手的图像。智能的出现:您提到从方法论的角度来看,培训的大框架实际上是相同的。真正的区别在于细节和工程。智能无国界是如何实现的?卢宗庆:在“预训练-后训练”的两层框架中,智慧无国界首先在预训练阶段使用大量的人类视频,让模型模仿人类,理解视觉和文本,并产生人类行为。在后训练阶段,基于2D图像的预训练中学到的信息与物理空间相协调,转换成物理空间中驱动机器人的控制信号。现实世界,可以适应不同的本体。在这些会议期间,我们做了一些详细的工程工作。例如,在数据处理方面,我们建立了一系列自动化的数据处理工作流程,整个过程基本上不需要人工干预。系统自动抓取互联网上的视频,调用模型标注视频动作的文字描述,并从视频中提取有用的片段。此外,您可以标记视频中的接缝,以允许不同的来源、不同的角度和不同的定义。视频中的 2D 动作场景可以集成到同一个 3D 空间中,最终直接用于训练。ento.可以组织成“视频、文本描述、动作”数据对。在训练后阶段,我们将更积极地探索多模态融合,例如添加触摸提供的力反馈,以补充模型学习所需的关键信息。智力的出现:此外说到灵巧双手的大型模型,听说智慧世界将推出适合双足人形全身的大型模型。首先您能简单介绍一下吗?卢宗庆:这就是Being-M系列,我们打造的多模态移动运营模式。这些数据变得更加复杂。相同的动作包括第一人称和第三人称视频以及动作捕捉数据。他们是可用的。在预训练阶段,我们首先使用模型提取第三人称视频中人的姿势,然后为该动作添加文本注释。目前,使用大约 1500 万个“文本+动作”对进行训练,与第一人称视频结合时,相当于添加了视觉模态。例如,“绕过面前的障碍物”这样的动作,既需要全身动作,又需要文字描述,还需要人眼看到的第一人称视觉数据。通过将它们相加,我们就可以生成对应的序列的行动。然后使用Being-W动作跟踪模型来控制机器人遵循模型生成的动作序列。 △Being-H模型控制的机器人对不同形状的零件进行分拣。图:面试官做演示是很常见的,但并不能解决任何实际问题。智能的出现:那么我们离一个可以独立且普遍运行的理想的具体化模型还有多远?卢宗庆:要是我们能判断一下能走多远就好了(笑)。然而,将于2026年1月发布的Being-H0.5右手模型与六个月前发布的Being-H0相比,在多功能性和跨界性能方面有了很大的提高。智能的出现:您认为模型功能的质变会突然出现还是会是一个渐进的过程?卢宗庆:不会是渐进的。这是模型级别的方法或更改。然而,从科学研究的角度来看,我们无法通过模拟来实现这一点。坚持现行方法。新兴智能:新发布的Being-H0.5模型如何工作?卢宗庆:Being-H0.5的预训练除了海量视频数据外,还使用了30种不同本体配置的真实数据,实现了本体之间的海量数据融合。一旦模型经过训练,您就可以同时实现五个不同的本体。对我来说最令人惊讶的时刻之一是,使用玉树 G1 收集的快速代码扫描和分类任务数据训练的模型首次允许 PND 的 Adam-U 在机器上成功执行相同的任务。而且Being-H 0.5最终的执行速度非常快。实时模型动作生成和机器人运动可以在流行的Orin-NX小型计算板上实现。智能的出现:我们如何评估泛化?您知道使内置模型相对公正的基准吗?卢宗庆:其实我们就是这样最重要的是任务的成功率。目前业界已有LIBERO、RoboCasa等多个Benchmark,但具体Benchmark仍在迭代中。智能的出现:Ser-H 0.5这个名字与PI 0.5有关吗?卢宗庆:与此无关。我只是认为该模型仍然具有 0.5 的功率水平。事实上,市场上有好几家自称是本土车型的公司。事实上,这些模型包含 PI 0.5,您只需添加训练后数据即可。但我们不是。除了基于VL的模型外,其余的我们自己训练。智能的出现:看到演示,很多人错误地认为机器人已经可以做很多事情,尽管现实非常罕见。拍摄演示需要很多“技巧”。听说有一个?卢宗庆:演示过程中还存在很多障碍。比如demo中的一些任务,如果没有特别说明自主操作的话,是可以远程控制的配给。智能涌现:那么在工厂工作不容易吗?卢宗庆:是的,是的,如果我们现在就可以开始工作,我们永远不会建造这么多矿场,也不会收集这么多数据进行训练。智能的崛起:最后我们来讨论一下当前的热门话题:“世界模式”。很多人认为这项技术将在2026年解决内置泛化问题。看来您有不同的看法?卢宗庆:我对“世界模式”这个词一直持谨慎态度。目前世界模型的定义非常混乱。当然,如果您在训练过程中提供合成数据并且仅用于生成训练数据,这是可能的。充其量它是一个“数据生成器”。然而,如果最终将其引入机器人中直接控制其操作,则会变得极其复杂,需要大量的计算。这是因为必须考虑机器人的每一个运动、生成的轨迹和数字我们做出的预测。可能的情况。以此来控制机器人还是非常困难的。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注