谷歌首席人工智能架构师:双子座复兴的 18 个关键

除非你亲耳所闻,否则很难想象一家科技巨头会在镜头前承认“两年半前,我们远远落后”。在这次采访中,DeepMind 首席技术官兼谷歌首席 AI 架构师 Koray Kavukcuoglu 几乎总结了谷歌过去两年的现实,不是从领导力或规模上,而是在加速时代中它是如何被抛在后面以及如何慢慢迎头赶上的。他没有展示参数,也没有谈论模型的“奇迹”,而是专注于更底层、更残酷的问题。这是关于世界上最强大的人工智能实验室之一如何学习创新、学习设计、学习组织协作以及学习如何在巨大的惯性中真正将技术转化为产品。双子座的故事仅仅触及表面。真正改变的是谷歌的结构和步伐。链接采访来源:https://www.youtube.com/watch?v=fXtna7UrL44 基于采访记录的关键问题ts 总结如下。希望这可以帮助您更清楚地了解Google的“重建”。 11、真正的起点不是巨大的进步,而是承认我们落后了。采访中最令人反感和最重要的一句话出现在最后。 “当 Gemini 项目启动时,我们距离前列还很远。这是一场追赶游戏。”这条线标志着认知的一个重要转折点。 Google已经承认自己确实落后于LLM的起跑线了。 “我感觉不舒服”是轻描淡写的说法,但“我已经落后了很多”。这意味着DeepMind必须忘却过去十年建立的信任,从最基本的用户使用场景中重新学习。而这种理解是一切改变的源泉。科雷在采访中反复强调,真正的转折点不是新技术,而是谷歌承认需要重新设置其培训、生产、设计和组织的方式。 12. 为什么中国用户使用Ge您是第一个注意到mini有所改进的吗?采访一开始,主持人就特别提到了中方的表态。中国用户形容Gemini 3“像Windows XP一样稳定、易用”。 Koray非常有趣地解释说,这并不是模型本身突然“智商飙升”,而是Google终于整合了“模型x UI x任务链接”。以前的大型机型“智能”,但不“人性化”。 Gemini 3的转折点是用户界面更加直观,任务分解更加稳定,模型能够更好地理解人类意图。产品团队从开发阶段就参与模型的设计。用户的实际使用数据可以直接输入到训练中。换句话说,谷歌终于开始构建更广泛的产品公司模式。这是Gemini 3变化最直观的原因,也是中国用户会率先体验的原因。 13. 基准测试失败,但在现实世界中我们永远不会批评基准测试谷歌基准测试的性能波动,但 Koray 的解释没有抓住重点。主要基准指数正在接近其自然上限。 GPQA 和 ARC-AGI 等“IQ 问题”已被模型取代,而 HLE 曾经是一种罕见且过高的评估,现在可以“继续改进”。参考点耗尽了,但现实世界却没有。学生写作、科学研究、专业翻译、文本之间复杂的交互、语言之间的表达……这些场景永远无法用一组固定的测试来穷尽。谷歌已将最终价值从“分数”模型转移到“它是否帮助人们完成任务?”这是双子座的首要原则变化。 14、Gemini 3的核心不是提高智力,而是让模型“发挥作用”。自Gemini 3以来,谷歌就明确为其三个最高优先级的功能设定了方向。后备军。首先是服从命令。该模型必须能够“清楚地理解并强制使用这对用户体验影响巨大,比提高推理指标更重要。第二是国际化的特点。Google 用户覆盖200多个国家,“对全球不同文化背景的理解”是模型能力的关键指标,不仅仅是翻译能力的延伸。第三是工具调用和代码执行,这是未来智能体的基础。模型不仅要理解问题,还要执行任务,运行工具链,并在工程环境中处理现实世界的任务。换句话说,智能不是来自“更智能的对话”,而是来自“更可靠的执行”。 15.为什么谷歌的多模式代理一开始这么难用?这是组织者最尖锐的问题,也是外界最想知道的矛盾。呃出奇的简单。研究人员可以在实验室中促进视觉理解,但智能体的任务不是研究人员可以思考的任务,而是用户强加给他们的任务。真实代理的场景来源于: 作者任务 链接 学生创建过程 工程师的工具调用模式 业务用户的复杂需求 换句话说,Google 走了一条与 OpenAI 不同的道路。换句话说,不是“演示优先”,而是“真正的用户需求优先”。该代理的功能不是由炫酷的演示驱动的,而是由每天数百万用户的使用驱动的。 16. 谷歌真正的反超级武器:模型、产品和工程首次结合在一起。科雷一再强调了一个被低估的事实。 Gemini 3并不是“模型团队”的胜利,而是“工程、产品、模型和安全”从第一天起第一次走到一起。以前,一旦模型经过训练,产品安全团队就会采取最后安全团队进行了审查。团队工程负责实施。产品团队现在从培训一开始就参与到安全流程中。对于训练目标,在训练阶段优化模型使用成本、延迟和推理路径,而不是规则后的实际用户数据(AI Studio、AI Overview、Anti-Gravity)。谷歌终于构建了统一的“模型x产品x工程”体系。这将为2024-2025年的全面回归提供结构性基础。 17. Nano Banana Pro 的革命性目标不是让照片看起来漂亮,而是了解世界的结构。虽然外界一直关注图像模型的“清晰度”和“风格”,但Koray在采访中反复强调,真正的进步来自于:通过结构化视觉推理理解PDF文件、表格和图形等复杂文档结构,可以生成概念性的图像模型。首次实现连贯的信息图形。值得记住的一句话是:“当一个模型能够使用信息图准确地表示一个复杂的概念时,就有了真正意义上的理解。”这就是多模态模型的真正价值,直接表明了智能体未来的能力。 18. 多式联运不是一个附加特征,而是通往真正“全球模式”的门户。 Koray 提出了一个简单但非常引人注目的框架,其中文本是线性的,视觉是空间的,音频是时间的。现实世界不能仅用线性序列来解释。因此,一个真正的智能模型必须同时具备感知的所有三个维度。这就是为什么谷歌比任何其他公司都更致力于推广综合多式联运模式,不是因为多式联运更“酷”,而是因为它是理解世界的基础。 19. 统一模型不是“纳入语言模型的愿景”;它是一位建筑师阿尔革命。外界认为“统一模式”的发展方向是正确的。然而,Koray 的解释在技术上更加详细。他指出:文本和图像的输出结构根本不同。文本是一维的,图像是二维的。这意味着我们必须重新发明我们的训练方法、损失函数、优化器和标记化方法。统一模型不仅仅是“时代趋势”,而且是必须克服的工程限制。谷歌的故事中没有浪漫或玄学,只有工程问题。 10. DeepMind 的文化基因:谦逊、科学和大规模协作。这部分是整个采访中最“人性化”的部分。深层文化思维由三个部分组成: 科学思维:所有问题都是无路径的,回归到实验和学习。谦虚:“我们不知道最终的秘诀”是一种策略,而不是一种礼貌。协作能力:从 25 人写一篇文章到 2,500 人共同努力驱动单一模型。随着公司从研究转向工程,从工程转向产品,这种文化结构变得非常重要。 11. 规模是谷歌最大的问题,也是最大的武器。 Koray 承认:规模越大,就越难实现一致性。但规模本身就是驱动力。 Google 拥有世界上最成熟的基础设施链接,可实现统一模型、多产品部署、跨职能协作、全球数据管道以及超大规模的培训和部署。在过去的两年里,这个链接已经从“不活跃”变成了“常规”,谷歌又重新发起进攻。 12. 安全不是限制能力,而是培训能力。 Google 和 OpenAI 安全策略最大的区别不在于严格程度,而在于方法论。安全性不是“训练后添加过滤器”,而是“在训练期间学会确保安全”。这是“增加模型可靠性”和谷歌的基础设施。与Cha的规模自然契合。 13.集成和专用模型优化成本,而不是路线上的竞争。Koray先生很诚实地说:这不是一个意识形态问题,而是一个效率问题。毫无疑问,未来将会有集成和专用模型。谷歌的策略是使用正确的工具来执行正确的任务,而不是坚持单一的范式。过去的,现在他已经重新发现了这一点。 14. 谷歌真正的信心:重振基础设施 “我们的成功不是因为我们足够聪明,而是因为我们的基础设施足够强大。”事实上,Koray 的话深刻地揭示了大规模模型时代的根本事实:智能扩展取决于管道,而不是天才。基础设施,而不是算法,可以训练、部署、迭代、处理和维护全球数据的安全一致性。 15. 谷歌不相信这一点。是一条单一路径,也不相信“持续参数扩展”会带你到达那里。 “我不知道最终的配方,”他说。这句话的潜台词是:参数扩展不是最终目的。统一模型并不是最终的答案。多模态并不是最终的方式。未来模型的路径尚未确定。这种“尽管不确定,但仍要继续前进”的态度,相比一些声称“通向AGI的唯一途径是xxx”的公司,赋予了它一种长寿感。 16、下一阶段重点是推理、执行和真正的自治。Gemini 3的故事才刚刚开始。谷歌的下一个目标是让深度推理多步任务执行在复杂场景下变得稳健。从“响应”到“行动”是整个行业的共同方向,但谷歌内部有一个相对清晰的路径。 17、谷歌内部时间结构:研究x工程x产品权重均等分配 Koray透露,团队的时间分配不会优先优先考虑研究,但会平衡三个研究领域之间的权重。这是训练模型。这意味着从使用开始的整个过程是以集成的方式而不是线性的过程来促进的。这也是模型“真正有效”的重要原因。 18. Gemini是一个全公司范围的“科技项目”。采访最后,Koray 将 Gemini 的诞生形容为“对整个公司的科技挑战”。这是从内部角度看的脚注。模型的进步来自于结构的调整,但调整结构本身比模型更困难。培训、数据、工程、产品、安全、协作……这些联系已经重新组合,形成了今天的双子座。过去两年,谷歌一直致力于恢复系统应有的速度和一致性,而不是寻找捷径。一旦这些基础再次巩固起来,属于谷歌的节奏就重新出现了。赞助商作者:周华祥,点击“爱”退出。
特别提示:以上内容(包括图片和视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注