过去数年间,智能驾驶领域的竞争焦点经历了显著演变。

起初,竞争集中在硬件层面,包括是否配备激光雷达、摄像头数量以及算力(TOPS)的提升。随后,随着大模型时代的到来,竞争转向了端到端、VLA(视觉-语言-动作)以及World Model(世界模型)等技术路径。

如今,越来越多的企业认识到,单纯拥有更大的模型已不足以形成代际优势,真正决定技术上限的是模型、数据、算力和芯片之间能否构建一个持续优化的闭环系统。

正是基于此,越来越多的汽车制造商开始自主研发相关技术。

特斯拉在数据采集、训练基础设施、FSD模型,乃至Dojo超级计算平台和自研芯片等环节,几乎实现了全链条覆盖。在中国,包括小鹏、蔚来以及理想在内,都在不断向下游技术层面进行延伸。

理想汽车在其今年发布的L8和L9车型中,已采用了自主研发的马赫M100芯片。这款采用数据流架构的芯片,被理想汽车视为AI领域的一项重要技术方向。同时,理想汽车也在马赫M100芯片上运行了自主研发的马赫VLA模型。

然而,对于整个行业而言,更值得探讨的问题并非“是否进行自主研发”,而是这些投入究竟能解决哪些实际问题。

带着这个疑问,我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了深入交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系以及AI基础设施背后的设计理念。以下为部分访谈内容,经过编辑整理:

问:为实现第四季度达到特斯拉FSD V14的性能水平,理想汽车在哪些方面还需要进一步努力?

**詹锟:**我认为在追赶FSD方面,存在两个层面的考量。

首先是基础体验,具体体现在安全性、效率和舒适度能否达到FSD的同等水准。FSD在安全感方面表现出色,效率高且乘坐体验舒适,这是其核心优势。即便不处理极具挑战性的路况,这些基础能力也需要达到同等水平。

其次是功能性,这一点同样难以超越。例如,特斯拉能够主动避让特殊车辆,即使在极其狭窄的道路上也能实现精准感知,并且能识别交警的指挥信号,这些能力非常强大。

功能性的提升存在架构升级的机遇。为何其他公司不具备而特斯拉拥有这些能力?这可能源于过去的范式限制,也可能与架构或数据方面的原因有关。我们在这些方面进行了大量探索。

问:我理解马赫VLA是一个技术体系而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否仍包含“L”(Language语言)的组成部分?

**詹锟:**当前的自动驾驶架构普遍趋向于整合VLA(视觉-语言-动作模型)与World Model(世界模型)。

从长远来看,所有技术路线都会朝着这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到语言。因此,语言必然是其中的一部分,关键在于如何运用它。

在机器智能领域,我认为基于视觉(Vision Based)的理解方式更为合理,它能够更好地处理空间关系、三维感知以及环境交互。语言无疑也有其价值,在理解环境、交通规则、指令以及进行复杂决策时都能发挥作用。

长远来看,基于视觉和语言的原生基础模型,可能代表着未来的发展趋势。

**谢炎:**如果目标是实现L3、L4级别自动驾驶,需要解决更广泛的泛化问题,那么模型必须具备类似人类的思考能力。届时,语言的重要性将愈发凸显,这也是未来对算力需求巨大的原因之一。

如果模型仅具备视觉和动作(Vision and Action)能力,即便拥有海量数据,在面对分布之外的未知情况时,也会显得束手无策。就像动物即使掌握了所有常见情景,面对从未遇到的情况也可能不知所措,无法做出正确的选择。

我们认为,随着自动驾驶级别向L3、L4迈进,所要解决的问题将越来越接近90%、95%、98%之后的那些挑战——即那些前所未见的问题,需要模型具备类人的思考能力。而获得这种推理和思考能力的来源,正是语言模型。例如,理解交警的手势意图,判断其是否允许通行,这不是单纯通过收集或生成数据就能解决的。

问:随着理想汽车车队规模的不断扩大,从公司内部来看,数据的边际效益是否出现了衰减?你们是如何定义有价值的数据的?

**詹锟:**首先,数据的数量必须足够庞大,核心目的是收集更多的Corner Case(长尾场景)。当前,业界普遍采用多种方法,例如在车端部署优秀的神经网络触发器(neural trigger),以区分场景的难易程度,并将关键数据回传。这也是特斯拉在这一领域表现出色的重要原因之一。

其次,数据的质量至关重要,主要体现在行为数据的质量。目前,业界已逐渐趋向于端到端的模式,无论是VLA(视觉-语言-动作模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),关键在于能够准确把握Action(动作)的执行。因此,行为数据的质量,包括其规范性和一致性,变得尤为关键。

至于数据规模扩大后边际效益是否衰减的问题,首先,只要模型能力持续提升,并且我们朝着100分的性能目标迈进,其增长曲线必然呈现“对数曲线”的特点,即增长速度逐渐放缓,绝不可能线性增长。任何一家AI公司都面临这种情况。尽管后期数据收敛的速度确实会变慢,但我们希望通过规模化来加速这一进程。

问:马赫M100芯片能够支持多种AI场景的运行。展望未来五年或更长时间,理想汽车车内的算力中心是否有可能全部采用自主研发的马赫芯片?

**谢炎:**尽管业内存在“舱驾一体”的说法,我们认为其核心在于AI算力部分,而其他部分的整合则不那么关键。因为座舱系统和AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而显著提升效率。

我们规划的最终形态是,车内构建一个统一的AI计算中心,所有的AI任务都可以在此进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内系统也类似,将拥有一个Token Server(Token服务器)。

这个Token Server的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能得到保障,不被其他任务影响,这是软硬件协同设计才能实现的。

问:是否因为M100采用了数据流架构,其对带宽的需求低于其他厂商的自动驾驶芯片,而对片上存储的需求更高?

**谢炎:**我们对带宽的要求确实较低,但这并非直接导致SRAM容量(非显存)设计的原因。当前,HBM(高带宽内存)技术备受关注,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计选择是基于成本、整体性能等多种因素综合考量后做出的权衡。

不同的架构设计,仅仅依据一两个指标进行简单对比,既不合理也不专业。这好比一场拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是整个比赛过程的表现。

问:为何当前大算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上进行了此类尝试?这是为何?

**谢炎:**从本质上讲,座舱和驾驶是两个独立的系统。特别是对于高端L3向L4级别发展的智能驾驶,需要一个更高确定性的系统,其内存和计算资源需要专属分配,此时融合的意义就大大降低了。因为资源无法实现实时切换,而实时切换会影响系统的确定性。如果系统朝着越来越专用的方向发展,融合的价值就不大了——即便将两颗芯片整合在一起,资源仍需独立分配,这并不能降低成本,甚至可能影响效率。

目前市面上所谓的舱驾融合系统,其内部依然是分开的。它们无法实现任务的即时切换。将两颗芯片集成到一颗芯片中,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但总体节省幅度有限。

我的观点是,随着智能驾驶技术向更高端发展,舱驾融合的意义可能会逐渐减弱。如果将这些芯片设计得更紧凑,在同一块电路板上实现高度集成化的小体积方案,这是可行的,不一定需要集成到单一芯片中,也可以采用多芯片协同的方式。

问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?当前自动驾驶迭代速度很快,芯片要实现持续迭代,又需要哪些支持?

**谢炎:**芯片的初期投入确实不菲,每年可能需要数亿元人民币。

首先,需要达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年拥有数十亿至上百亿元的研发资金,才足以支撑芯片的持续研发投入。其次,自主研发的芯片所解决的问题,必须能够显著提升产品的核心竞争力。

许多人认为芯片需要庞大的出货量才能摊薄成本。实际上,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如Livis采用两颗马赫M100,总面积约为800平方毫米。而一颗高端手机芯片的面积大约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部高端手机芯片的总和。

如此计算,数十万辆车的需求量将消耗巨大的晶圆面积,足以有效摊薄成本。因此,成本不能仅仅用芯片的颗数来衡量。

问:动态数据流编译器的技术难点究竟在哪里?攻克这一难题耗费了多长时间?

**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始着手编译器的工作,并在流片前完成了大量模型的运行验证。

数据流架构与传统架构截然不同,它需要解决的问题与超级计算机或大规模计算机集群面临的挑战类似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信与协作,无法由一个中央管理员来统一调度。传统的冯·诺依曼架构调度方式在这种规模下已不可行,这是一个超大规模并行调度问题。