慧博投研近日发布研究报告,对智驾与机器人领域的VLA(视觉-语言-动作)技术进行了深度梳理。报告指出,这一融合了视觉、语言与动作三大模态的端到端智能体系,正成为推动智能驾驶与机器人向更高智能化水平迈进的核心技术。

VLA模型的核心突破在于打通了“看、懂、做”三个环节,能够直接接收图像和自然语言指令,并输出对物理世界的控制量,从而替代了传统上划分感知、决策、控制模块的复杂流程。这一转变大幅减少了信息在模块间传递的损耗,降低了对人工规则的依赖。谷歌DeepMind在2023年7月发布的RT-2模型是一个重要里程碑,它验证了VLA框架的有效性,不仅将任务准确率提升了近一倍,还展现出了处理零样本任务的泛化能力。

驱动VLA技术发展的因素是多方面的。在智能驾驶领域,随着中国L2级辅助驾驶渗透率达到50%,行业正积极向L3级迈进。VLA被视为解决复杂城市场景瓶颈、实现L3级自动驾驶的关键技术路径,2025年有望成为其落地元年。同时,智能驾驶技术本身正从“模块化端到端”向“全局端到端”演进,VLA能够以大语言模型为基础直接输出控制信号,显著提升了系统的响应速度和环境适应能力。
在机器人领域,对“具身智能”和通用化的迫切需求是主要驱动力。VLA通过端到端的架构与大规模预训练,赋予机器人适应动态环境的能力,使其从执行单一任务的工具向通用的智能伙伴转变。
在技术演进路线上,智能驾驶VLA模型经历了从语言仅作解释,到成为主动规划组件,再到统一端到端输出控制,并最终迈向支持长时记忆与复杂推理的四个阶段。

然而,其工程化落地仍面临极端工况下的稳定性、对罕见长尾场景的泛化能力以及多源数据时序同步等挑战。应对这些挑战的关键技术包括:利用3D高斯散射(3D GS)技术高效获取精细的3D环境表征;通过稀疏注意力机制与动态记忆模块增强长时序记忆与规划能力;采用混合专家(MoE)架构、模型量化等技术优化端侧计算效率;以及与世界模型深度耦合,构建高保真仿真环境用于模型的闭环测试与强化学习。
相比之下,机器人VLA的发展面临更大挑战,其场景复杂度更高,构建数据闭环的难度也更大。这主要源于机器人任务极其多样,所需的数据在维度和复杂度上远超车端,同时硬件方案尚未统一,本体的高自由度也导致数据采集效率低下、成本高昂。

报告预测,机器人VLA的发展将分三步走:短期内推动硬件标准化以降低数据成本;中期依靠世界模型与多模态传感器成为主流;长期则形成“基础模型+垂直专家”的产业分层。
报告还剖析了多个典型的VLA架构案例。在智能驾驶方面,Waymo的EMMA模型是早期的开创性尝试;小米的ORION架构通过QT-Former模块强化了长时序记忆;理想汽车的Mind VLA则深度融合了3D空间理解与扩散模型轨迹生成技术。

在机器人领域,开源的Open VLA模型以更小的参数量实现了优异的性能,证明了VLA的商业化部署潜力;Helix模型创新性地采用“双系统”架构,实现了对人形机器人上半身35个自由度的协调控制;智元的ViLLA架构则通过巧妙设计,实现了对互联网海量异构视频数据的高效利用。
在产业布局方面,理想汽车等公司正积极从整车企业向人工智能企业转型,其自研的VLA模型不仅是实现高阶智能驾驶的核心,也被视为拓展至机器人等具身智能领域的基座。小鹏汽车则坚持“底层自研、全链自主”的策略,规划了清晰的“智驾端到端四部曲”技术路线,并自研高算力芯片为VLA模型的落地提供支撑。
【注】更多研报请上慧博智能策略终端PC版或慧博投资分析APP
重要提示:本文著作权归财中社所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至editor@caizhongshe.cn。