分类导航

取消

热门标签

Pull down to refresh...
Pull down to refresh...
上拉加载更多
智驾迎来 DeepSeek 时刻?王晓刚:未来数据量需求降低一个数量级
2025-03-04 22:55 3545次阅读

42号车库

Hey, it's 42HOW. 和你一起探索未来汽车。

最近,在 2025GDC 全球开发者先锋大会上,商汤科技发布了行业首个「与世界模型协同交互的端到端自动驾驶路线 R-UniAD」,通过构建世界模型生成在线交互的仿真环境,进行端到端模型的强化学习训练。

这与今年春节开始爆火的 DeepSeek 技术思路非常相近。商汤绝影认为,从模仿学习向强化学习升级演进,端到端自动驾驶有望超越人类驾驶的表现。

商汤绝影 CEO,商汤科技联合创始人、首席科学家王晓刚在演讲中介绍,训练 R-UniAD 分为三个阶段,首先是依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练;然后基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能;最后云端大模型通过高效蒸馏的方式,实现高性能端到端自动驾驶小模型的车端部署。

根据规划,今年 4 月的上海车展上,商汤绝影将会展示「与世界模型协同交互的端到端自动驾驶方案」的实车部署。

可以说,根据商汤绝影的描述,如今中国的智驾发展已经到了「DeepSeek 时刻」。

演讲结束后,42 号车库和业内多家媒体共同采访了王晓刚,听他详细分享了 R-UniAD 的技术内核、「开悟」世界模型的仿真能力等话题,还对近期火热的 DeepSeek、FSD 正式推送等话题做出回应。通过这场深度对话,我们试图探寻商汤科技在智驾领域的提前布局,以及智驾研发的最前沿。

数据需求降低一个数量级

如今,端到端智驾技术路线早已被整个行业认可,其本质是通过海量的高质量人类驾驶数据,来实现最佳的「模仿」驾驶效果。然而,基于模仿学习的技术范式可以做到接近人类,但难以突破人类能力上限。同时,高质量数据稀缺、驾驶数据质量参差不齐,端到端智驾方案要达到人类驾驶能力的天花板并不容易,动辄千万 Clips 的高质量数据回流形成了规模门槛。

这也让端到端智驾水平的竞争,一定程度上变成了算力的比拼。

今年春节期间,DeepSeek-R1 基于纯强化学习的创新引发了全球的广泛关注。通过少量高质量数据的冷启动,模型进行多阶段的强化学习训练,这样就能降低大模型训练的数据规模门槛。更重要的是,强化学习能够让大模型自行涌现出长思维链能力,提升推理效果,甚至可能具备超越人类的思维能力。

而基于强化学习的大模型技术路线,就可以迁移到端到端自动驾驶算法的训练与研发之中。这也是商汤绝影 R-UniAD 的技术思路。

据商汤科技的测算,小样本多阶段学习的技术路线能让端到端自动驾驶的数据需求降低一个数量级。这是怎么做到的呢?

王晓刚举了个实际的例子,一个困难的交通场景,仅有 10% 的人类驾驶优质数据可以通过,采集、训练数据都会比较困难。但对于强化学习而言,它可以通过模拟仿真反复尝试,最终在这个场景中,不仅可以顺利通过,而且可以生成不同的架势行为和路径解决复杂场景的问题。

「在这个场景里面,它对于数据的利用率可能就是 10 倍和 100 倍的提升。」王晓刚说道。

接下来智驾的训练,关键则不是找到人类驾驶的优质数据,而在于找到复杂的场景,才能进入下一轮的演进和循环。

不过,多阶段的强化学习并不意味着不需要数据,而是高质量数据的定义发生了本质的变化。此前需要熟练老司机驾驶的全程,但现在只需要一张场景的图片或者一个很短的视频片段即可,强化学习可以做完剩下的工作。

可以说,数据仍然关键,但获取方式已经更优了。

不过,数据量需求究竟会下降多少,王晓刚并没有给出准确的答案,他认为还需要更多的实践验证。

「开悟」世界模型:仿真驱动的智驾基石

经过云端的端到端自动驾驶大模型训练之后,R-UniAD 进入第二阶段,基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能。这个过程中的技术难点如何解决呢?

王晓刚认为,世界模型更真实的模拟仿真、预测生成的多样性,以及奖励函数(Reward Function)评价驾驶行为。

他说道:「世界模型的模拟仿真,我们是有比较长期的积累,在这个过程当中,你要出来的模型,要能够去比较好di'去符合物理定律和交通法则。同时,生成的视频不光是要好看,而且要准确,这些都是之前做得比较多的工作。」

预测生成的多样性则是第二个难点。我们开车遇到某个交通场景,其实可以有不同的开法,加上不同的时刻周围的车和人可能也会产生不同的变化,所以生成的这些模拟仿真轨迹和视频的序列,需要有更多的多样性。

而第三个则使用奖励函数评估好的驾驶行为,在交互的过程当中去比较,动态识别仿真的结果是好是坏。

经过云端的端到端自动驾驶大模型训练、与世界模型协同交互,最后云端大模型会通过高效蒸馏的方式,实现高性能端到端自动驾驶小模型的车端部署。

这其中,高质量数据几乎都来源于仿真。目前,商汤绝影仿真数据的比例大约在 20%,未来希望能够达到 50 - 80%。

不过,从云端蒸馏部署到车端,这个过程中怎么确保不削弱推理模型的能力?

王晓刚坦言,模型的能力肯定会有降低,但在端侧也要根据有限的算力,确保基本能力。

他认为两个方面比较关键:「一个是要从云端的模型里生成高质量的数据进行数据的蒸馏,另外就是要根据端侧芯片的架构特点,去设计混合专家模型(MoE)的模型架构。」

如今在智能座舱中,商汤已经在端侧跑了一系列这样的模型。

智驾成本结构改变

根据商汤的量产落地规划,2024 年北京车展,商汤绝影展示了 UniAD 的实车上路成果,量产端到端智驾方案则预计会在今年年底交付落地。刚刚发布的 R-UniAD,商汤则会在今年 4 月的上海车展上展出实车部署方案。

从量产落地时间上看,商汤相对业内头部还有一定的差距。

王晓刚认为:「大家所说的端到端量产,其实背后支撑它的技术差异还是比较大的。比如说一些两段式端到端,有的是跟这个规则混合在一起的比重,这个不太一样。」

商汤推出新的技术路线,就意味着它对整个研发的体系会带来新的变化。数据模拟仿真的能力、云端能力,这些要求都会大大加强。对于智驾行业而言,这就是机会。

实际上,R-UniAD 也正悄然改变智驾的成本结构。

商汤推出的智驾方案中,感知元件都没有激光雷达参与,而是以视觉为主的感知。王晓刚认为,这样的感知硬件选择,一方面是成本方面的考量,另一方面则是随着训练数据规模的增强,视觉方案上限更高,还能够弥补其他传感器的不足。

他说道:「当视觉能力偏弱的时候,不得不用激光雷达去作为辅助。」

如今,搭载智能驾驶车辆的价格已经下探到十万块钱以下,全民智驾也是不可阻挡的行业趋势。王晓刚认为,这对于降低硬件成本、提高鲁棒性都有进一步的要求。

写在最后

商汤科技在 2025GDC 全球开发者先锋大会上发布的 R-UniAD 技术路线,标志着其在自动驾驶领域的又一次重要突破。通过与「开悟」世界模型协同交互,这一端到端自动驾驶路线不仅将数据需求降低了一个数量级,还借助强化学习和仿真能力的提升,让智驾有可能超越人类驾驶水平。

从王晓刚的分享中,我们看到 R-UniAD 如何通过小样本学习和多样化仿真,悄然改变着智驾行业成本结构。R-UniAD 的亮相,或许正是智驾行业迈向「DeepSeek 时刻」的一个标志。相信在诸多车企喊出智驾普惠口号之后,商汤绝影也能够在城市智驾中占有自己的一席之地。

# 行业事件

推荐

评论