分类导航

取消

热门标签

Pull down to refresh...
Pull down to refresh...
上拉加载更多
你准备好“用嘴开车”了吗?
2026-06-12 17:14 1036次阅读

汽车商业评论

**汽车商业**第一刊,**汽车的意见领袖。

撰文 | 常   笑

编辑 | 黄大路

设计 | 甄尤美

2025年2月25日夜,一辆领克Z20在高速公路上行驶,车主开口说了一句话,大灯熄灭了。

那句话原本只是想关掉阅读灯。但系统误判,大灯随之熄灭,且无法通过语音重启,车辆随即撞上护栏。领克事后紧急致歉并连夜OTA修复。

但这起事故撕开了行业的遮羞布:在缺乏精准语义理解能力的背景下,盲目拓宽语音控制边界,无异于在安全底线上“裸奔”。

更严峻的是,这种设计缺陷并非个例——事后大批车主自发测试显示,相当一部分车型都允许在行车中通过语音关闭大灯。

这个事故发生在一个奇特的时间节点。

就在几乎相同的时间窗口里,马斯克在X上宣布特斯拉FSD即将支持自然语言交互,让车辆听懂“停在那边那棵树下”这类模糊指令;国内,小鹏提出“舱驾一体”AI架构,理想早已通过多模态大模型将语音直接接入行驶决策。中外车企几乎踩在同一节拍上,把语言送进了驾驶内核。

一边是语音控车出事故,一边是行业争相把语音推向智驾核心。这场变革背后,隐藏着三个还没有解决的问题:

语言如何跨越“座舱娱乐”与“行驶安全”的物理鸿沟?模糊指令和硬实时安全系统能否兼容?当L4还没到来,语音控驾的边界,究竟应该划在哪里?

语音控车≠用嘴开车

要理解这场变革,首先要明白过去为什么"做不到"。

核心原因在于底层的“软硬割裂”。在传统的智能汽车架构中,智能座舱(IVI)和智能驾驶(ADAS)是两套相对独立的系统。座舱芯片负责“听”,却管不了车怎么开;智驾芯片拥有车辆的控制权,只认传感器数据,听不懂人话。两者之间隔着厚厚的安全墙,语音信号很难转化为驾驶指令。

受限于这套架构,早在2015年左右,当语音功能第一次出现在量产车上时,用户必须像背诵口诀一样说出特定指令,系统只能应对“打开空调”“播放音乐”这类单一操作。

随后,电子电气架构演进,车企开始打通控制域,语音控制功能呈指数级增长——从车窗、空调到座椅按摩,为彰显科技豪华,甚至开始拓展语音熄火、语音控制大灯这些极具争议的边界。

领克Z20事故证明,技术膨胀的速度已经甩开了安全验证的步调。智能语音的安全漏洞,已不再是偶发故障,而是行业普遍存在的功能设计隐患。这也是语音交互始终被困在低维空间的根本原因,它能调动硬件,却无法真正理解意图。

破局点,在于大模型技术的演进。

2月21日,马斯克在X上的一句“即将到来”,预示了特斯拉FSD将引入自然语言交互能力。推动这一功能的初衷源于真实用户痛点:FSD V14版本测试中,约85%的人工干预发生在寻找停车位阶段,约15%源于希望车辆选择不同路线。

有用户指出,当前FSD系统的主要不足在于无法通过自然语言下达指令——如果能直接告诉车辆在靠近入口处寻找停车位,车辆便无需自行推断。

这暴露出传统智驾在语音交互上的割裂:感知层看到了路,决策层也能算出轨迹,却唯独少了与人脑意图的直接通道。马斯克计划引入的自然语言交互,正是要打通这“最后一公里”。

外界推测,此次升级将深度联动特斯拉Grok语音助手,借助其自然语言理解能力实现对模糊指令的识别,让交互能够适配不同用户的说话习惯。

国内车企的动作更快。理想汽车的“理想同学”已实现对智能驾驶的全场景语音控制。用户可以在NOA激活状态下,直接通过语音下达“变道”“超越前车”“往左一点”甚至“进入服务区停在这个充电桩旁”的指令。

这种能力的突破,在第十三届轩辕奖评测中得到了专业层面的印证。知行科技产品经理胡俊成在评测中展示了几个测试案例,揭示了VLA(视觉语言动作)模型的应用逻辑。

测试团队发出指令:“通过前方路口后,寻找那排白色临停车停下。”这辆车在通过路口后,开始向右变道、减速寻找目标。前方确认无果后,它主动与驾驶员交互,并自主执行了靠边停车。

另一个场景是改道:导航设定好目的地后,只需说“前方过了路口右转”,车辆便自动修改导航路径并执行转弯,无需退出重设。

更有意思的是停车场“找出口”。搭载VLA模型的车型能识别停车场内的指示牌和收费闸机,听到“寻找出口’时,顺着指示牌一路找到闸机口等待抬杆。

站在消费者角度,这种技术带来的最直观爽点,是交互效率的提升。复杂城市路况下,驾驶员无需分心戳屏幕找变道图标,只需一句”超了前面这辆慢车“,车辆即可在确认安全后自动执行。高快路上遇到前方施工、智驾因车道线混乱频繁退出时,只需一句”走最左侧车道通过”,帮助机器跳出逻辑死循环。

但随之而来的焦虑同样不容忽视。消费者最大的担忧:机器真的能理解语境下的安全边界吗?如果后排小朋友开玩笑喊一句“撞过去”,车辆能否识别恶意指令并拒绝?

有车企技术人员向《汽车商业评论》表示,面对语言执行的泛化困境,目前的解决方案通常是“双重确认”。即在执行关键动作前,语音再次询问“我要执行变道超车,确认执行吗?”

但这又引入了新的槽点:既然都要确认了,直接打转向灯岂不是更快?多这一步,反而增加了驾驶员的认知负担。

地平线副总裁、智驾产品规划与市场部负责人吕鹏在接受《汽车商业评论》采访时直接点明:“当下的语音控制不能做成炫技功能,必须回归辅助智驾能力提升。好的系统应该是稳定可靠的,就像专职司机,能安心舒适地完成点到点通行。”

吕鹏的逻辑是:好的智驾系统不需要频繁语音干预,频繁语音指令恰恰说明智驾系统还不够成熟。

这里必须厘清一个概念:当下的语音控车,绝不等于“用嘴开车”。其本质是用更高效的方式让机器听懂人类的“弦外之音”,而非用嘴巴替代驾驶操作。现阶段的产业现实是:用最前沿的大模型技术,小心翼翼地填补人类逻辑与机器直觉之间的沟壑。

从语音控制走向AI智能体

要填补这道沟壑,单纯优化语音指令不够。从“舱驾分立”走向“舱驾一体”,才是这场变革背后的产业主线。

长期以来,智能汽车普遍采用双芯片方案:一颗高算力芯片管智驾,另一颗管座舱。两者之间隔着厚厚的网关,数据交换存在延迟与丢包风险,语音信号自然难以实时转化为驾驶控制权。

于是行业风向开始转变。从多域分立走向舱驾一体,不再仅仅是为了压缩BOM成本,而是成为这场交互革命的基础设施。

通过统一的AI底座,视觉感知数据与自然语言交互数据在同一张算力网络中实时流动,消除中间环节。只有“听懂人话”的大脑与“看清路况”的小脑真正合二为一,车辆才能像具备生物直觉的整体般运作。

为此,车企正在打破旧有研发组织架构。

1月28日,理想汽车将自动驾驶团队并入软件本体团队,由勾晓菲统一统筹智能座舱与智能驾驶研发;2月3日,小鹏汽车将自动驾驶中心与智能座舱中心合并,成立全新的“通用智能中心”。

蔚来创始人、董事长兼CEO李斌也明确表示:“蔚来已经为这样的跨部门融合与数据打通,以更快地感知、决策和执行,打好了基础。”

这种调整不是简单的行政并表,而是铲除研发层面的“部门墙”。过去,座舱团队不懂驾驶策略边界,智驾团队不理解交互逻辑体验,产品始终在“两张皮”的状态下打补丁。物理合并,迫使“左脑”与“右脑”在同一张办公桌上协同工作。

过去,车企比拼接管率、变道果断度这些冷冰冰的技术参数;现在,竞争焦点转移到如何将模糊的用户意图精准转化为物理行动。

对车企而言,大力推动语音介入智驾,实际上是在为即将到来的L4时代预埋商业接口。当车内没有安全员、甚至没有方向盘时,语音将成为人类控制车辆的唯一媒介,也将演变为全能的商业服务代理人。乘客在车里说的每一句话,都是在通过语音调用导航、支付、本地生活服务、IoT硬件控制等生态能力。

在技术与组织变革之外,车企的终点指向了一个词“AI智能体”。从特斯拉Grok到理想Mind GPT、小鹏天玑,再到吉利超级Eva、智己IM Ultra Agent、华为小艺智能体,今年以来,各大车企争相从“语音助手”旧赛道切换到“智能体”新航道。

理想是最早布局AI智能体的车企之一,其自研的Mind GPT主打"家庭场景适配";

小鹏选择“硬核智驾+端侧大模型”路线,天玑AIOS试图将AI智能体打造成智驾系统的“增强外脑”;

吉利的“超级Eva”首发搭载于极氪8X,打通底盘、智驾、动力系统,依托英伟达硬件协同提升响应速度;

上汽智己的IM Ultra Agent已于3月18日发布,将率先搭载在3月26日开启预售的智己LS8上,基于“IM Fusion Nova全域融合智能架构”从底层打通线控底盘、智驾AI、智舱AI三大系统;华为小艺智能体则打出“人车家全生态联动”的差异化牌,依托鸿蒙系统跨设备优势,将手机、车机、智能家居无缝串联。

当下的语音控车变革,只是冰山一角。其底层的产业野心是:将自然语言、环境感知、决策控制完美融合——这,才是“AI智能体”真正诞生的前夜。

短期内难以带来颠覆性体验

现阶段落地的语音交互,主要聚焦于两类场景:其一是基于云端大模型的多目的地路径规划,例如“导航去公司,顺路找最近的星巴克”;其二是座舱域内的末端操作,例如“把氛围调亮一点”。然而,一旦涉及“控制车辆行驶”,情况截然不同。
从技术路线来说,特斯拉代表“云端派”:通过云端大模型理解意图,仅将结果传递给智驾系统影响导航规划,避免语音直接介入车辆底盘控制,以此确保高安全性。
理想汽车则代表“端侧融合派”:将语音意图直接加入智驾观测模型,打通感知与交互的壁垒。这种路线响应灵活,但也让车辆安全边界面临前所未有的挑战。

语音输入是非常随机的,这就要求智驾模型增加语言和各类场景的理解能力。卓驭科技相关负责人蒋卓键认为,目前的语音控驾更多还是一种“愿景美好的尝试”。

他判断,未来体验端的差距,最终比拼的将是基座模型的底层实力——无论是特斯拉端到端大模型还是国内车企主推的多模态大模型,核心都在于谁能用更少的数据、更高的效率解决长尾场景:“不需要我们去定义太多的产品功能,模型能力上来了,你想怎么玩都可以。”

就目前而言,语音控制智驾在实际工程落地中显然无法做到随心所欲。

2026年2月21日,特斯拉AI负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy)在公开演讲中流露出这种审慎:尽管特斯拉车辆已接入Grok,且FSD拥有自己的音频模型,但距离“完全集成的语音控制”尚有距离。

他坦言:“这开启了一个全新的测试领域。例如,你不应该能告诉汽车去撞车,然后它就真的撞了。”为了防止对抗性攻击,特斯拉认为目前还需要进行大量安全工作,现在直接全面开放语音控车“还不值得这么麻烦”。

吕鹏也在接受《汽车商业评论》采访时指出,在L4级自动驾驶尚未完全成熟之前,过度强调“语音控车”可能是一种本末倒置。当下的大模型已经基本能解决“听懂”的问题,最大难点不是听懂,而是安全执行。

他特别强调了“域隔离”的重要性:“座舱域与智驾域迭代频率不同,如果隔离不到位,会出现意外问题。当前行业智驾仍处于辅助驾驶阶段,基础能力尚未达到自动驾驶级别,此时大量语音干预会带来风险。”

这指向了一个核心矛盾:语音本身是概率性模型,存在理解偏差的可能;而智驾是强安全系统,要求执行的高度确定性。让一个“可能听错”的系统去控制一辆高速行驶的车辆,其风险可想而知。

现有政策体系在面对生成式AI带来的新挑战时,也显得有些滞后。

2024年发布的《汽车整车信息安全技术要求》(GB 44495-2024)首次针对车载语音交互提出了“指令意图识别+用户确认”的双重验证要求,并规定高风险指令需附加生物特征验证。

但这主要从防范黑客攻击和误触发的传统网络安全角度出发,并未明确界定行驶中哪些复杂语音指令属于绝对禁止的“高风险”,更无法对大模型可能产生的“幻觉式”错误指令进行有效约束。

2025年底发布的GB 7258修订征求意见稿中,监管层明确规定:车辆行驶过程中,灯光、挡位、制动、雨刮等涉及运行安全的操纵件,必须装备实体操纵件。这不仅是物理按键的回归,更是对“软件定义汽车”过度化的一次强力纠偏。

但强制要求实体按键,仅仅是为了解决“软件死机”或“屏幕黑屏”后的最后逃生手段,并没有解决“语音乱令”的主动风险问题。

截至目前,对于语音信号如何进入智驾域、模型输出的控制指令需要经过怎样的安全校验、不同等级的智驾功能对应哪些语音权限,行业并没有一套统一的、强制性的安全规范。

《汽车商业评论》的判断是:真正完全依赖语音驾驶,需要L4以上自动驾驶成熟、法规认可、事故责任清晰。在那之前,语音更多是一种增强体验,而非完全替代。

吕鹏给出了一个理性的预判:“智驾能力成熟后,语音意图交互的场景将自然成立。终局下不需要语音直接控车,智驾可自主应对场景,用户仅需传递非强实时意图。”

语音控驾的背后,是自动驾驶技术向“意图驾驶”进化的一步。未来如果成功,它将改变的不只是驾驶方式,而是人与机器的关系边界。当我们不再握紧方向盘,而是轻声说一句“走吧”,驾驶这件事,或许才真的会被重新定义。

# 领克 # 特斯拉 # 领克Z20

相关车系

推荐

评论