你准备好“用嘴开车”了吗？

2026-06-12 17:14 1036次阅读

汽车商业评论

**汽车商业**第一刊，**汽车的意见领袖。

撰文 | 常笑

编辑 | 黄大路

设计 | 甄尤美

2025年2月25日夜，一辆领克Z20在高速公路上行驶，车主开口说了一句话，大灯熄灭了。

那句话原本只是想关掉阅读灯。但系统误判，大灯随之熄灭，且无法通过语音重启，车辆随即撞上护栏。领克事后紧急致歉并连夜OTA修复。

但这起事故撕开了行业的遮羞布：在缺乏精准语义理解能力的背景下，盲目拓宽语音控制边界，无异于在安全底线上“裸奔”。

更严峻的是，这种设计缺陷并非个例——事后大批车主自发测试显示，相当一部分车型都允许在行车中通过语音关闭大灯。

这个事故发生在一个奇特的时间节点。

就在几乎相同的时间窗口里，马斯克在X上宣布特斯拉FSD即将支持自然语言交互，让车辆听懂“停在那边那棵树下”这类模糊指令；国内，小鹏提出“舱驾一体”AI架构，理想早已通过多模态大模型将语音直接接入行驶决策。中外车企几乎踩在同一节拍上，把语言送进了驾驶内核。

一边是语音控车出事故，一边是行业争相把语音推向智驾核心。这场变革背后，隐藏着三个还没有解决的问题：

语言如何跨越“座舱娱乐”与“行驶安全”的物理鸿沟？模糊指令和硬实时安全系统能否兼容？当L4还没到来，语音控驾的边界，究竟应该划在哪里？

语音控车≠用嘴开车

要理解这场变革，首先要明白过去为什么"做不到"。

核心原因在于底层的“软硬割裂”。在传统的智能汽车架构中，智能座舱（IVI）和智能驾驶（ADAS）是两套相对独立的系统。座舱芯片负责“听”，却管不了车怎么开；智驾芯片拥有车辆的控制权，只认传感器数据，听不懂人话。两者之间隔着厚厚的安全墙，语音信号很难转化为驾驶指令。

受限于这套架构，早在2015年左右，当语音功能第一次出现在量产车上时，用户必须像背诵口诀一样说出特定指令，系统只能应对“打开空调”“播放音乐”这类单一操作。

随后，电子电气架构演进，车企开始打通控制域，语音控制功能呈指数级增长——从车窗、空调到座椅按摩，为彰显科技豪华，甚至开始拓展语音熄火、语音控制大灯这些极具争议的边界。

领克Z20事故证明，技术膨胀的速度已经甩开了安全验证的步调。智能语音的安全漏洞，已不再是偶发故障，而是行业普遍存在的功能设计隐患。这也是语音交互始终被困在低维空间的根本原因，它能调动硬件，却无法真正理解意图。

破局点，在于大模型技术的演进。

2月21日，马斯克在X上的一句“即将到来”，预示了特斯拉FSD将引入自然语言交互能力。推动这一功能的初衷源于真实用户痛点：FSD V14版本测试中，约85%的人工干预发生在寻找停车位阶段，约15%源于希望车辆选择不同路线。

有用户指出，当前FSD系统的主要不足在于无法通过自然语言下达指令——如果能直接告诉车辆在靠近入口处寻找停车位，车辆便无需自行推断。

这暴露出传统智驾在语音交互上的割裂：感知层看到了路，决策层也能算出轨迹，却唯独少了与人脑意图的直接通道。马斯克计划引入的自然语言交互，正是要打通这“最后一公里”。

外界推测，此次升级将深度联动特斯拉Grok语音助手，借助其自然语言理解能力实现对模糊指令的识别，让交互能够适配不同用户的说话习惯。

国内车企的动作更快。理想汽车的“理想同学”已实现对智能驾驶的全场景语音控制。用户可以在NOA激活状态下，直接通过语音下达“变道”“超越前车”“往左一点”甚至“进入服务区停在这个充电桩旁”的指令。

这种能力的突破，在第十三届轩辕奖评测中得到了专业层面的印证。知行科技产品经理胡俊成在评测中展示了几个测试案例，揭示了VLA（视觉语言动作）模型的应用逻辑。

测试团队发出指令：“通过前方路口后，寻找那排白色临停车停下。”这辆车在通过路口后，开始向右变道、减速寻找目标。前方确认无果后，它主动与驾驶员交互，并自主执行了靠边停车。

另一个场景是改道：导航设定好目的地后，只需说“前方过了路口右转”，车辆便自动修改导航路径并执行转弯，无需退出重设。

更有意思的是停车场“找出口”。搭载VLA模型的车型能识别停车场内的指示牌和收费闸机，听到“寻找出口’时，顺着指示牌一路找到闸机口等待抬杆。

站在消费者角度，这种技术带来的最直观爽点，是交互效率的提升。复杂城市路况下，驾驶员无需分心戳屏幕找变道图标，只需一句”超了前面这辆慢车“，车辆即可在确认安全后自动执行。高快路上遇到前方施工、智驾因车道线混乱频繁退出时，只需一句”走最左侧车道通过”，帮助机器跳出逻辑死循环。

但随之而来的焦虑同样不容忽视。消费者最大的担忧：机器真的能理解语境下的安全边界吗？如果后排小朋友开玩笑喊一句“撞过去”，车辆能否识别恶意指令并拒绝？

有车企技术人员向《汽车商业评论》表示，面对语言执行的泛化困境，目前的解决方案通常是“双重确认”。即在执行关键动作前，语音再次询问“我要执行变道超车，确认执行吗？”

但这又引入了新的槽点：既然都要确认了，直接打转向灯岂不是更快？多这一步，反而增加了驾驶员的认知负担。

地平线副总裁、智驾产品规划与市场部负责人吕鹏在接受《汽车商业评论》采访时直接点明：“当下的语音控制不能做成炫技功能，必须回归辅助智驾能力提升。好的系统应该是稳定可靠的，就像专职司机，能安心舒适地完成点到点通行。”

吕鹏的逻辑是：好的智驾系统不需要频繁语音干预，频繁语音指令恰恰说明智驾系统还不够成熟。

这里必须厘清一个概念：当下的语音控车，绝不等于“用嘴开车”。其本质是用更高效的方式让机器听懂人类的“弦外之音”，而非用嘴巴替代驾驶操作。现阶段的产业现实是：用最前沿的大模型技术，小心翼翼地填补人类逻辑与机器直觉之间的沟壑。

从语音控制走向AI智能体

要填补这道沟壑，单纯优化语音指令不够。从“舱驾分立”走向“舱驾一体”，才是这场变革背后的产业主线。

长期以来，智能汽车普遍采用双芯片方案：一颗高算力芯片管智驾，另一颗管座舱。两者之间隔着厚厚的网关，数据交换存在延迟与丢包风险，语音信号自然难以实时转化为驾驶控制权。

于是行业风向开始转变。从多域分立走向舱驾一体，不再仅仅是为了压缩BOM成本，而是成为这场交互革命的基础设施。

通过统一的AI底座，视觉感知数据与自然语言交互数据在同一张算力网络中实时流动，消除中间环节。只有“听懂人话”的大脑与“看清路况”的小脑真正合二为一，车辆才能像具备生物直觉的整体般运作。

为此，车企正在打破旧有研发组织架构。

1月28日，理想汽车将自动驾驶团队并入软件本体团队，由勾晓菲统一统筹智能座舱与智能驾驶研发；2月3日，小鹏汽车将自动驾驶中心与智能座舱中心合并，成立全新的“通用智能中心”。

蔚来创始人、董事长兼CEO李斌也明确表示：“蔚来已经为这样的跨部门融合与数据打通，以更快地感知、决策和执行，打好了基础。”

这种调整不是简单的行政并表，而是铲除研发层面的“部门墙”。过去，座舱团队不懂驾驶策略边界，智驾团队不理解交互逻辑体验，产品始终在“两张皮”的状态下打补丁。物理合并，迫使“左脑”与“右脑”在同一张办公桌上协同工作。

过去，车企比拼接管率、变道果断度这些冷冰冰的技术参数；现在，竞争焦点转移到如何将模糊的用户意图精准转化为物理行动。

对车企而言，大力推动语音介入智驾，实际上是在为即将到来的L4时代预埋商业接口。当车内没有安全员、甚至没有方向盘时，语音将成为人类控制车辆的唯一媒介，也将演变为全能的商业服务代理人。乘客在车里说的每一句话，都是在通过语音调用导航、支付、本地生活服务、IoT硬件控制等生态能力。

在技术与组织变革之外，车企的终点指向了一个词“AI智能体”。从特斯拉Grok到理想Mind GPT、小鹏天玑，再到吉利超级Eva、智己IM Ultra Agent、华为小艺智能体，今年以来，各大车企争相从“语音助手”旧赛道切换到“智能体”新航道。

理想是最早布局AI智能体的车企之一，其自研的Mind GPT主打"家庭场景适配"；

小鹏选择“硬核智驾+端侧大模型”路线，天玑AIOS试图将AI智能体打造成智驾系统的“增强外脑”；

吉利的“超级Eva”首发搭载于极氪8X，打通底盘、智驾、动力系统，依托英伟达硬件协同提升响应速度；

上汽智己的IM Ultra Agent已于3月18日发布，将率先搭载在3月26日开启预售的智己LS8上，基于“IM Fusion Nova全域融合智能架构”从底层打通线控底盘、智驾AI、智舱AI三大系统；华为小艺智能体则打出“人车家全生态联动”的差异化牌，依托鸿蒙系统跨设备优势，将手机、车机、智能家居无缝串联。

当下的语音控车变革，只是冰山一角。其底层的产业野心是：将自然语言、环境感知、决策控制完美融合——这，才是“AI智能体”真正诞生的前夜。

短期内难以带来颠覆性体验

现阶段落地的语音交互，主要聚焦于两类场景：其一是基于云端大模型的多目的地路径规划，例如“导航去公司，顺路找最近的星巴克”；其二是座舱域内的末端操作，例如“把氛围调亮一点”。然而，一旦涉及“控制车辆行驶”，情况截然不同。
从技术路线来说，特斯拉代表“云端派”：通过云端大模型理解意图，仅将结果传递给智驾系统影响导航规划，避免语音直接介入车辆底盘控制，以此确保高安全性。
理想汽车则代表“端侧融合派”：将语音意图直接加入智驾观测模型，打通感知与交互的壁垒。这种路线响应灵活，但也让车辆安全边界面临前所未有的挑战。

语音输入是非常随机的，这就要求智驾模型增加语言和各类场景的理解能力。卓驭科技相关负责人蒋卓键认为，目前的语音控驾更多还是一种“愿景美好的尝试”。

他判断，未来体验端的差距，最终比拼的将是基座模型的底层实力——无论是特斯拉端到端大模型还是国内车企主推的多模态大模型，核心都在于谁能用更少的数据、更高的效率解决长尾场景：“不需要我们去定义太多的产品功能，模型能力上来了，你想怎么玩都可以。”

就目前而言，语音控制智驾在实际工程落地中显然无法做到随心所欲。

2026年2月21日，特斯拉AI负责人阿肖克·埃卢斯瓦米（Ashok Elluswamy）在公开演讲中流露出这种审慎：尽管特斯拉车辆已接入Grok，且FSD拥有自己的音频模型，但距离“完全集成的语音控制”尚有距离。

他坦言：“这开启了一个全新的测试领域。例如，你不应该能告诉汽车去撞车，然后它就真的撞了。”为了防止对抗性攻击，特斯拉认为目前还需要进行大量安全工作，现在直接全面开放语音控车“还不值得这么麻烦”。

吕鹏也在接受《汽车商业评论》采访时指出，在L4级自动驾驶尚未完全成熟之前，过度强调“语音控车”可能是一种本末倒置。当下的大模型已经基本能解决“听懂”的问题，最大难点不是听懂，而是安全执行。

他特别强调了“域隔离”的重要性：“座舱域与智驾域迭代频率不同，如果隔离不到位，会出现意外问题。当前行业智驾仍处于辅助驾驶阶段，基础能力尚未达到自动驾驶级别，此时大量语音干预会带来风险。”

这指向了一个核心矛盾：语音本身是概率性模型，存在理解偏差的可能；而智驾是强安全系统，要求执行的高度确定性。让一个“可能听错”的系统去控制一辆高速行驶的车辆，其风险可想而知。

现有政策体系在面对生成式AI带来的新挑战时，也显得有些滞后。

2024年发布的《汽车整车信息安全技术要求》（GB 44495-2024）首次针对车载语音交互提出了“指令意图识别+用户确认”的双重验证要求，并规定高风险指令需附加生物特征验证。

但这主要从防范黑客攻击和误触发的传统网络安全角度出发，并未明确界定行驶中哪些复杂语音指令属于绝对禁止的“高风险”，更无法对大模型可能产生的“幻觉式”错误指令进行有效约束。

2025年底发布的GB 7258修订征求意见稿中，监管层明确规定：车辆行驶过程中，灯光、挡位、制动、雨刮等涉及运行安全的操纵件，必须装备实体操纵件。这不仅是物理按键的回归，更是对“软件定义汽车”过度化的一次强力纠偏。

但强制要求实体按键，仅仅是为了解决“软件死机”或“屏幕黑屏”后的最后逃生手段，并没有解决“语音乱令”的主动风险问题。

截至目前，对于语音信号如何进入智驾域、模型输出的控制指令需要经过怎样的安全校验、不同等级的智驾功能对应哪些语音权限，行业并没有一套统一的、强制性的安全规范。

《汽车商业评论》的判断是：真正完全依赖语音驾驶，需要L4以上自动驾驶成熟、法规认可、事故责任清晰。在那之前，语音更多是一种增强体验，而非完全替代。

吕鹏给出了一个理性的预判：“智驾能力成熟后，语音意图交互的场景将自然成立。终局下不需要语音直接控车，智驾可自主应对场景，用户仅需传递非强实时意图。”

语音控驾的背后，是自动驾驶技术向“意图驾驶”进化的一步。未来如果成功，它将改变的不只是驾驶方式，而是人与机器的关系边界。当我们不再握紧方向盘，而是轻声说一句“走吧”，驾驶这件事，或许才真的会被重新定义。

# 领克 # 特斯拉 # 领克Z20

分类导航

热门标签