分类导航

取消

热门标签

Pull down to refresh...
Pull down to refresh...
上拉加载更多
AI到底能给汽车带来什么?商汤绝影有了新答案
2024-07-07 14:29 1.4万次阅读

新车新技术GT

专业 逼格 缺一不可!

AI能给智能汽车带来什么?目前从上车的应用来看,大概就是能查百科、能画画的语音助手而已。说实话,这样的提升对实际用户体验来言,只能说是聊胜于无,更不是我们期待中的AI革命应该有的样子。

那么,AI到底能给汽车带来什么呢?最近,我去参观了WAIC世界人工智能大会,看到了商汤绝影对于智能汽车的一些奇思妙想。

抢占一体化端到端先机

相比智舱,人工智能对智能驾驶更为重要。当下,一线车企在智驾领域都会采用全栈自研的方式,蔚来、小鹏、华为都是如此,自己掌握数据、技术当然是最好的。但对于二线车企或传统车企来说,想搭建一个领先的智驾部门,时间成本、资金成本和运营难度都比较高,这也就给了商汤绝影这种AI公司发展智驾业务的机会。

商汤绝影其实早已涉足智驾领域,此前他们曾为哪吒汽车提供L2+级智驾系统,在本次WAIC,他们又带来了旗下最新的UniAD 端到端自动驾驶、DriveAGI 自动驾驶通用大模型、绝影车路协同和绝影自动驾驶小巴等产品。

UniAD是商汤及其联合实验室在2022年底提出的行业首个感知决策一体化自动驾驶通用模型。自从特斯拉推出FSD V12以来,不少国内车企和供应商也在跟进端到端智驾。目前,业内普遍采用更容易落地的由感知和决策两个模型组成的“两段式”端到端架构,但“两段式”端到端方案的感知和决策两个模型之间传输的信息是人为定义的显性信息,数据传递仍然会有过滤和丢失。

这就相当于两个人传话,第二人的理解终究和第一个人要表达的意思有些出入,怎么解决这个问题?商汤绝影的办法让一个人来,不传话就不会失真。

商汤绝影的UniAD和特斯拉一样都是采用“一体式”的端到端方案,将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化的真端到端自动驾驶,不需要对感知数据进行抽象和逐级传递, 因此数据处理和决策都会更加迅速且准确。

另外,背靠商汤大装置的算力支持,UniAD端到端方案比其他车企的方案拥有高的能力上限,强大的学习和思考能力让它能够像人一样开车,这是基于规则的智驾和两段式端到端无法做到的。更重要的是,一体化端到端的进化速度飞快,因为基于数据驱动的端到端模型泛化能力强、迭代效率快,可以帮助车企低成本快速开城。

此外,UniAD无需高精地图,采用纯视觉感知,大幅降低系统的软硬件成本,帮助车企将高阶智驾下沉到入门车型。据商汤工作人员介绍,UniAD还在研发之中,计划在2025年上量产上车,目前已有多家车企计划使用这一技术,这个进度在国内已经是非常领先了。

除了UniAD,商汤绝影还展示了DriveAGI技术,该技术是商汤绝影研发的首个应用于驾驶决策规划的智驾大模型,由多模态大模型支持的下一代自动驾驶技术。DriveAGI可充分增强端到端智驾方案的可解释性,不仅让车辆能够更像人一样理解复杂的现实世界,洞察各类交通参与者的行为动机,快速学习各种交通规则,掌握瞬息万变的道路信息,还能向用户解释驾驶决策的推理过程。

值得注意的是,DriveAGI具备交互能力,用户可以通过问询让自动驾驶系统解释自己的决策过程,还能通过语音或手势指令来控制自动驾驶行为。DriveAGI可以让智驾系统以人类思维模式去理解世界环境,相比基于规则的算法,DriveAGI具备更强的泛化能力,能够更好地处理边缘案例,安全能力更强。

AI智舱的新可能

商汤在本次WAIC带来了智舱和智驾两个领域的新技术。首先从智舱看起。首先是AgentFlow“随意操控”,从名字就可以看出,AgentFlow是一种在后台悄悄运行的工作流,具体来说是一种利用大模型能力将用户意图组织成工作流,并替用户操作各类工具(包括应用和网站)来完成任务的功能。

AgentFlow 理解用户的复杂需求,然后拆解从各种动作,自动进行跨应用和网站执行用户的需求。比如用户想听90年代的华语摇滚音乐,AgentFlow 会自动启动车机中的各个音乐应用,搜索并播放相关歌曲。再比如用户想找某个电影的评分,AgentFlow 会自动前往豆瓣搜索并呈现该影片的核心信息。

有了AgentFlow,用户就可以通过语音指令完成复杂的操作,大大提高用车便利性,尤其是在行车中,也能大大保证行车安全。

除此之外,商汤绝影还带来了全球首个车载生成式UI——FlexInterface“随心界面”。现在主流的车机界面是顶部通知栏、中央常用卡片、下方常驻功能dock栏的功能,从鸿蒙、小鹏、魅族,蔚来几乎都是如此,看多了难免有了审美疲劳。而FlexInterface是一种由 AI 即时生成和调整图形用户界面 (生成式交互界面,GUI) 的能力,用户通过语音下达需求,系统就能自动绘制、重新排版出全新的界面。

用户可以说“浪漫约会风格”、“蒸汽朋克”或“魔法世界”,AI 会根据描述调整壁纸、配色、AI 形象、图标和字体。另外,用户还可以定制系统和APP的界面布局,比如“把门窗设置放在设置项的最上面”或“充电时重点显示所需时间”,FlexInterface 会根据描述调整 GUI 布局。此外,FlexInterface 提供高度互动的操作界面,比如“帮我找下一个晴天”,“帮我找昨晚进地库的行车记录仪视频”等需求都能得到相应的用户界面。

此外,商汤绝影还提供多种驾驶员感知系统(DMS)、乘员感知系统(OMS)、近场感知方案和多模态场景大脑等AI服务。关于DMS和OMS想必大家都比较了解了,这里不再过多赘述,而近场感知即通过车外摄像头的高精度面部识别、活体检测等识别技术,打造支付级安全无感刷脸解锁功能。同时,还能识别破坏行为,提供更好用的哨兵功能。而多模态场景大脑即用车说明书、百科查询,绘画之类的功能,商汤绝影还能提供车内的健康检测,可以通过识别胸部收缩频次,面色来对乘客的像心跳、血氧饱和度、呼吸频次的监测,准确度能够达到医疗级别。

写在最后

智能电气化革命正在加速驶向深水区,日新月异的变化让我们迎接不懈,这对车企来说充满了挑战。但商汤绝影提供了领先的智舱、智驾解决方案,让很多难题迎刃而解。而对于我们普通消费者而言,商汤绝影让我们看到了AI对于智能座舱的想象空间,未来的智能座舱比我们想象的更好玩,更聪明。

# 福特 # FLEX

推荐

评论