中控大屏发展见顶?下一个时代属于语音和多模态交互

撰文 / 刘宝华

设计 / 师 超

“车越来越聪明,也同质化到不可思议。”

“中控大屏发展见顶,语音与多模态交互越来越重要。差异化硬件布局与动态氛围打造独特座舱DNA,将是2025年一个重要的竞争点。”

“2025年将会是大模型真正的元年,会进入白热化。”

“所谓真正的聪不聪明,应该是感知、认知、行动、反馈和进化这五个维度的综合评价。”

中国智能电动汽车在经历了堆料式的野蛮生长后,正在同质化的价格战下寻找成本与体验间的微妙平衡。

当下,智能座舱发展也需要找到这样一个平衡点。

12月13日,同济大学汽车学院、设计创意学院双聘教授、XAI智能体验实验室与人车关系实验室创始人马钧教授,在第十二届轩辕奖颁奖典礼上发表了题为《智舱脉动——2024年度总结与展望》的演讲。他指出,智能座舱的发展进步显著,汽车的智能化程度不断提升,车辆变得越来越“聪明”。然而,当前智能座舱的设计和功能出现了明显的同质化趋势,令人感到不可思议。

他的判断,中控大屏发展见顶,语音与多模态交互越来越重要,如何打造独特的智能座舱DNA,将是明年重要的一个竞争点。

以下为马钧教授演讲实录,有删改。

车越来越聪明,也同质化到不可思议

智能座舱的发展形式是不是一片大好,下一步的机会到底在哪里?

我自己有两个实验室,一个是人车关系实验室,专门做HMI评测,一个是XAI-Lab智能体验实验室,主要做人工智能,大模型上车是今年我们最重要的一个研究方向。

在今年的轩辕奖年度测评中,我们与《汽车商业评论》及众多来自各地的专家一起,在襄阳对40款车型进行了集中评测。聚焦于大模型技术的应用,我们惊讶地发现已有22款车型搭载了大模型,这一进展远超我们的预期。回顾去年年底,当我们讨论这一话题时,市场上仅有少数几款车型应用了这一技术,而今年的发展速度之快令人印象深刻。

先看看我们的座舱表现如何。

这里面有两句话,一个是“是的”一个是“不对”,怎么思考?

专家,同时也是用户,2025年也好,2024年也好,智能座舱已经发展成我们想要的样子了吗?我们的预测到底是怎样的?

根据测试,我们发现2024年真是车越来越聪明,当然这个“聪明”肯定是用情商和智商的角度去思考的。但同时,我们觉得现在同质化真的严重到不可思议的程度。

这个大屏是5款车的5个UI拼接而成的,尺寸一样、色彩一样、UI一样、交互一样,已经到了同质化的时代。

我一直很想做一件事情,明年的测试,上车前把大家眼睛蒙起来,进入车以后,把车的logo蒙上,然后让大家再去试。

第一步看你是否能叫出它的名字。第二步是你能否与它顺畅互动、成功唤醒它。只有在这个基础上,我们才能真正评估产品的表现:它是否真正理解你?它真的“聪明”吗?还是仅仅在同质化的竞争中趋同?

我一直呼吁大屏不应成为趋势,太同质化了。但非常神奇的是,我今年在国外走了很多地方,无论是欧洲、日本,还是美洲,老外居然开始抄我们的。但我自己内心还是坚定不移地认为,大屏不会是趋势。

我列出了大屏四个比较大的问题。

第一,驾驶中的多任务难以兼顾。当前的大屏在同时处理多个任务时存在明显不足,无法高效地支持多任务操作。

第二,交互的可及性差。随着屏幕越来越大,驾驶时我需要将视线移到屏幕上,而我的手又够不到。比如在今年测试的一些车型中,我需要将右手完全伸直才能触及屏幕的最右端,这不仅分散注意力,还可能影响驾驶安全。

第三,与大模型交互时的功能冲突。很多人提到物理智能,但一旦谈及大模型,我们与其互动时,往往需要通过大屏展示输出结果,而这些输出常常是滔滔不绝,毫无节制。在测试过程中,我们多次不得不喊停、打断系统,试图改变话题,但大模型仍会继续输出,完全不理会我们的尝试。

第四,屏幕布局往往先于交互体验设计。如今,许多车型开始采用异形屏幕——有凸起的、有凹进去的、有圆形的,甚至360度的。然而,这些多样化的屏幕设计看似提升了视觉互动的丰富性,实际上却未能显著改善用户体验。

大模型上车一年来的答卷

今年是大模型上车的加速之年和升级之年,XAI智能体验实验室围绕大模型上车进行了一年的跟踪,做了大量的评测。

先来讲一下我们的方法论,我们的产品名字或方法论叫做P-CAFE,智能座舱大模型范式。这个方法论包括五个核心维度:感知、认知、行动、反馈,最后是进化。我们通过这五个维度来评估一个智舱大模型是否真的聪明,是否能够自我迭代和进化。

我们采用标准化的测试软件和仿真嘴进行测试,测试数据及语料都会进行实时的采集和分析,能自动生成测试结果。

通过XAI Lab的测试,我们得到了几个结论。

一个是整体能力确实大幅进步,差距正逐步缩小。

这是我们今年测的代表车型,这些车型是我们从去年跟踪到今年,持续进行测评的。短短一年间有些车型已经有了五六次的版本迭代。深色部分是2023年Q4的评分,浅色部分是今年的成绩。仅仅过去了一年不到的时间,有些车型的得分已经大幅提升,满分为5分的评分标准下,有些车型的得分几乎翻倍,进步速度非常快。我们自己有一个预测,到了明年,大模型将迎来真正的元年,进入白热化的阶段。

根据XAI Lab智能体验实验室P-CAFE理论的五个维度,我们首先考察车辆在认知层面对模糊意图的理解。这里举一个案例,关于“空调吹到我的脸了,不舒服”这一句话在不同车辆中的反馈。

第一款车的反馈是:“空调已经调整到吹脸模式。” 第二款车则开始跟你闲聊,它说:“吹脸难受可以去看医生。” 还有一款大模型则回应:“吹脸模式也称为面部送风模式,是空调的一种特殊送风模式。”只有一款车给出的反馈是:“空调吹脸已经关闭”。

除了认知层面,我们还要看行动层面的表现。行动层面通过定量数据来判断系统是否聪明,做得好不好。

一是首Token延时。与机器讲话时,我们不希望总是等它,特别是对于急性子的人来说。我们认为,延时小于2秒是必要的标准。根据2024年Q4的测试数据,我们的平均成绩是1965毫秒,而GPT-4的时延是320毫秒,所以还需要很长的路要走。

二是平均文本生成速度。我们眼睛的阅读速度大约是25 tokens/秒,而我们测得的平均文本生成速度大约是15.68 tokens/秒,也就是说,当前的系统生成文本的速度还赶不上我们的眼睛,仍然显得太慢。相比之下,GPT-4的文本生成速度是45.64 tokens/秒,已经远远快于我们的眼睛。

三是平均任务完成率。2024年Q4的测试数据显示,以车书功能为例,不同车型的任务完成率从68.5%到80%不等。仍然有很大的进步空间。

还有一个问题是反馈,目前的设计仍然停留在GUI(图形用户界面)阶段,VUI(语音交互界面)几乎没有,更不用说NUI(自然用户界面)了。为什么要大模型上车?我们希望最终实现的是NUI,也就是自然的交互。在自然交互之前,哪怕是VUI也可以先上车。因此,我们认为明年VUI将成为一个重要方向。

当然,还有一个问题是分心。大量的信息需要在屏幕上反复确认,这会分散驾驶员的注意力。

最后是进化问题。这是一个共性问题,受限于法律法规,特别是汽车安全管理规定、用户数据不能外泄以及云端架构的限制,使得我们目前无法充分调用用户数据来进行优化和系统训练。未来,围绕出海市场,可能会有多套本地化解决方案来应对这一挑战。

2025三大趋势

刚才提到同质化问题很严重,我们希望轩辕奖的评委们能够走进企业,帮助企业做些什么呢?我们的目标是帮助每个品牌成就自我。我个人非常期待所有品牌都能生存并且活得很好,这样才有意义。我们认为,2025年的新趋势主要体现在三个方面:

一是,中控大屏的发展已见顶,语音与多模态交互变得越来越重要。显示技术的多样化和生成式AIGC界面,以及多模态交互的应用,未来将愈加普及。

二是,差异化的硬件布局和动态氛围的打造,将形成独特的座舱DNA。这一点将在明年的设计中尤为重要,品牌和产品是否能够形成独具特色的“基因”?这种基因不仅仅是外在的,更是内在的。

三是,企业纷纷出海,谈论国际化发展。如何深入洞察目标市场的文化背景与社会发展趋势,并具备全局视野,这是非常必要的。

事实上,目前我们很多真实场景或“杀手级”场景的呈现,往往有些夸张,甚至过度渲染。而且,场景本身并不一定会带来持久的用户粘性。这是我们对未来三大趋势的看法。

其次,如何做得更聪明?聪明的做法应集中在创新的点子上。我们现在帮助大家做减法,如何做到这一点呢?可以从以下三个方面入手:

1. 聚焦体验的效能之争。效能体现在三个关键指标上:时延、速率和准确性,这些决定了体验的优劣。

2. 感知场景的主动推荐。例如,车主坐进车内后,系统自动弹出提示框,询问是否开启按摩座椅。通过识别、推理和决策的无缝连接,整个过程可以一气呵成。

3. 灵活精准的跨域融合。如何构建生态、落域与调用?就像这个案例中所展示的,导航域与娱乐域的无缝切换,或是根据需求调用不同服务。生态、落域和调用的跨域融合,可以通过大模型来实现,从而提升整体系统的智能化水平。

最后,我想与大家分享的是,企业如何提升自己的关键竞争力。轩辕奖的所有评委们也希望能够帮助大家找到独特的DNA,并与企业共同打造这一过程。

在今年的评选过程中,出现了许多富有争议的案例。比如,我个人非常喜欢某个迷你小圆屏,尽管它是异形屏,逻辑设计还有待优化,但它确实代表了一种独特的屏幕设计思路。包括标志性的颜色,不仅仅是氛围灯本身,屏幕难道也不是一种“灯”吗?标志性的颜色同样能够成为品牌的DNA。

科技感的体现,一定是实体按键的回归,甚至是实体按键与虚拟按键的结合。如何将两者巧妙融合,也是一种趋势。当然,也会有新的创新显示技术涌现,视觉交互变得越来越多样,像P-HUD、裸眼3D HUD等,如何将这些技术融为一体,形成独特的氛围和意境,就是体现DNA高级感的关键。

我们有一套方法论,帮助企业走向国际化,叫做CXP-9,通过文化视角为企业提供解决方案。例如,中国的年轻人喜欢“悦己”,而欧洲人则追求“普世”。围绕文化场景,我们可以轻松将UI转化为VUI,甚至NUI。通过大模型的支持,企业可以更方便地理解市场洞察。这套方法论涵盖了从文化体验到产品研究的全链条,助力企业打造符合自身特色的全球化产品。

最后,也是今天演讲的重要总结,大模型上车的时代,企业需要建立大模型能力的全局观,XAI-Lab智能体验实验室经过了一年多的探索,总结出了一套行之有效的能力评价方法。今年12月31日,我们XAI-Lab智能体验实验室将会发布一款帮助企业建立大模型全局观的产品,欢迎大家关注。

使用微信扫描二维码后

点击右上角发送给好友