当前,汽车行业已进入“新智能”发展萌芽期,AI大模型的突破,为汽车的进化带来新的变量。
近日,在中国电动汽车百人会与合肥市人民政府联合主办的“第六届全球智能汽车产业大会”上,腾讯智慧出行智能座舱产品经理孙珏发表主题为《大模型时代座舱发展新思考 ——交互革命让用车更愉悦》的主题演讲,分享了腾讯对于大模型上车的思考与实践,为用户提供更智能、更有趣、更高效的新一代AI交互体验。
大模型为座舱交互体验带来“新变量”
汽车已经不再局限为交通出行工具,随着用户用车时长越来越长,用车场景正在持续丰富,产生了在车上观影、午休、K歌、露营等丰富的新场景需求。用户对用车需求的变化,也让车企为用户提供的服务方式也发生了质的改变,从原本的基础服务,逐渐转变为向更主动、更智能化、更有新鲜感的服务方式。
与此同时,大模型技术的应用和发展,以及大模型带来的泛化性、通用性能力的解决,也引发了行业对新一代人车交互方式的更多思考。
孙珏介绍,尤其大模型Agent的应用,能够提供从感知、控制到决策行动的完整智能化服务。感知层面,能够支持多模态的信息输入,将视觉、听觉以及其它车辆感知信号如激光雷达、惯导、GPS等转化为转化为大模型可理解的表示。控制层面,Agent则能够基于输入的内容进行信息的检索和行动的规划,以及基于对专业知识理解,对过往的观察、思考和行为反思、并结合上下文和过往记忆做进一步学习,对新的环境进行新的决策,并强化对于复杂语义言外之意的理解。对于一些未知任务,也可以结合上下文和过往记忆去做进一步的学习,提升泛化能力。而在行动层,则还能够通过观察、操作和指引能够完成一些更复杂的、更适合当前环境的能力。
今年9月,腾讯混元通用大语言模型正式面向产业亮相,它可作为汽车行业大模型服务的底座,汽车企业不仅可以直接调用腾讯混元,也可以将其作为基底模型,为不同业务场景构建专属应用。
孙珏表示,目前,腾讯搭建了面向智能座舱垂域大模型解决方案,并联动腾讯丰富的生态服务体系和出行服务体系,通过大数据分析、场景服务推荐、自然语音交互、用户行为洞察、智能空间计算等功能,带给用户更自然的对话体验、生成式的交互界面、多样化的场景编排和更个性化的出行服务建议等,进一步拓展“第三空间”想象空间。
共建座舱垂域大模型,从指令式向主动式交互进化
在传统的人车交互体验中,更多的是一问一答的“被动式”交互,且需要固定用词,稍微转变一下用词,车载语音助手可能就无法识别回答,整体人车交互体验仍停留在比较初阶的阶段。
孙珏认为,座舱大模型的目标和定位,需要从用户的痛点和体验的短板出发做一些能力的进阶,而不是整个颠覆掉。腾讯专门面向智能座舱领域打造的行业大模型,在应用层核心实现两大模块的能力,一个是智能的会话管理,另一个则是AI驱动的UI界面。
在智能会话管理方面,复杂的任务规划、个性化的问答、知识的获取、AIGC的分享等,都属于智能会话范畴。而基于AI驱动的UI界面,可以给予多模态的输入,通过触控、语音、按键、手势等等各种各样的应用,进行多模态的输出,丰富人车交互手段。大模型应用让人车交互方式从问答变成问询,从被动转为主动。同时,除语音和语音外,还可以实现语音和触控形成上下文、语音和记忆形成上下文等新形式的交互方式。
大模型的应用可以显著提升上下文理解、长尾问答的能力。通过一些思维链给到大模型更多的输入,让它能够产生更加符合当下理解的判断。基于大模型,语音助手不但能够更准确的理解长句子、意向性表达,还支持上下文的主题式聊天,并可结合用户反馈进行动态适应,具备知冷暖的共情能力,提供更符合语言逻辑、表达通顺、能够激发用户共鸣的聊天体验。即使非常口语化的任务指令,语音助手也能够很好的进行识别并执行,比如小孩睡着了、周六是我的生日等。
此外,大模型也能够提升用车助手的知识问答体验。基于大模型对文档的理解、知识的归纳和总结,新一代用车管家能够提供企业级/车辆级大模型知识生成和问答,对话构建成本下降65%,复杂问题解决率提升85%。升级后的用车管家在口语化、多轮、长文案的归纳上都有一个质的提升,给到用户的不再是一个长篇大论,而是一个非常精准的解释。
在出行规划方面,可利用大模型在任务规划、复杂任务生成的优势,针对出行场景提供景点介绍、美食推荐、路线规划等智能任务编排能力,实现真正的服务找人,让旅途更愉悦。同时,腾讯还在探索软件、硬件和手机端的综合联动,为用户提供全场景贯穿式服务。
孙珏表示:“大模型时代,智能座舱需要更丰富的核心生态以及出行服务,帮助车企实现服务化的转型。同时也需要通过大模型,打造更便捷的交互方式、更沉浸的多变空间,为用户提供更加愉悦的用车体验。”