我今天给大家分享的主题,分4各部分。首先是思想的准备;其次先把容易的做了;再次大模型带来的座舱交互的新体验;最后当企业内部大模型来时,如何实现高效的开发。
2024年4月18日,在第二届汽车人工智能大会上,合众新能源汽车股份有限公司软件开发总工程师蔡勇围绕上述四点分享了他的思考。
其中关于“什么是最容易的事情?”蔡勇表示,座舱里语音最容易被大模型赋能,语音已经走进用户的用车日常。哪吒语音主打自然、全面、聪颖,这正满足用户千人千面的个性化需要。接下来,大模型将助力语音交互上一个台阶,比如AI智能体将带来新的人机关系。
合众新能源汽车股份有限公司软件开发总工程师
以下为演讲内容整理:
对AI大模型思想的准备
合众新能源汽车股份有限公司,旗下汽车品牌为哪吒,品牌标识凝聚着我们的初心——致力于为人民造车。我们坚守的价值观是“科技平权”,即运用科技力量,将高端车型的体验普及至更为亲民的价位,让广大民众得以共享。目前,我公司热销的主力车型包括哪吒V、哪吒U、哪吒S、哪吒GT、哪吒X以及即将于2024年四月发布的中大型SUV——哪吒L,该车在业内已引起广泛关注。
在探讨主题思想时,我绘制了四张图示来说明一下大模型的影响力。发动机的诞生并非仅在于使马车加速,尽管其初现时,人们或许首先想到的是将其应用于马车之上。然而,发动机的真正意义在于催生了汽车,进而带动了高速公路的建设、加油站的出现、收费体系的形成、路网保洁的兴起,以及道路基础设施及其相关工程机械等很多行业的蓬勃发展。因此,发动机的发明并非单纯提升马车速度,而是催生了一个全新的生态系统。
图源:合众新能源
先把容易的做了
虽然大模型会带来巨大的生态变化,但是我们不能等到生态成熟了再做事情,我们要把最容易入手的事情先做了。那么,什么是最容易着手的领域呢?座舱内的语音系统是最易受到大模型赋能的领域。回顾车载语音的发展历程,我们不难发现其巨大的潜力。从2010年语音输入法的推出,到2016年语音助手的全车装载,再到2019年全场景连续对话功能的推出,每一次进步都为用户带来了更为便捷的体验。然而,当前行业内仍面临着挑战,我们期待大模型能为这一领域带来新的突破。
图源:合众新能源
在业内广泛讨论的“千人千面”理念中,我们已付诸实践,尽管目前仍依赖于工程师的精细调整,但已取得显著进展。例如,当副驾乘客的目光聚焦于副驾屏幕并表达听歌的意愿时,系统会智能地在副驾屏幕为其播放音乐;若其目光转向中控屏并请求观看视频,系统则会在中控屏优先展示视频内容。这种眼球追踪与场景适应技术的结合,极大地提升了用户体验。
在导航目的地识别方面,我们面临着相似发音地名难以区分的挑战,如张江的金科中心与虹桥的晶科中心。为应对这一难题,我们引入了“T+1自适应增强”技术。只要用户曾发起过对特定地点的导航,系统便会记录该信息。次日当用户再次用语音要求导航至该地点时,系统会优先识别并导航至用户曾选择的目的地,实现了个性化的场景适应。
如何评价语音系统是否做的好?在与公司的讨论中,我们达成共识,将使用量作为衡量标准。当用户选择使用语音功能时,这意味着语音操作相比传统UI更为便捷。我们的数据显示,意图使用量已超过800个,显示出广泛且深入的用户需求。
虽然语音各家都做得不错,但是也碰到很多难题,比如语义理解的能力,实际端到端在90%左右,而且难以继续增长;在语音对接第三方应用时,要对接的第三方应用越来越多,导致语音团队的工作负荷越来越大。
然而,大模型技术的出现为我们提供了解决这些问题的新途径。首先,大模型具有强大的语义理解能力,能够更准确地识别并理解用户的意图。其次,大模型搭配agent技术能够自动调用车控模块和生态SDK,从而减轻语音团队的工作负担。最后,大模型的智能性使其能够根据场景变化灵活调整,避免出现不符合实际情况的千人千面。
还有一点,我观察到目前存在一种趋势,即大模型能够结合车辆手册互联网搜索,给用户带来解答车辆知识和百科知识的能力,进而拓宽传统语音车控、导航、娱乐三大功能的边界。
AI智能体
AI智能体,简而言之,就是具备自我感知、自我决策及自我执行能力的实体。在图示中,小人向Agent传达了一个指令:“如果明天下雨,请为我带上伞。”智能体首先通过调用传感器和天气信息网站进行感知,判断明天的天气情况。在作出决策后,它将通过调用相应的工具,如具身体,完成指令。
图源:合众新能源
尽管AI智能体的概念在哲学领域早已提出,且在1980年代的AI领域也有所涉及,但长期未有实质性进展。然而,随着大模型的出现,特别是其调用工具和决策能力,使得AI智能体的实现成为可能,引发了广泛的关注和研究。目前,众多开源项目和创业公司纷纷投身于AI智能体的研发。
AI智能体的出现将带来新型的人机交互关系。在未来,人们只需向Agent表达需求,如心情不佳时希望得到安慰,Agent可能会播放一首合适的歌曲。在此过程中,用户无需等待,可以继续进行其他操作,如调节车窗、导航等。未来,触屏和按键等交互方式可能会逐渐减少,取而代之的是通过语音与智能体进行交互,形成如导航智能体、音乐智能体等多样化的智能体形态。这些智能体将依赖于多模态信息、个性化记忆以及底层软件的支持。
此外,AI智能体还将对操作系统产生深远影响。传统的以UI为主的操作系统,如安卓,可能将面临变革。随着AI智能体的引入,操作系统需要适应新的交互方式和智能体的调用需求。在系统架构上,可能需要增加新的组件,以支持智能体的调用、上下文管理、存储管理等功能。
对于企业而言,建立高效的开发平台至关重要。我们公司并不计划发布特定的大模型,而是致力于将现有的大模型优势最大化,构建完善的工具链。与自动驾驶领域类似,我们关注工具链的成熟度和数据回流的效率。我们期望建立一个模型广场或模型动物园,对外提供统一的API接口,同时定期评估市场上的大模型并集成到我们的平台中,确保上层应用开发的稳定性和独立性。
在工具链的构建上,我们将关注数据的预处理、Prompt工程、知识库管理、Agent编排以及模型选取等环节。特别是Prompt工程,它类似于一种特殊的编程方式,需要确保编程的准确性和测试方法的准确性。最终,我们将基于这一平台,结合自研、采购及合作自研等多种方式,推动AI智能体技术的发展和应用。