ChatGPT的横空出世点燃了众人对科技的热情,它赋予千行百业更多遐想空间。ChatGPT带来的风也刮到了汽车圈,不少类ChatGPT产品均传出在不久之后“上车”的消息。2月14日,集度汽车宣布旗下产品将融合百度“文心一言”的全面能力,支持汽车机器人实现自然交流的再进阶;2月17日,毫末智行也宣布将其自动驾驶认知大模型正式升级为DriveGPT,计划于2023年4月第八届HAOMO AI DAY上公布进展。
ChatGPT的走俏让智能网联汽车驶向新风口。在类ChatGPT等人工智能产品的加持下,智能网联汽车有望在车载语音交互和自动驾驶领域实现“再进化”。
企业竞逐,吹响类ChatGPT“上车”号角
当前,不少企业对ChatGPT摩拳擦掌,计划面向汽车场景推出类ChatGPT产品,吹响ChatGPT“上车”号角。
在2月14日举行的集度ROBOVERSE三里屯体验中心启动会上,集度CEO夏一平宣布,集度汽车机器人将融合百度研发的“文心一言”的全面能力,支持汽车机器人实现自然交流的再进阶。
众多关注人车互动的车企也在“拥抱”ChatGPT及相关产品。自2月17日起,长城、吉利、红旗、零跑、东风日产启辰、岚图、爱驰等多家汽车品牌纷纷官宣接入“文心一言”。造车新势力小米汽车则在2月9日举办的投资日上谈到了ChatGPT。小米汽车表示,ChatGPT基于AI大模型、千亿级参数量、数据量、人工标注支撑,目前小米的汽车业务有很多AI大模型落地的场景。
作为一种更自然的语言处理工具,ChatGPT能够通过学习并理解人类的语言来与人对话。在智能汽车场景下,这样的应用也可以改变人与汽车的交互方式,使人与车辆进行更深层次、更高效的语音交互,为用户提供更好的驾驶体验。在夏一平看来,语音交互是车内最高效的交互方式,任何交互都没有语音来得直接。
记者在2月20日探访集度ROBOVERSE三里屯体验中心时了解到,当前车内的语音交互更多是指令和机械命令。文心一言“上车”后,集度的车机系统能和人进行更直接的交流,将更符合人类的思考习惯,接近人与人之间的交流。或许在未来的汽车上,类ChatGPT产品能通过讲笑话给疲劳的驾驶员提神。
黄河科技学院客座教授张翔同样认为,ChatGPT在以语音交互为代表的车载信息娱乐系统具备很大潜力。现在很多车企的语音交互产品只能识别比较简单的指令,ChatGPT“上车”后能够进行更复杂的语音识别。
从更广义的生成模型来看,类ChatGPT产品的“上车”也能赋予自动驾驶更多想象空间。中国科学院院士、清华大学教授欧阳明高在2月17日举行的中国电动汽车百人会专家交流会上说:“ChatGPT的火热将对今年的自动驾驶行业产生深远影响,解放很多测算门槛,让这一赛道全面提速。”
据悉,毫末智行推出的“人驾自监督认知大模型”就借鉴了ChatGPT的实现思路,采用RLHF(人类反馈强化学习)技术,通过引入真实人驾接管数据,对自动驾驶认知决策模型进行持续优化。
“ChatGPT是基于自然语言处理的预训练大模型,所处理的主要是文本语料,基于文本序列来预测文本序列。而毫末智行的DriveGPT是一个基于大规模参数、大规模数据的自动驾驶认知大模型,主要用途是不断学习人驾策略,当前主要通过云端测评方式来提高车端算法效果。”毫末智行数据智能科学家贺翔对记者表示,基于大规模量产辅助驾驶系统,可以从不同道路环境和不同交通流密度等场景中,积累大量更具多样性的数据。
AI大模型是数据推衍和底层逻辑的背后推手
在数据推衍和底层逻辑方面,ChatGPT和智能汽车身后都有一个共同推手——AI大模型。正如夏一平所言:“真正到ChatGPT时代,依赖的可能不是车,而是背后模型的能力有多强。”
在大模型技术超强的学习能力支撑下,类ChatGPT产品上车,重点是聚焦车载语音交互这一垂直场景,再进行技术应用。思必驰在车载语音交互领域深耕多年,目前在智能汽车领域的客户已涵盖上汽、北汽、理想、哪吒、博泰等国内头部主机厂及Tier1厂商。
“大模型技术通过强化上下文理解能力、思维链推理,以及增强指令学习来实现持续学习。”思必驰汽车事业部产品总监葛付江对记者表示,除了完成“导航去公司”这类固定指令的任务型对话,在进行日常知识交流和闲聊对话时,车与人的交流方式也会更高效、更直接,且具备高灵活度。
以ChatGPT为代表的大模型应用将人类整合、利用海量数据的能力又送上了一级台阶,这一基础能力对自动驾驶同样至关重要。
在贺翔看来,自动驾驶的真正实现,离不开基于数据驱动的AI技术方式。具体到当前,就是以Transformer为代表的大模型所驱动的感知、认知算法不断进化,使得智能驾驶技术从低阶、限定场景的辅助驾驶,迈向高阶全场景的辅助驾驶,再升级为全场景完全自动驾驶。
随着车端设备算力的提升,以及数据越来越丰富,经过训练后的AI大模型将具备更强的自动驾驶能力。
“当前AI大模型正在广泛应用在自动驾驶领域。”贺翔告诉记者,基于视觉自监督大模型,数据处理可以实现对多模态感知数据的大规模自动标注;基于3D重建大模型,可以实现数据生成,并通过仿真模拟极端场景来提升感知效果;在感知端,基于多模态互监督大模型,可以完成一般障碍物以及通用障碍物的识别,更好地提升感知能力;基于动态环境大模型,可以更精准预测道路拓扑关系,帮助车辆更稳定、合理地规划行驶路线。
贺翔以毫末智行“人驾自监督认知大模型”DriveGPT为例对记者表示,该大模型在认知端引入了数千万公里的真实驾驶行为数据做预训练,使驾驶策略更加拟人化。同时还引入了司机接管数据来不断修正驾驶策略,提升驾驶水平。
“涟漪效应”促进迭代,商业化路径仍在探索
以智能汽车为代表,一些社会刚需或具备大量活跃用户的应用,可以结合用户交互体验数据,反馈给模型后进一步提升模型的能力,在数据和模型之间形成正向反馈循环的“涟漪效应”,使迭代更新后的模型越来越强。
“ChatGPT的初步突破带来的当前影响和未来想象空间是巨大的。”科大讯飞研究院执行院长刘聪对记者表示,在技术演化的基础上,以自然语言处理为代表的人工智能算法有可能重构互联网和移动互联网的产品形态,促进教育业、医疗业、汽车业、金融业、消费业、媒体业、服务业和制造业等众多产业的升级,最终带来对应商业模式的变革。
目前来看,类ChatGPT产品在汽车领域的商业化路径还处于探索初期。以车载语音交互为例,应用ChatGPT的费用高昂,至少包括训练费用、对话使用费、硬件软件费用等。成本也因此成为类ChatGPT产品在车载语音交互领域大规模商用的阻碍之一。
“成本确实会成为技术商业化落地的影响因素。”葛付江对记者表示,ChatGPT的研究需要巨额的资金投入和人才储备,包括超算平台、算法、数据等各核心力量支撑。目前来看,头部平台公司具备这方面优势。科技企业可以更多地从场景融合入手,开发应用级产品,寻求创新机会。
在车载语音交互领域,类ChatGPT产品如何在车内有限空间里发挥最大效用?葛付江认为,从商业化场景看,目前ChatGPT更适合用在基于一定背景知识的创作型产业,以及“刚需”AIGC(利用AI生产内容)的场景和SOP(标准作业程序)行业。这一方面对算力优化、云和端智能融合技术等方面提出挑战,另一方面也会推动相关技术向安全、对人有帮助的智能方向发展。
总体而言,ChatGPT“上车”后,车载语音交互的发展形势仍不明朗。但可预见的是,在车载场景下,语音交互的形式将更加流畅,内容将更有价值。
“相关技术会向统一多模态交互方向发展,强化语音、文本、图像等深度融合的多模态交互技术,形成‘汽车大脑’,以应对车内、公共空间等复杂场景的交互需求。”葛付江说。
贺翔在谈及大模型在自动驾驶行业落地时表示,大模型具有参数规模大、数据训练规模大,对算力要求大、成本高的特点,本身很难在终端设备上落地。在此背景下,自动驾驶行业需要解决三个问题:通过建设智算中心和优化训练效率,降低大模型的云端训练成本;通过改进车端芯片、定制transformer专用加速芯片来提升计算效能;通过改进车端模型和轻量化模型来提升计算效率。
尽管面临一些挑战,但在贺翔看来,大模型在自动驾驶落地的趋势不会变,只是需要分阶段、分任务去解决相应问题和挑战。