科技日报记者 张佳星
“几年前,和机器人聊天,我们要忍受它们的‘词不达意’,现在的技术不仅让你懂它,还让机器人读懂你的犹豫、焦急甚至拒绝。”5月6日,中国AI最高奖“吴文俊人工智能科学技术奖”颁奖,获得吴文俊人工智能科学技术奖杰出贡献奖的京东集团副总裁、京东科技智能服务与产品部负责人何晓冬博士告诉科技日报记者,凭借技术创新,AI已经可以表现出情绪识别和情感配合的能力。
(相关资料图)
率先提出关键模型框架,让机器人会“捧哏”
“我们一直努力让机器人有‘捧哏’的天分。”何晓冬说,“基于我们在包括高表现力的对话生成、在复杂场景下进行对话决策等方面的研究创新点,获奖项目让机器人在等待、接续的时机、说话内容的选择等方面都达到了令人类满意的程度。”
“过去的技术是给机器人规定一个时间,比如无声期超过0.5秒了,就要接话。”何晓冬说,任务型对话是以解决真实世界复杂任务为目的的,对话中的人也需要犹豫、判断,此前的对话技术往往出现人还在思考,AI就急着插话的情况。
“我们提出了一个多模态的话语决策模型,在评价语音信号时,不仅考量停顿时间,更重要是计算评估语义完整度、语气、助词等等,通过多模态信号的综合作出动态决策。”何晓冬解释,这个模型可以让AI来判断对话者是说完了还是在思考。
“会倾听”是人类重要的交流能力之一。京东云言犀实现了对机器人“倾听”能力的塑造。在语音合成时给予多维度的信息,在建模时让机器人掌握篇章、句子、字词,多轮对话时精确捕捉用户意图流畅对答等,这些新探索让京东云团队凭“任务型智能对话交互关键技术及大规模产业应用”,获得吴文俊人工智能科学技术奖科技进步奖。
更为可贵的是,这是一次从源头发起的创新——
在谷歌学术搜索中排名前20名的论文中只有一篇与多模态决策模型相关的论文,就是出自何晓冬及其团队。“2018年,我们首次发表论文研讨多模态问题的基础框架构建,并依托京东的业务实践提出很多自上而下和自下而上结合的新观点。”何晓冬说,该篇论文近几年被反复引用,已经到达4000多次。目前仍在大量使用,表明这一多模态框架可能是当前最有效的框架之一。
服务现实产业场景,做更难辨别的“人类分身”
“学术贡献、在国际比赛上击败国内外重要对手等成绩是我们获奖的原因之一,更重要的原因是产业AI的大规模落地。”何晓冬坦言,实践不仅能创造价值,还是技术的“试金石”,且不断反哺研究人员完善理论。
“AI为一座城市短时间拨出了2600万通电话,以了解居民的健康情况。”何晓冬说,如果没有AI,至少需要1万名社区人员不停地打好几个月。
在北京、大同、芜湖等地,任务型智能对话交互关键技术正在为政府更好地进行政务管理与服务发挥了实效。AI不仅可以高效率拨打,节约了大量的人力、时间成本,还可以同时自动录入数据,做好分析,预判潜在问题。
京东云的言犀平台率先将获奖技术应用于客户服务中,囊括了4层知识体系、40多个独立子系统、3000多个意图以及3000万个高质量问答知识点,覆盖超过1000万种自营商品的电商知识图谱,在为用户提供服务时不仅能解决用户需求,还能考虑用户情绪、运用对话技术,提供可用、可控、可信的智能对话体验。
除了语言的呈现,团队还在画面、形象、仪态等方面实现惟妙惟肖的呈现。“数字人等3D人像的应用目前很多。”何晓冬说,“我们的优势不仅在于更像,也在于其从理论和方法上进一步降低了技术复杂度,降低了产业应用的门槛,和企业的投入产出比。”
未来,人工智能大模型技术或在短期内将虚拟数字人的交互能力大幅提高,结合对话式AI、生成AI等技术,很多新业态将带来更多全新应用场景,难以辨别的“人类分身”正在其中。
(受访者供图)