连夺4项第一AI常识推理和人类又近了3
编辑:好困桃子
让机器像人一样思考又迈进了一步?
最近,第十六届国际语义评测大赛(SemEval)落下帷幕。
科大讯飞认知智能国家重点实验室率队杀出重围,连夺3个主要竞赛项目的冠军。
就在几天之前,实验室还以76.06%的准确率,刷新了常识推理挑战赛CommonsenseQA2.0的世界纪录,比第二名领先了近3个百分点。
那么,这些所谓的挑战,到底难度如何呢?
刷新常识推理世界纪录
故名思义,常识推理就是利用自身了解的知识,比如科学事实、社会惯例等,再结合特定的背景来推断出某个问题的答案。
对于人类来说,用「常识」去解决问题这件事本身,就是一个「常识」。
然而对于现在的阅读理解AI来说,如果原文没有,那基本就算是「两眼一抹黑」了。
想要让这些模型利用常识去推理出某个问题的答案,是非常困难,也是亟待解决的。
因此,在这样的一个背景下,CommonsenseQA2.0(CSQA2)国际常识推理评测数据集在艾伦人工智能研究院的主导之下应运而生。
它吸引了包括Google、AllenInstituteforAI、华盛顿大学等众多国际顶尖机构参与挑战。
简单介绍下,CSQA2是一个二元分类数据集,包含个问题,主要分为训练/开发/测试集,需要判断常识性陈述是对还是错。
其1.0版本所考察的问题,是基于现有常识知识库ConceptNet中的知识三元组构建的,这使得机器在处理该任务时,有能直接聚焦参考的知识。
CommonsenseQA1.0任务示例
随后,艾伦人工智能研究院又推出了2.0版本将挑战升级成了「判断题」,难度明显比1.0的「选择题」提高不少。
新版的的推理问题,不仅具有庞大的想象空间,而且大部分是无法被现有的知识库所覆盖的。同时,在构造评测数据的过程中,还通过人与机器博弈对抗的方式,不断迭代设计。
如果派出业界主流的中等大小预训练模型来作答,准确率只能达到55%,比随机猜测的水平稍高。
在此之前,最优的方法则通过亿级参数量大小的GPT3模型生成针对CommonsenseQA2.0常识推理问题的相关知识,并基于T5模型进行融合处理之后,才把准确率提到了73%。
CommonsenseQA2.0任务示例
首次参赛的科大讯飞,创新性地提出ACROSS模型(AutomaticCommonsenseReasoningonSemanticSpaces),并由此实现了统一语义空间下外部知识的有效融合,显著改进了超大规模预训练模型所存在的问题,在CommonsenseQA2.0任务上取得76%的准确率。
ACROSS模型通过借鉴人类的解题思路,先是收集了大量知识库和互联网的相关信息,然后在统一的语义空间中进行融合处理。最终,超大规模预训练模型便拥有了更强的知识输入,从而实现准确的常识知识推理。
不过,这个成绩仍远低于人类94.1%的水平,可见在常识性推理方向仍有很大挑战和进步空间。
多语种语言理解三连冠
取得三连冠的SemEval评测,是由国际计算语言学协会(AssociationforComputationalLinguistics,ACL)旗下SIGLEX主办的,迄今已举办了16届。
参赛者覆盖国内、外一流高校及知名企业,包括达特茅斯学院、谢菲尔德大学等,代表着最前沿国际技术和水平。
经过角逐,科大讯飞联合团队分别在「多语种新闻相似度评测任务」(Task8)、「多语种惯用语识别任务」子赛道(Task2:SubtaskAone-shot)、「多语种复杂命名实体识别任务」(Task11)三个子赛道中拿下冠军。
新闻相似度评价
在多语种新闻相似度评价任务中,科大讯飞与哈尔滨工业大学联合组建的「哈工大讯飞联合实验室」(HFL)以显著优势摘得冠军。
多语种新闻相似度评测任务
那么,新闻相似度究竟比的是什么呢?
就拿下面两篇相似度极高的新闻稿件举个例子吧。
首先,参赛队伍需要将文中相似的主要元素剥离出来并逐一分析,比如地理信息、叙事技巧、实体、语气、时间及风格。并最终判断出两则新闻的相似程度,以1-4分打分。
比赛共涉及10种语言,分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。
与普通的文章相比,比赛更强调跨语言理解能力,除了写作风格和叙述方式外,还需要把握文章中描述的具体事件。
也就是说,当AI练好了这门本领之后,就可以甄别外网的一些新闻报道是否存在偏差与曲解,从而有效预防虚假信息、不良信息的传播了。
惯用语识别
哈工大-讯飞联合团队拿下的第二项任务冠军,便是惯用语检测。
「惯用语」其实很好理解。
比如,「说曹操,曹操到」中的「曹操」是否真实存在?
但是别忘了,这可是多语种挑战。
举个英语的例子吧,比如在下面两句话中的「bigfish」。
在第一句中,很明显就是指一条大鱼,翻译过来就是「当你从网中抓一条大鱼时,最好撑住它的腰」。
第二句中出现的「bigfish」,就需要理解成「大人物」逻辑上才能讲得通。
而「多语种惯用语识别」这个挑战,考验的就是模型能不能通过上下文和短语本身,判断出究竟是惯用语还是字面意思。
多语种惯用语识别任务(子赛道)
那么,想完成这个任务,就需要模型能够利用跨语言的分析和理解能力,来区分不同句子中同一个词的不同语义。
除此之外,还要具备在不同语言之间进行迁移学习的能力,并以此来完成在训练集中没有出现过的语言的测试。
假如一个模型在这项挑战中表现优异,那么在实际应用之后,就能在日常写作和翻译工作中,效鉴别惯用语的表达用意,极大提高内容准确率。可以说是相当实用了。
复杂命名实体识别
还有一个非常困难的项目,光听名字就觉得复杂:多语种复杂命名实体识别任务(MutiCoNER)。
我们先拆解一下MuticoNER这个词,Muti是multilingual(多语言)的简称,Co即是
转载请注明:http://www.abuoumao.com/hytd/3665.html