Facebook开源M2M100模型轻
From:VentureBeat;编译:Shelly不管是在翻译圈,还是在日常生活中,“机器翻译”已经成了越来越常见的字眼。那么,现如今的机器翻译已经发展到了什么水平?除了通用语种互译,机器翻译究竟能实现多少种语言的互译?它的上限在哪里?一起来看看Facebook新推出的M2M-多语种机翻模型吧!本文将告诉你M2M-模型的优势、原理、现存的局限性,Facebook科研人员为此所作的努力,以及有关该模型的客观的评价。Facebook于10月19日开放了M2M-模型的源代码(Github),并声称这是首个不以英语为中介就能实现多对语言互译的算法。M2M-机器学习模型经过了多对语言翻译的训练,在机翻常用评估标准下,其翻译质量明显优于其他以英语为中介的模型。多语种机翻的终极目标就是研发出一款可以任意翻译全世界多种语言的模型。多语种机翻可以实现相似语言的信息共享,在低资源语对、零数据翻译等领域具有显著优势。另辟蹊径的训练数据集:包含种语言的75亿个句子模型尺寸越大,要建立起相应的数据集也就越繁琐、越困难。因此,一些科研人员以英语数据集为中介,并依赖特定技术实现其他语种的互译。比如说,要实现种语言互译,就需要包含0亿个句对的数据集。但是通过这种方法建立的模型存在局限性:由于无法体现人们的翻译使用习惯,它在非英语互译中的表现往往不尽如人意。相比之下,Facebook的M2M-模型另辟蹊径,它在包含了种语言的75亿个句子的数据集中进行训练。为了构建该模型,在语言的选取上,Facebook的科研人员主要确定了三条标准:首先,他们选取分布在不同地域、隶属于不同语系且被广泛使用的语言;然后,他们进一步缩小选择范围,只保留了那些有测评数据库的语言,以便评估翻译质量;最后,他们舍去了那些没有可用单语数据库的语言。M2M-的基础是XLM-R模型。XLM-R模型是Facebook研发的一款多语种模型,它可以学习单语数据库,并能用种语言完成任务。今年7月,Facebook发布了一款支持50余种语言的语音识别模型。就在不久前,Facebook又公布了CRISS模型的详细信息,它可以从众多语言中挖掘未标记的数据,进而跨语言挖掘句子,训练出高级模型。拓展互译语种的创意:全新语言识别技术、“桥梁挖掘”策略与反向翻译安吉拉·法恩(AngelaFan)是Facebook巴黎AI研究中心的一位数据科学家,他在博客里写道:“多年来,AI研究人员一直致力于研发出统一通用的模型,它能在不同的任务中理解所有语言,包括各种方言。这样的模型将能够为更多的人提供优质服务,保持翻译最新,并且为数十亿人带来全新体验。”在M2M-模型中,Facebook的科研人员采取了全新的语言识别技术,从不同来源中挖掘质量更高的数据。其中一种技术名为“语言不可知句表示法”(LASER),这是一个开源工具包,可以对自然语言处理模型进行零数据传输。另外还有两种技术,分别是CCMatrix和CCAligned。CCMatrix是用以训练翻译模型的、“十亿规模”的双语数据库;CCAligned是一个大型的跨语言网页文档对合集。Facebook科研人员避免使用那些很少进行互译的语对,比如冰岛语与尼泊尔语、僧伽罗语与爪哇语,并且采取“桥梁挖掘”(bridgemining)策略,基于分类、地理位置和文化相似性将世界语言分为14个语族。同一语族的国家中,人们的交流会更加频繁,对翻译的要求也更高。比如说,一个印度家庭可能会使用同族的多种语言,如孟加拉语、印度语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。为了联系不同语族的语言,Facebook科研人员找出每个语族里最重要的一到三种语言,将它们确定为“桥梁语言”。例如,印度语、孟加拉语和泰米尔语就被确定为印度-雅利安语族中的桥梁语言。然后,他们从这些桥梁语言的可能组合中挖掘训练数据,得到了前文提到的75亿个句子。对于低资源语种,Facebook采用反向翻译的方法对数据集进行补充。反向翻译方法是指在训练已有单语模型的基础上,将其翻译为另一语种的对称反向翻译数据库。在M2M-模型的开发过程中,Facebook为已挖掘的语言添加了合成数据,为先前未出现过的语对创建了新数据。M2M-模型使用的开源框架是Fairscale,用于训练大型模型。训练过程中,该模型被分割为数百个源数据相同的显示卡,因此,每个显示卡训练的是一部分模型,而非一部分数据。为了确保M2M-模型的性能发挥不受影响,Facebook科研人员将其参数分为互不重叠的语族。这些策略的组合使M2M-模型的性能提升了倍,并使其能够提供更准确的语言翻译。Facebook称,在参数值为亿时,M2M-模型的高资源语对翻译质量提升显著,毕竟高资源语言在模型训练上有着最多的资源。正如安吉拉所写:“我们将模型规模与特定语言参数结合起来,也就是把大型模型的优势和学习特定语言的能力结合起来。”局限与提升空间:低资源语对与偏见观点的困境M2M-模型的翻译质量由母语人士来进行评估,且不包括英语母语者。这些评估人士对翻译成品的忠实度打分较高,但是也指出该模型在俚语翻译方面不尽如人意。此外,M2M-模型还会出一些语法错误,包括逗号缺失,这些可能会导致读者误解原文。Facebook科研人员在一篇论文中承认了该模型目前的不足:“要达到令人满意的翻译质量,M2M-模型还有很大的提升空间。对于一些不常见的语种,包括非洲的科萨语、祖鲁语,欧洲的加泰罗尼亚语、布列塔尼语,亚洲的伊洛干诺语、宿雾语等等,这些语言在互联网上的语料都十分稀缺,导致训练数据数量和质量的不足。”事实上,大量实例已经表明,语言模型会放大其训练所用数据库里的偏见观点,导致一些不良后果。麻省理工、英特尔以及加拿大高等研究院的AI研究人员发现很多现有翻译模型的译文里都包含着大量偏见。艾伦AI研究所的科研人员指出,现有的机器学习技术都没办法避免这一缺陷,人们急需更好的训练模式和模型建构。除此之外,谷歌也发现其机器翻译模型会产生性别偏见(尽管他们声称这一问题已经解决了),特别是那些低资源语种,比如土耳其语、芬兰语、波斯语和匈牙利语等等。针对这一问题,M2M-模型是怎样应对的呢?安吉拉说道:“模型目前仍处于测试阶段,在这个研究阶段,我们想测试模型的局限性。对于那些错误、有害的译文,我们尝试过使用侮辱性语言过滤器,但是至少现在看来效果并不好……我们现在仍然处于试验阶段,这也是该模型还没有正式投入使用的原因。”安吉拉还强调,在当前阶段,虽然研究团队还没有采取特别措施来应对性别歧视语言,但它在探究M2M-模型的常见错误类型。她说:“我们不仅要
上一篇文章: 数说职场她力量职场女性平均月薪86 下一篇文章: 生在西域的李白具有胡夷血统曾被贺知章推荐
转载请注明:http://www.abuoumao.com/hyfw/5781.html