据《麻省理工学院科技评论》网站()2019年12月26日消息,本月初,中国科技巨头百度在一场人工智能领域的竞争中悄然击败了微软和谷歌。百度 AI算法ERNIE在通用语言理解评估测试(General Language Understanding evaluation,GLUE)上领先其竞争对手。
GLUE是人工智能(AI)系统理解人类语言的一个被广泛接受的标准。它由九种不同的测试组成,这些测试包括在句子中挑选人名和组织名以及当有多个潜在先行词时,找出像“It”这样的代词指的是什么。因此,在GLUE上得分很高的语言模型可以胜任处理不同的阅读理解任务。在满分100分中,此前 GLUE 测试的平均分为 87。百度现在是第一个凭借其模型ERNIE获得超过90分的团队。
百度AI算法ERNIE在GLUE评估测试中击败了微软和谷歌
GLUE在公开排行榜上的排名正在不断变化,虽然另外一支团队很可能很快就会超越百度。但有必要注意一下的是,百度的成就展示了AI研究如何从众多贡献者中受益。百度的研究人员不得不针对中文开发一种专门技术来构建ERNIE知识增强语义表达模型。碰巧的是,该的技术也能使人工智能更好地理解英语。
在双向预训练转换器(BERT)于2018年末创建之前,自然语言模型并不是那么好。之前的自然语言模型擅长预测句子中的下一个单词,因此非常适用于自动完成功能。只是即使是一小段文字,他们也无法训练具有任何思路。这是因为它们不理解含义,例如“它”一词可能指的是什么。但是BERT改变了这一点。先前的模型学会了仅通过考虑单词之前或之后出现的上下文来预测和解释单词的含义,而不能同时考虑两者。换句话说,它们是单向工作的。
相比之下,BERT模型一次可以同时考虑单词前后的上下文,使其双向。它使用称为“掩码”的技术来执行此操作。在给定的文本段落中,BERT随机隐藏15%的单词,然后尝试从其余单词中进行预测。这使得它可以做出更准确的预测,因为它具有两倍的线索可通过。例如,在“男子去___购买牛奶”一句中,句子的开头和结尾都提示了缺失的单词。 ___是您可以去的地方,也能购买牛奶的地方。
使用掩码是对自然语言任务进行重大改进背后的核心创新之一,并且是诸如OpenAI GPT-2之类的模型能够在不偏离中心主题的情况下写出极具说服力的散文的部分原因。
当百度研究人员开始开发自己的语言模型时,他们希望以掩码技术为基础。但是他们意识到他们有必要进行调整以适应中文。在英语中,单词充当语义单元,这在某种程度上预示着完全脱离上下文的单词仍然包含语义。然而中文汉字却不一样。虽然某些汉字确实具有内在含义,例如火、水或木,但大多数汉字只有与其他汉字组合在一起才可以更明确含义。例如,汉字灵可以表示聪明(机灵)或灵魂(灵魂)。专有名词中的汉字,例如,波士顿或美国,一旦分开讲就不是同一件事了。
因此,研究人员在新版本的掩码上对ERNIE进行了训练,该掩码可隐藏多个字符串而不是单个字符。他们还训练它区分有意义的和随机的字符串,这样做才能够相应地做出正确的字符组合。结果,ERNIE更好地掌握了汉字是如何编码信息的,也更准确地预测了缺失的部分。事实证明,这对于翻译和从文本文档中进行信息检索等应用非常有用。
研究人员很快发现这种方法实际上也适用于英语。尽管英语不如中文会出现频繁的组合表达意义,但英语具有类似的单词字符串,这些单个单词表示的含义与它们组合在一起表达的截然不同。像“哈利·波特”这样的专有名词和像“相貌品行酷似父母”这样的表达就不能通过将它们分离成单独的单词来进行有意义的解析。
最新版本的ERNIE还使用了其他几种训练技术。例如它能考虑句子的顺序和它们之间的间隔距离,来理解一个段落的逻辑发展。然而,最重要的是,它使用了一种叫做持续训练的方法,这种方法可以让它在不忘记以前学到的东西的情况下,对新数据和新任务进行训练。这使得它能够在尽可能减少人为干扰的情况下更好地执行各种任务。
百度正在积极使用ERNIE模型为用户更好的提供更适用的搜索结果,删除新闻源中的重复报道,提高人工智能助理小度准确响应请求的能力。百度还在一篇论文中描述了ERNIE的最新架构,该论文将在明年的人工智能促发展协会会议上发表。就像他们的团队的创新建立在谷歌的BERT模型上一样,研究人员希望其他团队也能从他们研发改进ERNIE的模型中受益。
AI新技术将催生出更多像百度这样的高科技公司
百度研究的首席架构师田浩说:“当我们第一次开始这项工作的时候,我们就特别考虑中文的某些特点,但我们很快发现,它的适用范围远不止这些。
ERNIE世界性成果引发的国际媒体关注,是中国自研技术领先业界的一个缩影。未来,将有慢慢的变多ERNIE这样的中国科技、百度这样的中国企业,持续输出中国AI的战斗力。
(作者:宁浦 版权作品 未经许可 禁止转载)