中文语言理解领域最新权威榜单《线索》创造了一项新纪录:
来自阿里达摩院的大模型获得了86.685的高分,超越了人类的成绩。
这是该榜单诞生近三年以来,AI首次超越人类得分。
这也意味着AI对中文的理解水平达到了一个新的高度。
那么,创下这个纪录的AliceMind是怎么做到的呢。
四项任务超越人类水平,首次超越总榜平均分。
作为业内最权威的中文自然语言理解榜单之一,CLUE从文本分类,阅读理解,自然语言推理等9个任务全面评估AI模型的语言理解能力。
三年来,这个榜单吸引了国内众多NLP团队的参与虽然榜首位置多次易手,但参赛的AI模型一直没能超越人类的成就
据介绍,AliceMind是通过以下两项关键技术实现这一成就的。
首先,基础模型迭代升级。
AliceMind的基本模型是在通用语言预训练模型StructBERT1.0之上迭代升级的。
1.0的前期工作重点是在句子级和单词级引入了两个新的目标函数,相当于在机器中内置了一个语法识别器。
这使得机器在面对语序或语法习惯混乱的单词时,能够准确理解并给出正确的表达和反应,大大提高了机器对单词,句子以及整个语言的理解能力。
此次,达摩院利用前期团队用于PLUG/中文GPT—3等超大规模模型训练的海量高质量中文文本,以及近两年训练技术的经验,做了以下改进:
激活替换功能,替换GeLU带GLU
使用更大的词/词混合词汇替换原有的词级词汇,
用相对位置向量代替绝对位置向量,
选取5亿规模的模型,在增加60%左右的模型参数和计算量的前提下,性能显著提升。
此外,阿里达摩院配合AliceMind在大规模预训练的训练端和推理端的加速技术积累,利用StrongHold等技术在16卡A100上实现了14天500B以上令牌的训练。
第二,微调
预训练模型是语义理解的重要基础,但如何将其应用于下游任务也是一个重要的挑战。
面对语义相似度,文本分类,阅读理解等下游任务,理工学院NLP团队从迁移学习,数据增强,特征增强等方面进行了一系列探索,以提高下游任务的性能。
以线索列表中的WSC任务为例:
目标:
" span2_index": 25," span1_index": 14,
" span1_text ":"小桥"," span2_text ":"它"
:14,
标签:真,
《正文》:现在村里最老的人都不知道这桥是什么时候建的它每年都会崩溃,但每年都会存在
输入样本构造方法:
村里最老的人现在都不知道这个lt,gt,小乔lt,/noun gt,它是哪一年建造的lt,gt,It lt/代词gt,年年风雨飘摇,却年年存在
常规分类方法中,一般将最后一层标签的隐藏状态作为输入分类器的特征,要求模型通过标签隐式学习参照任务。
为了加强分类器的输入特性,阿里达摩院从编码器的最后一个隐藏状态中提取代词和名词对应的向量表示,进行均值池。
然后对名词和代词的向量表示进行拼接,用分类器进行0—1分类在添加了增强的输入特性之后,dev集上的模型性能从87.82提高到93.42
通过分析Strutbert的预训练任务,我们还可以发现,这种特征构造方法更符合Strutbert的预训练任务的形式,缩短了预训练阶段与微调阶段的差距,从而提高了模型性能。
关于AliceMind的Structbert预培训任务
三年后,阿里达摩院开发了阿里依桐阿里西敏德。
模型体系包括预训练模型,多语言预训练模型,超大中文预训练模型等具有阅读理解,机器翻译,对话问答,文档处理等能力
先后登顶GLUE,CLUE,XTREME,VQA挑战赛,DocVQA,MS MARCO等自然语言处理领域六大权威榜单,获得36项冠军。
AliceMind去年6月开源。
这次在CLUE benchmark中第一个超人类使用的骨干模型已经在达摩院之前发布的ModelScope平台中开放。
开放地址:
。