网易伏羲预训练模型“玉言”登顶CLUE分类榜单，成绩首次超过人类水平

2023-01-21 10:00:00来源：TechWeb.com.cn 关键词：人工智能网易伏羲阅读量：24202

导读：近日，网易伏羲预训练模型“玉言”成功登顶 CLUE分类任务榜，这是网易伏羲在中文文本预训练领域又一重要里程碑。

　　近日，网易伏羲的“玉言”系列模型在CLUE分类任务排行榜中超越其他模型，荣登榜单第一。在CLUE1.1分类任务排行榜(包含AFQMC[文本相似度]、TNEWS[短文本分类]、IFLYTEK[长文本分类]、OCNLI[自然语言推理]、WSC[代词消歧]、CSL[关键词识别]6个理解任务)上首次超过人类水平。

　　作为中文语言理解领域最具权威性的测评基准之一，CLUE榜单在学术界及工业界有着深远影响。此次「玉言」成功登顶 CLUE分类任务榜，是网易伏羲在中文文本预训练领域又一重要里程碑。值得一提的是，一年前网易伏羲的“玉言”系列模型也曾登顶CLUE推出的中文小样本学习评测榜单FewCLUE。

　　"玉言“是网易伏羲自主研发的中文文本预训练大模型系列，这次登顶CLUE分类任务榜单的模型参数达到110亿，结构由深层 Encoder 和浅层 Decoder 组成，这种结构可以使得大模型具有优秀理解能力的同时，也有着较为优秀的生成能力。除此之外，Encoder-Decoder结构方便训练任务的设计，不需要复杂的掩码策略。其预训练数据包括网易自有高质量数据、各类百科、新闻、社区问答、wiki、小说等等；网易伏羲对收集到的数据进行去重，清洗，产出了大量高质量数据，并采用这些数据训练模型，使得模型具有良好的泛化性，在各类任务上都有着出色的性能。

　　网易伏羲在"玉言“模型的训练中，采用多任务训练框架对模型Encoder和Decoder进行训练。为了提升模型的语义表示能力，同时让模型更好的理解不同长度的文本信息，提出了不同的预训练策略来帮助模型学习：

　　1. 掩码策略：掩码[MASK]将句子中的词进行掩盖，让模型还原被掩盖的词语，提升模型对词语的语义表示能力；

　　2. Word Shift 策略：通过打乱中文词语里单字的顺序，让模型对其进行还原，从而提升模型对中文词语表达的关注能力，增强对中文词语的敏感性；

　　3. Short Sentence Reorder 策略：通过打乱出现在句子中的短句，再让模型还原以提升模型对句子语义的理解；

　　4. Word/Sentence Deleted 策略：删除句子中的单词或整句后再让模型进行还原，以提升模型对不同长度的文本的语义表示能力；

　　网易伏羲的大规模预训练相关工作由网易高级副总裁、网易雷火事业群总裁胡志鹏牵头主持，并且入选2022年度浙江省科技计划项目--“尖兵”项目。自研模型规模从最早的一亿参数增长至千亿参数，模型领域从文本拓展到图文、音乐、行为序列等多种模态，积累了丰富的预训练模型训练和工程优化的经验。相关技术也已经应用在网易集团内的文字游戏、智能NPC、文本辅助创作、音乐辅助创作、美术设计、互联网搜索推荐等业务场景，并取得了显著的业务效果。

　　另外，网易伏羲参与了中国人工智能产业发展联盟组织的大规模预训练模型技术的应用评估方法编写，并且在由中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室等机构发起的2022可信AI峰会上，网易伏羲的大模型应用「 LOFTER-AI 写文」和「傀儡戏-互动式文字游戏」同时入选“2022大规模预训练模型优秀应用案例”，在大模型技术及AI实践领域获行业认可。

　　网易伏羲作为国内专业从事游戏与泛娱乐AI研究和应用的顶尖机构，未来会在大规模预训练模型领域持续探索，并结合有灵机器人众包能力，引入“人”的决策及数据闭环，进一步提升大模型的能力。

上一篇：2022年盘点电池、硬盘、计算机等行业的重要突破

下一篇：苹果申请两项泰坦项目专利与车门、闩锁和天窗系统相关

我要评论

昵称

匿名

文明上网，理性发言。（您还可以输入200个字符)

表情

所有评论仅代表网友意见，与本站立场无关。

全域人工智能之城建设驶入快车道
市科委、中关村管委会，市经济和信息化局，市发展改革委，市政务和数据局，市卫生健康委，北京经开区管委会领导出席，来自各央国企、研究机构，及京内外近500家人工智能上下游生态企业与会。
人工智能中国智造
2025-04-30 09:49:19
AI已经成为人形机器人最大的瓶颈？
在看似繁荣的表象下，行业共识正在逐渐浮现：人工智能(AI)技术的滞后，已成为人形机器人实现真正智能化的最大瓶颈。
人形机器人人工智能
2025-04-28 15:32:08
从“原子”到算法！人工智能领域的“元素周期表”诞生
研究团队发现，处于同一“主族“的算法(如支持向量机与核方法)具有相似的数学内核，而位于相同“周期“的算法(如决策树与随机森林)则共享相近的泛化能力图谱。
人工智能计算机科学
2025-04-27 17:01:21
宾利发布突破性人工智能皮革检测技术
人工智能皮革检测系统并不能完全取代宾利训练有素的工匠的技艺。通过自动化人工检测流程，该系统能够提供最高品质的皮革，工匠们可以用它来打造精致的手工缝制细节。
人工智能皮革检测技术
2025-04-27 14:42:55
早报|深圳大学人工智能学院正式揭牌成立；SK海力士完成96GB CXL内存模块验证
深圳大学人工智能学院正式揭牌成立,学院建设基础学科研究中心和算力平台，与腾讯云共建产业学院；SK海力士宣布，其基于CXL 2.0标准的DDR5 96GB内存模块已通过客户验证......
人工智能内存模块数据传输设备
2025-04-23 10:41:12
宝马押宝人工智能，能赌赢吗？
宝马在电池续航方面也取得了显著进展，宝马第六代动力电池技术搭载大圆柱电芯，能量密度提升至300Wh/kg，支持15分钟内完成80%电量快充。
宝马人工智能
2025-04-16 14:58:14

版权与免责声明：

凡本站注明“来源：智能制造网”的所有作品，均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品，未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：智能制造网”。违反上述声明者，本站将追究其相关法律责任。

本站转载并注明自其它来源（非智能制造网）的作品，目的在于传递更多信息，并不代表本站赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时，必须保留本站注明的作品第一来源，并自负版权等法律责任。如擅自篡改为“稿件来源：智能制造网”，本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多，如涉及作品内容、版权等问题，请与本站联系并提供相关证明材料：联系电话：0571-89719789；邮箱：1271141964@qq.com。