实至名归!讯飞星火被MIT科技评论评为“最聪明”的国产大模型

2023-08-18 17:14:01     来源:

200多天前,影响世界的ChatGPT横空出世,短短2个月全球用户破亿,强行叩开了人工智能通往更高层级的大门。而在100多天前,来自中国的科大讯飞也发布了涵盖七大能力维度的通用认知大模型——星火,将大模型战局引入白热化阶段。8月15日,随着科大讯飞星火认知大模型V2.0升级发布,大模型战役也进入了“2.0”阶段。

8月17日,《MITTechnology Review(麻省理工科技评论)》中国(简称“MIT科技评论”)刊发了《寻找最聪明的大模型:国内主流大模型能力深度评测》,从专业学术角度对“讯飞星火(V2.0)”、“百度文心一言(V2.2.2)”、“商汤商量(V2.0)”、“阿里通义千问(V1.0.5)”四款中文大模型进行了评估,这也是学术界首次基于最新版中国大模型进行横向评测。结果显示,讯飞星火以总分81.5分摘夺桂冠,并与第二名拉开了6.3分的大幅差距。

MIT科技评论的评测方法务实客观,采取创建题库→筛选测试题→测试集应用→送代题库的流程,对Prompt(提示词)测试集进行构建。本次测试集一共涵盖600道题,题库来源既包括行业标准题库、专家设计题库、社区贡献的题库,还有来自现有研究与竞赛中被验证过的题库。从而尽可能拓展测试集题库的丰富性和多样性,以覆盖更多应用场景与行业领域。

早在星火1.5版本中,讯飞就对数学能力进行了升级,这项“特长”也在2.0版本中继续发扬。在对“求x2<9”的求解不等式数学测试中,星火V2.0是唯一一个既给出正确答案,又给出详细解题过程的大模型,让人知其然,更知其所以然,凸显出数理逻辑的缜密。此项测试中,星火V2.0以77.75%的得分率明显高于平均得分率56%,成为“最会算数”的大模型。

星火V2.0也重点升级了代码能力。MIT科技评论让四款大模型用Python进行幂函数计算,继而考察它们的代码编程能力,结果讯飞星火V2.0以80%综合得分率再次明显高于71%平均值;并在编程“简答”单项得分中,以82%的得分率远超68.25%的平均值,展现了出类拔萃的代码生成与代码解释能力。

而在讯飞星火V2.0发布会上,讯飞董事长刘庆峰援引过认知智能全国重点实验室的测试结果(使用了代码实用场景测试集iflyCT-py)。星火V2.0“代码生成”得分率比ChatGPT高3%,“代码解释”得分率比ChatGPT低4%,两款大模型代码能力虽各有千秋,但星火部分能力赶超ChatGPT已成既定事实。MIT科技评论对其代码能力的测试,也有力支撑了这个观点。

除此之外,讯飞星火在“语言专项”、“逻辑思维”“综合知识”等维度均拿下第一,表现出“不偏科”的全能特长优势,最终被MIT科技评论评为“最聪明”的中国大模型。不过此次横评也略有“遗憾”,那就是受限于现阶段大模型多模态发展程度的不同,暂未将多模态能力纳入考察范围,这也使得星火V2.0在多模态能力的提升未作展现。但MIT科技评论在文末给出“预告”,将持续完善中国大模型评测体系,逐步引入对多模态能力的考察,或许我们在“横评2.0版本”中就能看到中国大模型精彩的多模态交锋。

从行业观察者角度看,MIT科技评论此次对中国大模型的横评,足以彰显中国大模型在AIGC领域的重要性,这不仅是讯飞星火大模型的个体胜利,也是中国大模型军团的共同荣誉。通用认知大模型正以星火燎原的速度,在全世界四处蔓延,或将对人类社会产生巨大而深远的影响。

 

标签:

猜你喜欢

伯恩光学多元人才赋能项目迈向新阶段,多方见证一年成果
直击现场|涂雪松教授看诊首日人数火爆,家长们慕名而来!
被窝整装通州副中心旗舰店即将正式开业,开启家装消费全新体验
中信银行深圳分行:积极助力“双区”建设 全力服务实体经济
承诺式交付,所设即所得 | 维谛技术(Vertiv)成功化解“设计PUE≠交付PUE”痛点
第八届凉山火把节暨夏季清凉凉山游-美姑首届非遗节开幕
这个夏天,钟薛高承包了不少年轻人的“雪糕自由”
宁波做近视眼手术哪家好?眼科医院排名?必看指南【收藏】
三伏调理老年常见病,艾益生双头温阳仪助力实现艾灸自由
振东集团携手《慈海鹊桥会》开启健康养老新篇章
RICHARD MILLE推出新款RM 65-01 双秒追针计时码表
东城中医医院特聘专家彭冬青做客《健康北京》:心痛的针灸疗法
FameEX代理人计划重磅升级,重新定义加密生态
艺术邂逅机械 理查米尔(RICHARD MILLE)经典作品RM 72-01系列腕表鉴赏
中山市第三届“南粤家政”技能大赛暨广东省第三届“南粤家政”技能大赛总决赛
国海证券首届“鑫海杯”私募大赛7月战报公布,套利对冲策略组蝉联月度冠军!
理享家科技赋能财富管理行业 引领数字化转型新纪元
首款获NMPA批准的编织型静脉支架,茵络医疗外周介入再添拳头产品
世界新发现!胶原自生小分子化合物Olandu
壹路绽放,棠开京城|北京华商壹棠服务公寓正式发布!
全球最大MABR新建污水处理厂正式运营,柬埔寨西港掀起污水治理新篇章!
杭州近视手术多少钱?已术整理多家价格医生
利用大数据平台,逃无可逃 隆回县查获一起用假牌逃避超限检测行为
“笮山之鹰”“若水伊人”出炉!2023凉山盐源火把节选美大赛圆满举行
杭州近视手术医院卷!做了全飞秒提供选医院思路
丰岛沿江出发!杭州亚运会官方供应商联合主办跨界趣味运动会
北京好年华“一点双眼皮”是怎么做到的
两点水“共享工厂“,创乳业未来之势
独家冠名《天下足球》栏目,看个比赛APP打造球迷必备购票利器
师道匠心•2023企业内训师认证大会郑州分会(河南)赛区启动会圆满落幕!