8大维度600道题盲测，讯飞星火成中国“最聪明”大模型

2023/8/19 11:56:50 来源：财讯网

收藏本页打印分享

核心提示：近日，麻省理工科技评论对国内排名靠前的四个大模型进行了一次全方位评测，参评的大模型分别是讯飞星火、百度文心一言、商汤商量、阿里通义千问。在最终的评测结果中，讯飞星火以整体水平得分率81.50%高居第一，成为“最聪明”国产大模型。

去年11月ChatGPT发布后，全世界掀起了AIGC热潮，国内各大企业和投资人也纷纷跟进。

百模大战一触即发

各家大模型纷纷入局，一时之间国内大模型领域呈现出少有的热闹景象。

到目前为止，国内已经发布的10亿参数以上大模型数量超过80个，“百模大战”的竞争格局初步形成。

竞争格局出现变化

近日，麻省理工科技评论对国内排名靠前的四个大模型进行了一次全方位评测，参评的大模型分别是讯飞星火、百度文心一言、商汤商量、阿里通义千问。在最终的评测结果中，讯飞星火以整体水平得分率81.50%高居第一，成为“最聪明”国产大模型。

此次评测是从权威题库中抽取8个维度的600道题对参评大模型进行盲测。

从各维度的结果来看，在8个一级分类中，讯飞星火共获得其中6个一级分类的第一名。

麻省理工科技评论的评测报告还重点指出：在编程能力评测中，讯飞星火 80% 的得分率明显高于 71%的平均值，在生成代码的简答题单项上，讯飞星火的得分率高达 82%，远高于其他平台，表现颇为亮眼。

无独有偶，就在此前几天的8月12日，新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》，在该《报告》中，讯飞星火V1.5就以总分1013分位列本次国产主流大模型测评榜首位。在四大评测维度中的智商指数和工具提效指数两个维度获得第一，《报告》认为讯飞星火“在工作提效方面优势明显”。

行业应用加速落地

8月15日，科大讯飞发布了星火认知大模型V2.0，V2.0在代码能力和多模态能力方面的表现让人印象颇为深刻。而在应用落地方面，讯飞也展示出快人一步的节奏，无论是对标Copilot X的智能编程助手iFlyCode1.0，还是行业首创的星火教师助手，都展现出了很强的竞争力。

按理说，讯飞星火能取得这样的成绩并不令人意外。毕竟，科大讯飞自成立以来，一直都聚焦在AI领域潜心发展，无论是人才还是技术，都有着不错的积累。

随着讯飞星火开始在大模型领域崭露锋芒，国内大模型市场的竞争格局或许也会随之迎来不小的变化。

细分定位势在必行

在模型能力层面，讯飞星火和文心一言开始形成国内大模型领域的第一梯队。而在应用落地的速度方面，现已发布了多款行业应用的科大讯飞似乎已经走在了前面。

鉴于国内大模型企业相对同质化的定位，后续的竞争应该会日趋激烈。如何在继续加强大模型通用能力的同时，找到自己在垂直细分领域的精准定位，或许已经成为很多大模型企业不得不认真思考的问题。