华夏晚报  >   科技  >  正文

Baichuan 3 通用中文评测基准总分77.4分,国内排名第二

评论

  2月2日,国内大模型权威评测机构SuperCLUE发布了Baichuan 3大模型的评测结果。在SuperCLUE通用综合测评基准上,Baichuan 3以总分77.47分的优异成绩排名国内第二,成功跻身国内大模型第一梯队。

  Baichuan 3是百川智能1月29日发布的超千亿参数大语言模型,在多个英文评测上表现出色,达到接近GPT-4的水平。此外,Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力。

  SuperCLUE是国内权威的中文通用大模型综合性评测基准之一,主要考察模型在中文能力上的表现,包括语言与知识、专业与技能、AI智能体和安全四大能力维度的上百个任务。

  在本次评测中,Baichuan 3的综合表现显著优于GPT-3.5,与GPT-4差距已缩小至2.37分。

图片1.jpg

  Baichuan 3在各项能力上表现均衡,尤其在计算、逻辑推理、角色扮演、语言理解能力上处于国内领先位置,能够良好地应对复杂逻辑推理及个性化拟人场景的需求。

图片2.jpg

  作为超千亿参数的模型,与上一代开源模型Baichuan2-13B-Chat相比,Baichuan3各维度的能力均大幅升级。其中,计算能力提升幅度最大高达41.15%,逻辑推理能力提升18.03%、代码能力提升29.61%、知识百科能力提升14.38%、语言理解能力提升19.30%、角色扮演能力提升17.92%、工具使用能力提升20.09%、生成创作能力提升4.49%、上下文对话能力提升5.47%、传统安全能力提升3.10%。

图片3.jpg

  同时,Baichuan 3也是所有大模型创业企业发布的模型中综合能力最强的大模型,计算、逻辑推理、语言理解、角色扮演、上下文对话等能力均处于领先地位。

图片4.jpg


责编:hxq 


〖免责申明〗本文仅代表作者个人观点,其图片及内容版权仅归原所有者所有。如对该内容主张权益请来函或邮件告之,本网将迅速采取措施,否则与之相关的纠纷本网不承担任何责任。

注:凡注明来源非本站的作品,均转载自其它媒体,并不代表本网赞同其观点和对其真实性负责。

华夏晚报致力于资讯传播,希望建立合作关系。若有任何不当请联系我们。

联系我们版权申明 |All Right Reserve 版权所有 鄂ICP备18002142号-2

版权为华夏晚报所有 未经同意不得复制或镜像