七款AI大模子“高考收成”公布 : 前三名文科过一册, 理科过二本

发布日期：2024-08-19 22:29 点击次数：177

IT之家7月18日音信，上海东说念主工智能实践室17日公布了针对7个AI大模子的高考全科目测试效用，据大模子开源绽开评测体系“司南”相干崇敬东说念主先容，“现时大模子仍存在很大的局限性。组织AI大模子‘参预高考’，野心是评测现时大模子的信得过水平，找准问题，继续股东时期高出。”

测试效教导略，书生・浦语2.0系列文曲星大模子（浦语文曲星）、阿里通义千问大模子Qwen2-72B以及GPT-4o再次包揽文、理科前三甲；前三名AI“考生”的文、理科收成辞别特出了“一册”“二本”线（以本年高考东说念主数最多的河南省的分数线为参考）。

从官方提供的图片来看，这次参与“高考”的大模子还包括来自零一万物的Yi-1.5-34B、来自通义千问的Qwen2-57B、来自智谱的GLM-4-9B和法国AI初创公司Mistral旗下的Mixtral8×22B。

据先容，这次评测具备如下特征：

全卷磨真金不怕火：进行全卷评分，而不单针对单一题型，且包括带图的高考题

考前开源：评测粉饰的开源模子均为本年高考前开源的模子，排斥泄题的可能性

敦厚打分：邀请有高考阅卷教育的敦厚打分，确保评分和高考尽量一致

完竣公开：生成谜底的代码、模子答卷、评分效用完竣开源

在增多玄虚科野心基础上，Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模子Qwen2-72B以546分的收成荣获AI高考“文科状元”，浦语文曲星则以468.5分红为理科第又名，辞别特出了“非开源国际插班生”GPT-4o（文科531分，理科467分）。同为海外机构发布的Mixtral8x22B平均得分最少，弱于国内大模子的高考弘扬。

阅卷敦厚们一致以为，大模子与真东说念主考生仍存在差距，固然关于基础学问的掌抓弘扬出色，但在逻辑推理和学问天真应用方面，大模子仍然差强东说念成见。具体而言，在作答主不雅题时，大模子时时无法完好相接题干，不解白代词指向，效用导致风马牛不相及；解答数学题时，解题历程机械且逻辑性差，关于几何题，常出现与空间逻辑相违反的猜想；对物理、化学实践相接浅易，无法准确识别并利用实践器材。

此外，大模子也会伪造凭空内容，编造看似合理但本色不存在的诗句，或在存在清爽规划造作的情况下之后不反想，“硬着头皮蒙”一个谜底，均给阅卷敦厚带来了困扰。

据IT之家此前报说念，证实上海东说念主工智能实践室上个月公布的AI高考全卷效用，Qwen2-72B、GPT-4o及书生・浦语2.0文曲星（InternLM2-20B-WQX）成为本次大模子高考的前三甲，得分率均特出70%。大部分模子“考生”语文、英语科目弘扬清雅，但数学方面仍有很大提高空间。

公开评测细节：点此赶赴

栏目分类

热点资讯

发布日期：2024-08-19 22:29 点击次数：177