发布日期:2024-08-19 22:29 点击次数:177
IT之家7月18日音信,上海东说念主工智能实践室17日公布了针对7个AI大模子的高考全科目测试效用,据大模子开源绽开评测体系“司南”相干崇敬东说念主先容,“现时大模子仍存在很大的局限性。组织AI大模子‘参预高考’,野心是评测现时大模子的信得过水平,找准问题,继续股东时期高出。”
测试效教导略,书生・浦语2.0系列文曲星大模子(浦语文曲星)、阿里通义千问大模子Qwen2-72B以及GPT-4o再次包揽文、理科前三甲;前三名AI“考生”的文、理科收成辞别特出了“一册”“二本”线(以本年高考东说念主数最多的河南省的分数线为参考)。
从官方提供的图片来看,这次参与“高考”的大模子还包括来自零一万物的Yi-1.5-34B、来自通义千问的Qwen2-57B、来自智谱的GLM-4-9B和法国AI初创公司Mistral旗下的Mixtral8×22B。
据先容,这次评测具备如下特征:
全卷磨真金不怕火:进行全卷评分,而不单针对单一题型,且包括带图的高考题
考前开源:评测粉饰的开源模子均为本年高考前开源的模子,排斥泄题的可能性
敦厚打分:邀请有高考阅卷教育的敦厚打分,确保评分和高考尽量一致
完竣公开:生成谜底的代码、模子答卷、评分效用完竣开源
在增多玄虚科野心基础上,Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模子Qwen2-72B以546分的收成荣获AI高考“文科状元”,浦语文曲星则以468.5分红为理科第又名,辞别特出了“非开源国际插班生”GPT-4o(文科531分,理科467分)。同为海外机构发布的Mixtral8x22B平均得分最少,弱于国内大模子的高考弘扬。
阅卷敦厚们一致以为,大模子与真东说念主考生仍存在差距,固然关于基础学问的掌抓弘扬出色,但在逻辑推理和学问天真应用方面,大模子仍然差强东说念成见。具体而言,在作答主不雅题时,大模子时时无法完好相接题干,不解白代词指向,效用导致风马牛不相及;解答数学题时,解题历程机械且逻辑性差,关于几何题,常出现与空间逻辑相违反的猜想;对物理、化学实践相接浅易,无法准确识别并利用实践器材。
此外,大模子也会伪造凭空内容,编造看似合理但本色不存在的诗句,或在存在清爽规划造作的情况下之后不反想,“硬着头皮蒙”一个谜底,均给阅卷敦厚带来了困扰。
据IT之家此前报说念,证实上海东说念主工智能实践室上个月公布的AI高考全卷效用,Qwen2-72B、GPT-4o及书生・浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模子高考的前三甲,得分率均特出70%。大部分模子“考生”语文、英语科目弘扬清雅,但数学方面仍有很大提高空间。
公开评测细节:点此赶赴