开云「中国」Kaiyun官网登录入口

开云「中国」Kaiyun官网登录入口在语、数、英三门课程中得分均越过70分-开云「中国」Kaiyun官网登录入口

发布日期:2024-07-27 05:25    点击次数:183

开云「中国」Kaiyun官网登录入口在语、数、英三门课程中得分均越过70分-开云「中国」Kaiyun官网登录入口

6月19日,首个大模子高考全卷评测后果公布。2024年寰宇高考罢了后开云「中国」Kaiyun官网登录入口,大模子开源敞开评测体系——司南评测体系(OpenCompass)及第了6个开源模子包括GPT-4o,针对高考寰宇新课标I卷“语数外”三门课程伸开全卷才智测试。

评测后果显现,阿里巴巴开源的Qwen2系列MoE对话模子(Qwen2-72B)、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模子高考的前三甲,在语、数、英三门课程中得分均越过70分。大部分模子“考生”语文、英语科目推崇邃密,但在数学方面还有很大的进步空间。其中,书生·浦语2.0文曲星(InternLM2-20B-WQX)赢得了数学单科的最高分,高出包括GPT-4o在内的所有这个词模子。

司南评测体系OpenCompass是由上海东谈主工智能实验室在客岁7月的世界东谈主工智能大会上推出,当今升级为OpenCompass2.0,构造了一套中英文双语评测基准,涵盖讲话与清醒、学问与逻辑推理、数学筹算与哄骗、多编程讲话代码才智、智能体、创作与对话等方面。

大模子讲话才智推崇邃密,但数学有待提高

司南评测体系团队及第了GPT-4o及在2024年高考前开源的6个模子参与本次“大模子高考”评测。评测选拔寰宇新课标I卷,参与评测的所有这个词开源模子,开源技术均早于高考,确保评测 “闭卷”性。同期,成绩由具有高考评卷警告的教师东谈主工评判,愈加接近委果阅卷表率。

评测模子包括:法国AI创业公司Mistral于2024年4月17日开源的对话模子(Mixtral 8x22B)、零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模子(Yi-1.5-34B)、智谱AI于2024年6月4日推出的最新一代预西席模子GLM-4系列的开源版块(GLM-4-9B)、上海东谈主工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大讲话模子(InternLM2-20B-WQX)、阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模子(Qwen2-57B)、阿里巴巴于2024年6月6日开源的72B粘稠模子(Qwen2-72B)。

上述模子的高考“语数外”三科成绩后果如下表所示:

测评的大模子语数外得分情况 开首:上海市东谈主工智能实验室

总分前三名阿里巴巴开源的Qwen2系列MoE对话模子(Qwen2-72B)、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)对应得分率隔离为72.1%、70.5%和70.4%。大部分模子在“讲话”本质上的推崇邃密,语文平均得分为67分,英语更是达到了81分。

而数学则是所有这个词大模子的短板,平均得分率仅为36%。收获于询查团队在数学推理上的进入,书生·浦语2.0文曲星(InternLM2-20B-WQX)赢得了75分的最高分,越过所有这个词受测模子。可是仍未达到合格水平,这标明大模子的数学才智存在较大进步空间。

阅卷培植点评:大模子数学主不雅题回报凌乱

参与评测的所有这个词开源模子,权重均在2024年6月7日高考题目公布前开源,幸免了“数据浑浊”和“刷题”风险,与委果高考严格的“闭卷进修”一致,不存在“舞弊”可能。

为靠拢高考评卷花式,荟萃团队邀请多位具有阅卷警告的高中教师对模子主不雅题谜底评分,每份考卷至少由3位教师隔离打分。本次在完成所有这个词大模子答卷的评卷职责后,询查东谈主员同期邀请了各科教师对大模子推崇进行了举座分析,为模子才智进步政策提供参考。

阅卷教师觉得,在语文科目上,模子的当代文阅读清醒才智宽绰较强,但是不同模子的文言文阅读清醒才智差距较大。大模子作文更像问答题,诚然有针对性但缺少修饰,险些不存在东谈主类考生皆会使用例如论证、援用论证、名东谈主名言和东谈主物素材等手法。多量模子无法清醒“施行”“喻体”“暗喻”等语文宗旨。讲话中的一些“潜台词”,大模子尚无法完全清醒。

在数学科目上,阅卷教师暗示,大模子的主不雅题回报相对凌乱,何况历程具有招引性,以致出现了历程诞妄但得到正确谜底的情况。此外,大模子的公式顾忌才智较强,但无法在解题历程中天真援用。

相较于语文和数学,阅卷教师觉得,在英语科目上大模子举座推崇邃密,但部分模子由于不合适题型,在七选五、完形填空题等题型得分率较低。大模子英语作文宽绰存在因超出字数鸿沟而扣分的情况,而东谈主类考生多因为字数不够扣分。

荟萃团队觉得,如同高考阅卷也存在微小互异,由于主不雅题类型的引入,本次评测也无法作念到十足的公正。

司南评测体系OpenCompass于2023年7月由上海东谈主工智能实验室辞世界东谈主工智能大会上推出开云「中国」Kaiyun官网登录入口,当今升级为OpenCompass2.0,构造了一套中英文双语评测基准,涵盖讲话与清醒、学问与逻辑推理、数学筹算与哄骗、多编程讲话代码才智、智能体、创作与对话等方面。