首个AI高考全卷评测结果出分，大模型“考生”表现如何？

扫把捕虫 · 发表于 2024-6-25 15:25

·大部分大模型“考生”语文、英语科目表现良好，但在数学方面还有待加强。阅卷老师点评，在语文科目上，对于语言中的一些“潜台词”，大模型尚无法完全理解。在数学科目上，大模型的主观题回答相对凌乱，且过程具有迷惑性。

6月19日，首个大模型高考全卷评测结果公布。2024年全国高考结束后，大模型开源开放评测体系——司南评测体系（OpenCompass）选取了6个开源模型包括GPT-4o，针对高考全国新课标I卷“语数外”三门课程展开全卷能力测试。
评测结果显示，阿里巴巴开源的Qwen2系列MoE对话模型（Qwen2-72B）、GPT-4o及书生·浦语2.0文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，在语、数、英三门课程中得分均超过70分。大部分模型“考生”语文、英语科目表现良好，但在数学方面还有很大的提升空间。其中，书生·浦语2.0文曲星（InternLM2-20B-WQX）取得了数学单科的最高分，超越包括GPT-4o在内的所有模型。
20240625152412front1_0_3384202_FqReLcyLjWRyaqz5OQs-UPL8CNgR.jpg

20240625152412front1_0_3384202_FqReLcyLjWRyaqz5OQs-UPL8CNgR.jpg

20240625152412front1_0_3384202_FncPzIKkXqkXBa1XT-Y673CNGFQg.jpg

20240625152412front1_0_3384202_FtGepMFe9nI_qV0wbH6RChpD1Kfr.jpg

20240625152412front1_0_3384202_FlU1kHpsiXF-iBVM49zLuUknBB-s.jpg

20240625152413front1_0_3384202_FsGg8i4S9nGOsphJR9m_sLcy_FYM.jpg

嘟嘟的芒果 · 发表于 2024-6-25 23:55

看准确率了

搜索
热门搜索：东华能源共青河新城学校房产茂名高铁经济数据

[今日关注] 首个AI高考全卷评测结果出分，大模型“考生”表现如何？