很多人不知道，本平台用难哭考生的2025北京中考测了7款大模型的真实水平

请记住，

引言：2025北京中考落下帷幕，11.05万名考生顺利完考。

午点新闻财经：

这是北京新一轮中考改革的首次落地，考试时间从往年的三天压缩至了两天。最大的变化有两个，一是总分值由670分降至510分，二是道德与法治采取开卷考试形式。

总的来说，

总分降低意味着每一分的价值更高，高分段竞争可能更激烈。同时，各学科命题会更注重考查学生的核心素养和关键能力。

比如数学降低了便捷题的占比，题型创新性强（如新函数、圆综题难度大），区分度提升。语文的试题则特别体现了考生对语言文字基本功、基本的感受能力的考查，引导学生在情境当中去思考如何去运用语言文字来排除困扰。

这你可能没想到，

从考生网友的反馈来看，三个字，难哭了。

午点新闻行业评论：

以今年的语文作文为例，两道题目二选一，作文一聚焦科学与健康方向——《这样生活更健康》，作文二则强调科学素养与生活实践——《一堂科学课》，题目看着便捷，但想写出彩并不容易，也难怪有考生直呼：“这题我熟，但写起来太难了！”

请记住，

看到这儿，相信很多人和我一样有一个疑问，如果把当下各种主流AI大模型当作中考考生，它们到底能答出怎样一份答卷？

据业内人士透露，

大家更好奇的是，作为检验初中学业水平的标尺，以当下大模型的水准，是否是传说中的学霸尖子生呢。

值得注意的是，

【7款大模型实战2025北京中考，这才是它们的真实水平】

很多人不知道，

先介绍一下这次大模型中考的参赛选手和测试方法。

反过来看，

考题：

2025北京中考，语文作文（题目二）、英语作文（题目二）、数学全卷。

简而言之，

考生名单：

可能你也遇到过，

DeepSeek、字节豆包、讯飞星火、通义千问、腾讯混元、文心一言、GPT。

挑选这7位，基本都是大家最常用到的大模型，过于小众的、没有代表性的，不在此次考察范围内。

午点新闻认为：

测试方法：

午点新闻报导：

为了确保公平，所有参与测试大模型考生统一关闭联网用途，打开深度推理。

不妨想一想，

语文作文、英语作文以文本形式提问。其中，语文作文评分特邀前人大附中分校语文名师、中考命题高级研究员李豪，以及中考语文资深教研专家、曾参与多所重点中学语文备考方案制定的重点校特邀讲师金宇佳参与评分，由这两位资深语文教育专家分别进行打分，取两位老师的平均分作为最终评分的形式进行实测。

总的来说，

英语作文评分特邀原咸宁市中考命题专家兼英语学科命题组长张扬，以及10年以上英语教研工作经验、多次担任北京中考英语阅卷人的石杨两位专家打分，同样取平均分。

简而言之，

数学题目提问采用图片扫描和LaTeX格式两种评判方法。判分蓝莓市场官网与人类考生统一标准：挑选题和填空题只看最终结果，不考虑模型解题过程是否准确；解答题分两种情况，普通解答题采用的是结果分，证明题则是按流程给分。

值得注意的是，

大家先来看看这七款大模型，三科测试的最终结果：

综上所述，

这里解释一下，语文作文和英语作文，大家都挑选题目二来进行考试。

尽管如此，

2025年北京中考语文作文的分数为40分。考生需要在两个题目中挑选一个，要求作文资料积极向上，字数在600-800之间。

午点新闻：

语文作文第二道是《一堂科学课》，首先大模型跟这个选题更相关，相较第一个生活类话题《这样生活更健康》，更加考验大模型的思辨能力，跟容易考出区分度。

必须指出的是，

2025年北京中考英语作文的分数为10分。考生需要在两个题目中挑选一个，完成一篇不少于50词的英语文段写作

午点新闻：

英语作文题目一有图表，这就需要考察OCR能力，但各家大模型的OCR有自研的，也有第三方的，无法统一标准，会对结果有影响。因此统一挑选没有图表的题目二来进行作答。

尽管如此，

数学试卷鉴于涉及到一些公式识别，特别是多行的，以及图形等，这就很考验大模型的文档信息分析识别与提取，因此此次采用两种方法进行测试，一种是直接用图片扫描，另一种是用LaTeX格式。

更重要的是，

接下来大家仔细看看单科的成绩：

一、数学：

尤其值得一提的是，

小结：从数学成绩来看，以图片格式扫描数学试卷，一题一题来测试，讯飞星火、豆包、GPT三款大模型的分数排名前三，都在85分以上，而通义千问、文心一言、Deepseek三款大模型排名靠后，分别为73分、68分、63分。能拿到这个成绩并不便捷，此前考生们普遍反映这届数学“文字量太大了根本就写不完”。

午点新闻：

值得注意的是，在图片格式下，寄予厚望的Deepeek直接就宣布“出局”了，因它存在图片识别困扰，无法正确识别出数学算式，因此导致得分最低。

这你可能没想到，

在解答挑选、填空两种客观题方面，除了Deepeek填空题得10分外，各家大模型的差别都不大，得分区间在14-16分。其中讯飞星火X1两项都拿下满分，而得分较低的通义千问、文心一言在填空方面却很擅长，也拿下满分。

反过来看，

不过，拉开几款大模型分数的主要是解答题这类主观题。

站在用户角度来说，

测试结果显示，满分68分的解答题，Deepseek仅拿下39分，而豆包得分59分，足足20分的差距。

事实上，

在整式运算、解不等式组、分式化简求值、方程应用和函数困扰方面，各家大模型都表现良好，得分率较高。

午点新闻消息：

而在涉及图片信息理解的几何证明与计算、统计图表、函数图象困扰上，各家大模型均出现丢分情况。这是鉴于大模型在处理图像题时，常因无法准确识别图形元素或理解题目中的视觉暗示，例如，涉及几何证明、动态变化等需要空间想象能力的题目，大模型的表现尤为挣扎。

在LaTeX格式下，除GPT外，其他几款大模型的分数差距不大，得分在78分-89分之间。从整体排名看，讯飞星火、Deepseek、腾讯混元排名前三，文心一言、GPT排名靠后。

值得一提的是，大家此次测试采用的是GPT-o3版本，该模型在LaTeX格式下图片缺失，所给答案错误或无结果，导致得分较低，而附带试题图片和LaTeX格式则会输出英文解题流程，答案仍不正确，整体分值明显下降，从86分降为63分。

午点新闻播报

而Deepseek在LaTeX格式输入下能正确理解数学算式，整体分值显著提升，分数从63分变为84分。

但实际上，

其余5款大模型无论采用图片格式，还是LaTeX格式，客观题和主观题作答情况和丢分点基本保持一致，这也是各家大模型今后要关注的优化重点。

午点新闻快讯：

二、语文作文：

午点新闻认为：

小结：从语文作文最终成绩来看，7个主流大模型考生的最低分也有32.5分，最高分甚至来到了37.5分，换算成百分制的话在81-94分之间，平均分接近86分，表现相当不错。从7位考生的解题思路与最终成文也能看出，当下AI大模型已具备非常强的“成品”交付能力，面对明确的写作指令，各平台均能精准把握需求，输出逻辑自洽、主题聚焦的资料，有效规避了偏题跑题等基础失误。同时，能融入模拟人类思考的个性化观点，降低了AI 生成资料的机械感。

当然，在细节雕琢与文本质感层面，各模型的差异性逐渐显现。

以 GPT为代表的海外模型，尽管拥有强大的语言处理能力，但在中文语境适配性上仍有提升空间，虽然作文主题明确，结构完整，语言流畅，但依然存在立意较浅、资料有点脱离实际、真情实感不足、部分段落重复拖沓等困扰。

腾讯混元、文心一言、通义千问都能符合题意，中心明确，紧扣“科学课”主题，但均存在情感表达流于表面、个别比喻不够精准、叙述显得空泛，真情实感不足、部分段落重复拖沓、叙述不够完整等待改善的困扰，在资料立意上还有待拔高，属于二类卷考生的中上表现。

相较之下，豆包、DeepSeek展现出更出色的创作实力，均达到了一类卷的水准，但距离炉火纯青还稍差火候。拿到最高37.5分的讯飞星火，则凭借深刻独到的立意、流畅生动的语言脱颖而出，在本次评测中摘得桂冠。两位专家在点评中给予了高度评价——科学观察与情感升华浑然天成，立意高度与现场感尤为突出，堪称一类卷上乘之作。

以下为各大模型生成的语文作文过程：

讯飞星火：

但实际上，

DeepSeek：

有分析指出，

豆包：

事实上，

通义千问：

文心一言：

反过来看，

GPT：

从某种意义上讲，

腾讯混元：

据业内人士透露，

三、英语作文：

总的来说，

小结：英语作文最终成绩显示，7个主流大模型考生中最低分为7分，最高分甚至拿到满分10分，若换算为百分制，分数区间在70-100分，平均分超过84分，虽表现十分亮眼，但平均分稍逊于语文，可见绝大多数的国产大模型还是更擅长中文写作。

通常情况下，

此外，7-10分的落差也能看出成绩差异很大，貌似有大模型考生出现了“偏科”。

令人惊讶的是，

其中腾讯混元生成的作文被定义为良好级别，其结构完整，语言表意准确，但资料没有独特的细节，缺乏更难办的句式、高级词汇，给人稍显单一的感觉。若篇章衔接和语言表达更多样化、更高级化，有望向卓越级别靠拢。

简而言之，

令人意外的是，来自海外的GPT并未因“母语”优势取得亮眼的成绩，在该测试中它仅拿到7.5分。虽然作文覆盖全部要点，逻辑清晰也清晰，但“论证较便捷”，每个点并未展开更深入的解释；同时句式以便捷句为主，缺乏主从复合句和特殊句式。

与其相反的是，

此外，今年大火的DeepSeek虽有地道表达和亮点，但阐述理由时出现“硬伤”部分没有和设想部分完全闭环，逻辑不够紧密。

然而，

作为对比，通义千问、文心一言在英语写作中都拿到了9分的高水准，但文心一言被评为卓越档，通义千问则落档为良好。两款模型在要点上都表现齐全，但亦有不足之处。其中通义千问出现段落不分明，逻辑层次模糊；文心一言则部分句式结构相对难办，不利于初中生理解。相比之下，文心一言的缺点显得“不致命”。

午点新闻报导：

而豆包也出现了同样的困扰，豆包生成的作文部分词句超出初中生水平，如果做为范文，不具有普适性。虽然豆包得分8.5分，但同样被评为了卓越档，由此可见，得分的高低并不是被定档的唯一因素。

概括一下，

7个大模型测试中，讯飞星火在英语写作上拿到了满分10分，两位评委在点评中给予了高度评价，资料完全覆盖题目要求要点，既写出了对未来图书馆展望的设计，又生动阐述了其关键的用途意义，细节丰富。无论是篇章结构，还是语言表达上，都恰到好处。

午点新闻行业评论：

以下为各大模型生成的英语作文过程：

讯飞星火：

令人惊讶的是，

DeepSeek：

其实，

豆包：

尽管如此，

通义千问：

午点新闻财经：

文心一言：

午点新闻消息：

GPT：

来自午点新闻官网：

腾讯混元：

据业内人士透露，

总结：

说到底，

这次“大模型中考”中，当AI们在作文里讲述“科学课”的故事，用英文以第一人称写出切实建议，在数学题中推导公式，大家看到的不仅是代码与算法的进化，更是福汇外汇平台人类对智慧边界的不断探索。

午点新闻报导：

那些接近满分的作文、严谨的数学推导，证明大模型早已不是便捷的文字搬运工，它们正以惊人的速度学习、成长，成为大家生活中越来越可靠的数字伙伴。

午点新闻消息：

也再一次解释，学生们也需要从死记硬背和机械刷题转向主动理解、思考与探究，注重知识的融会贯通与灵活运用，形成学科融合的学习思维。

但也别忘了，再精妙的算法也写不出少年们在考场上的紧张心跳，再强大的模型也复制不了人类灵光乍现的独特创意。大模型的“高分答卷”，更像是递给大家的一张邀请函，邀请大家重新思考学习的意义，在技术浪潮中守住独立思考的锋芒。

这你可能没想到，

未来，人类与AI或许会像并肩作战的队友，用各自的优势，共同书写出更精彩的答案。这场中考不是终点，而是大家与智能时代携手同行的新起点。

午点新闻

扫一扫打开手机网站

微信扫一扫关注我们

很多人不知道，本平台用难哭考生的2025北京中考测了7款大模型的真实水平

作者: goskdik

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: goskdik

为您推荐

张朝阳对话诺贝尔奖得主：AI被过度炒作

来自午点新闻官网：Perplexity CEO称赞月之暗​面，希​望基于Kimi K2进行后训练

午点新闻快讯：ChatGPT破案，成功揭露500万美元遗产欺诈

必须指出的是，AI​时​代的华人打工皇帝：​年薪2亿美元​

消息称问界M8纯电版汽车本月“可能”开启小定

有分析指出，阿维塔总裁陈卓谈小米雷军跨界造车：对汽车营销形成降维打击，CMO可能将失业

联系我们

微信扫一扫关注我们

来自午点新闻官网：Perplexity CEO称赞月之暗面，希望基于Kimi K2进行后训练

必须指出的是，AI时代的华人打工皇帝：年薪2亿美元