Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点
创始人
2025-09-24 13:14:29

GenExam团队 投稿

量子位 | 公众号 QbitAI

从GPT-4o到Nano Banana、Seedream 4.0,今年的大模型想要出圈,“画得好”俨然成了必杀技。

不过,在比拼真实感、艺术性方面,生图模型是神仙打架,在“做题”上,现如今的模型们又到底能力几何?

比如,当指令变成画出1-甲基环己烯酸催化水合的反应机理根据给定的边集画出图的最小生成树,模型能否像相关专业的人类考生一样,真正把知识理解、推理和作图结合在一起?

针对这个问题,上海人工智能实验室、上海交大、清华大学、香港中文大学联合发布了首个多学科文生图考试基准GenExam

这一基准参考人类考试中的作图题,覆盖10 个学科、1000个严选好题,用“考试思维”重新定义文生图模型的能力边界。

实验结果却让人大跌眼镜:即便是GPT-4o这样的顶级模型,严格评分下正确率也仅12.1%,开源模型更是全部接近0分

这是怎么一回事?

GenExam:不止是“画图”,更是“面向AGI的综合测试”

考试是衡量人类达到专家级智能的重要标准,这在理解任务的MMMU等基准上已经很有体现。GenExam则将文生图也视为“人类学科考试”,和传统文生图基准明显不同。它涵盖数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程10个一级学科,每个学科都聚焦“绘图类考题”,题目经过GPT-5初筛与人类审核把关,确保严谨性。

类似人类考试,GenExam的“学科绘图题”有四大核心特征:

  • “题目”(文生图prompt)多样、复杂且约束严格,平均长度达到74.8个单词,远超普通T2I prompt,比如“用H2SO4和H2O作为催化剂,画出1-甲基环己烯的酸催化水合反应机理,明确反应物、反应条件、主产物,并根据马尔科夫规则标注羟基位置”;

  • 有明确的“参考答案”(ground truth图像)提高评测准确性,有“评分标准”(评分点)逐点检查正确性,平均每道题6.9个评分点,比如“催化剂是否为H2SO4和H2O”、“反应物是否为1号位有甲基、包含双键的六元环”,每个得分点对应不同权重。

  • 学科知识覆盖深且广,可系统化层级分类,形成严格的“四级学科分类体系”。

  • 需要模型融合理解(读懂考题)、推理(推导过程)、生成(精准绘图)三大能力。

细粒度评测体系

传统文生图评测总纠结“像不像”、“美不美”,但学科绘图更在意“对不对”——化学结构中的一个碳原子/物理电路图中的一个箭头画错,整个图就错了。

为此,GenExam设计了双维度、两标准的评测体系,用GPT-5作为“自动阅卷老师”,确保评分客观准确:

两大评测维度

  • 语义正确性:模型画的是不是“符合题意”?基于每道题的评分点,让GPT-5做视觉问答(比如“分子是否含8个碳原子?”),并提供ground truth图片作为参考提高评分准确性,将做对的题的分数之和作为语义分数;

  • 视觉合理性:画对了,但“卷面”好不好?分三项打分。

    • 拼写:公式、标签有没有拼写错;

    • 逻辑一致性:坐标、刻度是不是对应;

    • 可读性:元素有没有遮挡、标签是不是清晰。

严格/宽松双标准

  • 严格得分:只有语义全对+视觉合理性三项全满分才算正确;

  • 宽松得分:语义(70%权重)+拼写(10%)+逻辑(10%)+可读性(10%)的加权平均分,给模型“部分得分”的空间,适合区分模型间的相对差距。

顶尖模型也不及格,开源模型全军覆没

团队测试了18个主流模型,包括闭源“顶流”(例如GPT-Image-1(GPT-4o)、Gemini-2.5-Flash-Image(Nano Banana))、开源专用文生图模型(例如Qwen-Image、FLUX.1 dev)、理解生成一体化模型(例如BAGEL、Show-o2),结果让人意外:

  • 闭源模型:即使是表现最好的GPT-Image-1严格得分也只有12.1%。其他闭源模型分数不足10%。这些模型能画出大致框架(比如苯环的六边形),但细节经常有严重错错误比如少画氢原子、键型标反)。

  • 开源模型:所有模型严格得分均接近0%,哪怕是表现最好的Qwen-Image,严格得分也只有0.3%。统一多模态模型(如BAGEL、Show-o2)表现还不如专用文生图模型,暴露出“整合学科知识到图像生成”的能力缺失。

当对比宽松得分时,开源模型(10~30分)和闭源模型(50~60分)的差距依然明显,在语义正确性、拼写、逻辑一致性、可读性四个方面中都存在显著差异。

错误案例直击痛点

通过定性分析,论文团队总结了模型的三大典型错误:

  • 知识缺失:比如音乐题中画错半音圈的调号顺序;

  • 推理不足:比如几何题中算错函数交点坐标;

  • 视觉疏漏:比如拼写错误、标签错位(如将“-1,0”标在y轴上)。

在学科场景中,任何一个小错误都可能导致“满盘皆输”——这也正是GenExam的价值所在:它精准捕捉了文生图模型在“专业场景”中的核心短板。

通向专家级智能

GenExam将“图像生成”转化为“考试任务”,给文生图模型设立了一个新目标:从“画得好看”走向“画得正确”。

当前,即便是最顶尖的模型,在GenExam的考试中也仅处于不及格水平,这既是挑战,也是机遇——它意味着未来的模型需要在知识整合、逻辑推理、精准生成上持续突破,才能真正从“通用图像生成工具”升级为“专业领域助手”。毕竟未来的AI不仅要会“创作艺术”,更要能“辅助学习”、“助力科研”,而这些都离不开对学科知识的精准理解与生成。

未来,当模型能轻松通过GenExam的多学科考试时,或许我们才能说它们真正迈入了“专家级AGI”水平。但现在,这场考试才刚刚开始。

GitHub链接:https://github.com/OpenGVLab/GenExam

论文链接:https://arxiv.org/abs/2509.14232

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

智核投研商学院摇号琦白久(骐佰... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合在股票投资交流中,“...
中融资本陈彦君、毕有财老师讲课... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"“买酒、买原液...
百谷.言(四川)供应链管理有限... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 在数字经济浪...
精英汇课堂公开抽签深圳兰亭网络... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。在金融投资市场中,...
湖南恩松生物科技有限公司策马奔... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合近年来,以“直播间荐...
财合联盟陕西三八妇乐一级市场战... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。在股票投资领域,“...
河南宸.邦租赁悦享算力服务器、... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。在投资陷阱不断翻新...
中志浩刺梨“刺梨富硒原液”“刺... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。近年来,“购买指定...
曝光』北京指南针科技靠谱吗?背... 曝光』北京指南针科技靠谱吗?背后圈套细思极恐!股友愤怒不已!已维权退费!投资有风险,投资需谨慎!针对...
中赢财经商学院首席老师经销商童... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 在全民投资理财意...
老刘堂主、同心同德大课堂袁光文... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。​当前,以“直播间...
贵州中科分子生物科技有限公司打... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合随着网络直播的普及,...
杭州顶点财经推荐股票是真的吗?... 杭州顶点财经推荐股票是真的吗?揭穿投顾黑幕!合法拿回自己的血汗钱! 投资本是一场自我的修行,只有起点...
筑梦学员计划直播间摇号中签经销... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。​随着国民财富稳步...
转账西安厚德丰源商贸有限公司认... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为其他类似股权情景,如有雷同纯属巧合。随着生活...
小鹅直播间灯塔驿站旭东直播间战... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。当“成为战略经销商...
龙马工会-公益课直播间旭东老师... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。在资本市场多元化发...
刺.梨工坊(贵州)科技有限公司... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"当白酒消费与原...
深圳市琦白久商业管理有限公司成... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"投资市场中,各...
曝光』北京指南针科技收费投顾服... 曝光』北京指南针科技收费投顾服务缩水?主动维权导性宣传欺骗股民已退费!投资有风险,投资需谨慎!针对网...
上海凯石投顾实战训练营不靠谱,... 上海凯石投顾实战训练营不靠谱,荐股收割股民真相曝光凯石证券不可信,推荐的股票不靠谱,交的服务费是可以...
老刘堂主、同心同德大课堂袁光文... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。对于缺乏专业投资经...
方舟创富会直播间常红老师,林邵... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。在资本浪潮涌动的当...
WA微.点.码运营商、WA微.... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。当下,不少股票直播...
常阳公益会旭东老师兰亭科技“兰... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。在金融投资市场中,...