外国高三学生创建AI评测网站:让AI在《我的世界》里“一决高下”
创始人
2025-03-22 17:14:35
0

IT之家 3 月 22 日消息,由于传统 AI 基准测试方法难以全面评估模型能力,AI 开发者正尝试更具创意的测试方式,其中一种测试手段,则是微软沙盒建造游戏《我的世界》。

据外媒 TechCrunch 报道,名为阿迪・辛格(Adi Singh)的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark(简称 MC-Bench),让 AI 模型在《我的世界》中同台竞技,基于相同的提示生成建筑作品。用户可以为自己认为更出色的作品投票,而投票结束后才会显示具体是哪款 AI 生成了哪些作品。

其认为选择《我的世界》的意义并不在于游戏本身,而在于它的知名度。即便没玩过这款游戏,人们依然能分辨哪个方块状的菠萝更逼真。“《我的世界》能让 AI 发展的进步更加直观,大家对《我的世界》的风格和视觉效果都很熟悉。”

目前,MC-Bench 的志愿贡献者共有 8 人。IT之家从 MC-Bench 网站的信息获悉,Anthropic、谷歌、OpenAI 和阿里巴巴为该项目提供了 AI 计算资源支持,但并未直接参与开发。

“目前,我们的测试仍然较为基础,主要用于观察 AI 从 GPT-3 时代至今的进步。但未来,我们或许会拓展到更复杂的目标导向任务和长期规划能力评估,游戏或许是测试 AI 智能体推理能力的一种理想方式 —— 相比现实世界,它更安全,也更可控。”

严格来说,MC-Bench 仍属于编程基准测试,因为 AI 需要编写代码来生成建筑,例如“霜雪人”或“热带风情的海滨小屋”。

相较于分析代码,大多数用户更容易通过作品本身来评判 AI 的表现。至于这些测试结果是否能真正衡量 AI 的实际应用价值,仍有待商榷。但辛格认为,这些数据仍然具备重要参考意义。“MC-Bench 当前的排行榜与我的实际使用体验高度吻合,而这在许多传统文本基准测试中并不常见。或许,它能帮助 AI 开发者判断自己是否走在正确的方向上。”

相关内容

热门资讯

华创证券:夸克“AI 超级框”... 3月24日消息,华创证券发布最新研究报告指出,夸克All in One的“AI超级框”重塑AI应用交...
小米AI眼镜突传消息!多股涨停 值得注意的是,此前多次有爆料称小米将打造AI眼镜,预计在3月至4月发布。 3月24日,AI眼镜板块领...
龙虎榜 |方正电机上涨9.99... 3月18日,方正电机上涨9.99%登上龙虎榜,日涨幅偏离值达7%,知名游资买入。 龙虎榜显示,买入前...
DeepSeek引爆“AI大脑... 25年以来,科创板AI企业掀起技术风暴!量子计算“九章三号”破解亿亿级难题,国产算力站上全球之巅;G...
小米公布AI服务调动方法专利 大象新闻记者 王瑞麟 天眼查财产线索信息显示,近日,北京小米移动软件有限公司申请的“人工智能AI服务...
发力AI智能体!第四范式升级为... 人工智能企业第四范式升级成为范式集团,开始布局AI Agent(智能体)。 3月18日,第四范式(0...
原创 李... 近日,李嘉诚拟向美国贝莱德财团出售43个港口。据媒体报道,双方已经谈妥了所有细节,贝莱德集团高层计划...
珍爱网回应闭店:全面核查整改,... 图片来源:视觉中国 3月24日,珍爱网发布《消费者权益保障工作声明》称,近日,个别合作商运营问题引发...
3月21日基金净值:前海开源沪... 证券之星消息,3月21日,前海开源沪港深优势精选混合A最新单位净值为1.53元,累计净值为2.45元...
俄称已控制库尔斯克州几乎所有定... 每经编辑:张锦河 据央视新闻,当地时间3月18日,俄罗斯武装部队总政治部副主任、“艾哈迈德”特种部队...