谷歌、OpenAI等巨头用《精灵宝可梦》评估AI性能_科学探索

谷歌、OpenAI等巨头用《精灵宝可梦》评估AI性能

创始人

2026-01-25 17:19:29

IT之家 1 月 25 日消息，据科技媒体 Tom's Hardware 今天报道，当今时代我们有无数种跑分测试和评测方法来衡量 AI 的聪明程度与能力，但最近一种相对小众的测试方法也在 AI 圈内引发关注。

目前，谷歌、OpenAI 和 Anthropic 等 AI 巨头正在让自家模型游玩经典的《精灵宝可梦》系列游戏，以此来评估 AI 性能表现。

Anthropic 公司 AI 部门负责人 David Hershey 对此表示：“《精灵宝可梦》之所以能吸引机器学习社区关注，是因为它不像《Pong》等简单游戏那样受限。这种游戏对电脑程序来说非常具有挑战性”。

Hershey 从去年开始在 Twitch 平台进行直播，每天的日常就是用公司自产模型 Claude 玩《精灵宝可梦》。这名负责人平时的工作就是帮助客户部署 AI，因此他开直播本质上也是在测试模型。

这名负责人给自家 AI 直播游戏的做法也启发了不少自由开发者，他们也陆续搞了“Gemini 玩《宝可梦》”“GPT 玩《宝可梦》”等类似的直播节目。

后来，这些直播甚至被谷歌和 OpenAI 注意到，开发团队有时还会客串直播间亲自调整模型参数，在官方力量注入下，Gemini 和 GPT 已经成功通关了 Gam Boy 时代的《宝可梦蓝》，目前已在挑战续作；而 Claude 至今还没打通任何一个版本。

至于为何要用《宝可梦》评估 AI 性能？Hershey 对此解释道：“因为它给我们提供了直观的方法观察模型表现，还能用量化指标评估性能”。

通常来讲，玩家在《宝可梦》系列游戏中需要升级、训练已有 / 刚抓的宝可梦，还要打败道馆馆主来捕捉新的宝可梦。这种游戏流程并非线性，而是充满着判断和取舍。

而且，玩家还要经常在游戏中做出选择：是先冒险挑战强大的训练家以获取珍稀宝可梦，还是稳扎稳打造出一支实力均衡的队伍。

显然，人类非常擅长做此类决策，这也是游戏的乐趣所在，但对于 AI 来说，这是一场关乎逻辑推理、风险评估以及长期规划能力的综合考验。

因此研究人员会深入剖析 AI 在游戏里的决策方式，深入理解模型的能力边界。

Hershey 还会将 AI 玩《宝可梦》的结果分享给客户以改进控制框架（IT之家注：harness），帮助他们提升算力使用效率，让模型更高效运转。

方法宝可梦巨头模型直播 Hershey 精灵 OpenAI 游戏评估精灵宝可梦谷歌

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

上一篇：比利时调查“利用AI视频冒充王室骗钱”团伙

下一篇：哥本哈根大学新发现：AI事实核查中，证据比解释更重要

热门资讯

刺梨工坊(贵州)科技有限公司股... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。如今不少投资者习...

深圳中酒并购大唐酒业签署合同战... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 投资市场的魅...

贵州创建腾飞生物科技有限公司股... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"随着资本市场的...

中志浩刺梨产业开发(贵州)有限... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 投资路上，信...

财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 投资路上，信...

财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 投资市场的魅...

中志浩刺梨产业开发(贵州)有限... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合随着线上炒股交流的普...

江苏虞姬农业科技有限公司买酒送... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。当前，以“直播间...

四川严仙道酒业有限公司买酒送原... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。如果您近期看过财...

财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 投资路上，信...

颐和(深圳)品牌运营买酒送原始... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。当下，“购买指定...

贵州刺梨工坊科技买酒送原始股上... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 投资路上，信...

智核投研商学院周聪老师推荐琦白... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 在全民理财意...

广东聚沃贸易有限公司买酒送原始... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。如今不少投资者习...

国英百谷言(四川)供应链管理有... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合随着线上炒股交流的普...

国威酒业并购深圳迎宾品牌买酒送... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为其他类似股权情景，如有雷同纯属巧合。当下，...

四川常阳工会直播间旭东老师讲课... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。如今金融诈骗套路不...

智核投研商学院周聪老师推荐琦白... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。如果您近期看过财...

深圳迎宾品牌发展签署贵州迎宾酒... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"随着资本市场的...

贵州创建腾飞生物科技有限公司股... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 投资路上，信...

华兴数字经济研究院刘宇峰老师贵... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"随着资本市场的...

小鹅通直播间灯塔驿站旭东老师摇... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。在股票投资领域，...

四川严仙道酒业有限公司买酒送原... 本文旨在普及投资风险知识，做好大众防骗教育，不针对任何企业与机构。全文案例均为虚拟模拟场景，仅供反诈...

华兴数字经济研究院刘宇峰老师贵... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为其他类似股权情景，如有雷同纯属巧合。当下，...

中志浩刺梨产业开发(贵州)有限... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。如今金融诈骗套路不...

谷歌、OpenAI等巨头用《精灵宝可梦》评估AI性能

相关内容

热门资讯