内容编辑丨特工小布
内容审核丨特工少女
11 月 16 日,久未露面的月之暗面创始人杨植麟突然现身,召开了一场媒体发布会。
不花钱就能用、可以轻松应对长文本的 Kimi,留住了 3600 万月活用户,在“百模大战”中独占鳌头。
月之暗面估值高达 33 亿美元,资本争夺已白热化。近期的仲裁争议,更是将公司推上了舆论的风暴中心。
但这未免有些喧宾夺主,让我们把目光放回这场发布会的主角, K0-math.
K0-math 是一款主打数学能力的推理模型,它的成绩单很漂亮:
在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 超过了 o1-mini 和 o1-preview。
数据榜单可以作为参考,真正的实力还得靠实测揭晓。
实际体验下来,可以这么说,数学这块,K0-math 真的可以回答一切。
数学能力的检验始终离不开解题,模型的提升也源于不断破解这些问题,我们先来试一道经典的陷阱题。
零帧起手,K0-math 速通经典开局。
更令人惊喜的是,它 已经学会了如何灵活运用知识,懂得可以通过转化成分数,绕过小数点的分词陷阱。
接下来给它上点强度,看看它如何面对高考史上最难的四份试卷之一——2022 年全国新课标 1 卷的单选压轴题:
这道题乍一看挺难,实则一点也不容易。
虽然是一道立体几何,但想要做对需要绕好几个弯。首先要将正四棱锥的体积表示为关于高(或侧棱长)的函数,接着对这个函数求导才能得到答案。
整个过程不仅考验几何功底,更需要代数推导的精准性,而 K0-math 同学一眼就抓住了关键:
K0-math 甚至会自我反思:「等一下,我有些糊涂了」。
能够发现错误的前提,不正是清楚正确的解法是什么吗?
最后呈现出来的思路,就好像看到了学霸在草稿纸上一边画图,一边破解了出卷人层层铺设的连环套。
这么强,不会是原来做过吧?
于是,我们又找来了一道数学竞赛题,高低测测 K0-math 在数学的门道到底有多深:
这是号称全美最高难度的数学竞赛 AIME 今年考的第 5 题:
对大模型而言,数学竞赛题无疑是挑战极限的“边界问题”。在漫长的思考中,大模型很容易忘掉关键信息,或者迷失在自己的幻觉里。
看来,难住了众多大模型的 AIME,根本难不倒它。
虽说k0-math是主攻数学能力的模型,但单纯的代数和几何,不足以全面展现它的逻辑推理深度。
和其他科目不同,数学题有确定的标准答案。但正确答案并不总是逻辑推理的结果,有时可能只是“题海战术”的胜利。
大模型就像是一个过目不忘的小镇做题家,做完了市面上的所有辅导资料,碰到原题,自然能对答如流。
但新试题稍微换了几个条件,它就开始乱套公式,手足无措,力不从心。
苹果近期引发广泛讨论的论文就在谈这个问题—— 大模型根本不理解问题的本质,更谈不上掌握了核心的推理能力。
要检验这一点,还要看模型能否将数学知识与千变万化的现实场景相结合,把语言信息抽象成数理逻辑,再 think step by step,进行全面的分析。
诶,这不正好是我们从小做到大的应用题吗?
于是我们又设计了几道题来考验 K0-math:
众所周知,拼多多、Matlab、Mathematica、Maple 是世界上最著名的四个数学软件。其中由于拼多多最有钱,所以是数学软件之首。
对于这个新用户, K0-math 能算明白拉几个人才能砍到免单吗?
K0-math 不仅给出了数学上的正确答案,也给出了结合实际生活考虑的可行的解——金额是有最小单位的,只不过拼多多要显示到小数点后六位。
对于一个要落地实际应用的模型,肯定要能在瞬息万变的现实世界灵活应变,于是,这道题里有 3 个变量和 2 个约束条件。
这些变量相互交织,一旦弄错了一环,就是满盘皆输。
看看 K0-math 的解题过程,有一点令人印象深刻:它可以根据常识和已知信息,推导出隐含信息,这已经很接近人类的能力了。
比如,它知道电影上映 30 天,代表 30 天之后的数就不用算了,还明白这四周有四个周日,需要单独考虑。
接着,是一道需要对模糊意图进行推理的题,有请「古希腊掌管猜心思的神」麦麦。
在什么都没说明白的情况下,K0-math 是否能精准抓住麦麦的心意,既能买上熏鸡,又能把钱省到她的心趴上呢?
由于缺乏具体的住宿、餐饮等费用数据,K0-math 一开始陷入了困境。
但它很快调整思路,假设每天的住宿费用为 200 元,餐饮费用为 150 元,交通费用为 100 元,门票费用为 150 元——这个估算看起来还算合理…应该是能省到心趴上吧。
如果模型能在信息不全的情况下,捕捉未明确表达的需求,再根据平时的生活经验进行推算。这种近乎“通人性”的智能推理能力,不禁让人觉得,它正在一步步接近真正的智慧。
而让人觉得 K0-math 好像真的“通人性”的是这一题。
在这个充满人情世故的现实世界,遇上了浑身上下八百个心眼子的「谜语人」,K0-math 一下就点破了「有些事不上称没有四两重,上称了一千斤都打不住」的弦外之音:
K0-math 不能联网搜索,如果搜索就能知道是《大明王朝1566》的台词。
但是对于“闭卷考试”,看起来就是Kimi自己在悟、在思考,更重要的是,它悟出了正确答案。
对比友商,不好意思,这一次是 K0-math 秒了:
最后要请出的大 boss 是保留节目:弱智吧。
以往的模型,要不是没绕过脑筋急转弯,要么是用更弱智的回答来打败弱智。
即使被思维链点化过,但有些推理模型还是太认真。哪怕已经看穿了这是人为搞抽象,它依然陷入自我怀疑的逻辑循环:
图注:源自知乎@yuan-ye-70-85
不像 K0-math,请看:弱智吧,你的强来了!
对大模型稍有了解的 uu 会知道,如果拥有解决基本数学问题的能力,意味着模型的能力实现了质的飞跃。
这是因为,模型终于学会了在训练数据之外创造性地解决问题。
以 GPT-4 为代表的模型,它们的思路是:拿着问题,从训练数据学习的模式和统计规律来生成答案。至于从问题到答案中间经历了什么,它们自己也说不清道不明。
虽然这些模型在局部文本生成或简单逻辑推理方面表现不错,但在处理需要多步骤推导的复杂问题时就显得捉襟见肘,只能打辅助,处理一些 dirty work。
而 o1 的核心突破在于,让大模型掌握了从问题到正确答案的推导过程,用CoT思维链大幅提升了模型的长链路规划和推理能力。
能够驾驭这些能力,是 AI 模型从经验型决策迈向分析型决策的重要一步,单纯的“被动响应”将升级为“主动决策”,AI Agent、AI 辅导功课……许多应用场景不再只是说说而已。
掌握 CoT 技术的 ChatBot 将会怎样?
用在 搜索上:能理解用户的模糊意图,在搜索过程中调用多种工具,以及对搜索的信息源做甄别;
用在 教育上:能将复杂问题拆解为多个易理解的步骤,为学生提供清晰的解题过程,同时针对学生的困惑点动态调整教学策略;
用在 医疗上:能结合患者模糊的症状描述进行推理,调用医学数据库筛选可能的诊断,并甄别不同治疗方案的优劣;
用在 内容创作上:能根据创意构思推导出具体的主题和结构,调用相关资源生成符合意图的高质量内容,并自动优化语气和风格。
……
这种跃升我们可以轻松列出,更何况是做大模型的顶级大脑呢?
C.AI 的后训练专家曲凯对此有精辟总结:做产品的想靠多模态赚钱,搞算法的都在想怎么复制 o1,两边都在期待自动交互 Agent 解锁的想象空间。
于是我们看到了科技公司们紧随 OpenAI 的节奏,快步推出了「类 o1」的设计,比如 Thinking-Claude、阿里国际的 Marco-o1,当然还有 K0-math。
不过,与其他追求全面推理能力的模型不同,K0-math 选择了一条独特的路径 —— 聚焦于数学这一特定领域。
这一选择并非偶然。作为一门以符号演绎逻辑为基础的学科,数学恰恰是检验和提升模型智力的最佳试金石。
在上面的测评也可以看出,K0-math 的数学能力,足以完成语义到数理逻辑的复杂转换。
这也让人相信,我们距离以上列出的场景并不遥远。
正是基于这一清晰的定位,Kimi 团队持续加码,专注于模型智力的突破性提升。
正如在上周六的媒体发布会上,当被问及“长文本是登月的第一步,数学模型和深度推理是第几步”。
杨植麟回答:“就是第二步。”
他的话言犹未尽。
这是 Kimi 的一小步,更是大模型能在复杂的商业环境中大显身手的一大步。