数学这块，K0-math 真的可以回答一切_综合知识

数学这块，K0-math 真的可以回答一切

创始人

2024-11-26 17:00:55

内容编辑丨特工小布

内容审核丨特工少女

11 月 16 日，久未露面的月之暗面创始人杨植麟突然现身，召开了一场媒体发布会。

不花钱就能用、可以轻松应对长文本的 Kimi，留住了 3600 万月活用户，在“百模大战”中独占鳌头。

月之暗面估值高达 33 亿美元，资本争夺已白热化。近期的仲裁争议，更是将公司推上了舆论的风暴中心。

但这未免有些喧宾夺主，让我们把目光放回这场发布会的主角， K0-math.

K0-math 是一款主打数学能力的推理模型，它的成绩单很漂亮：

在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中，k0-math 超过了 o1-mini 和 o1-preview。

数据榜单可以作为参考，真正的实力还得靠实测揭晓。

实际体验下来，可以这么说，数学这块，K0-math 真的可以回答一切。

数学能力的检验始终离不开解题，模型的提升也源于不断破解这些问题，我们先来试一道经典的陷阱题。

零帧起手，K0-math 速通经典开局。

更令人惊喜的是，它 已经学会了如何灵活运用知识，懂得可以通过转化成分数，绕过小数点的分词陷阱。

接下来给它上点强度，看看它如何面对高考史上最难的四份试卷之一——2022 年全国新课标 1 卷的单选压轴题：

这道题乍一看挺难，实则一点也不容易。

虽然是一道立体几何，但想要做对需要绕好几个弯。首先要将正四棱锥的体积表示为关于高（或侧棱长）的函数，接着对这个函数求导才能得到答案。

整个过程不仅考验几何功底，更需要代数推导的精准性，而 K0-math 同学一眼就抓住了关键：

K0-math 甚至会自我反思：「等一下，我有些糊涂了」。

能够发现错误的前提，不正是清楚正确的解法是什么吗？

最后呈现出来的思路，就好像看到了学霸在草稿纸上一边画图，一边破解了出卷人层层铺设的连环套。

这么强，不会是原来做过吧？

于是，我们又找来了一道数学竞赛题，高低测测 K0-math 在数学的门道到底有多深：

这是号称全美最高难度的数学竞赛 AIME 今年考的第 5 题：

对大模型而言，数学竞赛题无疑是挑战极限的“边界问题”。在漫长的思考中，大模型很容易忘掉关键信息，或者迷失在自己的幻觉里。

看来，难住了众多大模型的 AIME，根本难不倒它。

虽说k0-math是主攻数学能力的模型，但单纯的代数和几何，不足以全面展现它的逻辑推理深度。

和其他科目不同，数学题有确定的标准答案。但正确答案并不总是逻辑推理的结果，有时可能只是“题海战术”的胜利。

大模型就像是一个过目不忘的小镇做题家，做完了市面上的所有辅导资料，碰到原题，自然能对答如流。

但新试题稍微换了几个条件，它就开始乱套公式，手足无措，力不从心。

苹果近期引发广泛讨论的论文就在谈这个问题—— 大模型根本不理解问题的本质，更谈不上掌握了核心的推理能力。

要检验这一点，还要看模型能否将数学知识与千变万化的现实场景相结合，把语言信息抽象成数理逻辑，再 think step by step，进行全面的分析。

诶，这不正好是我们从小做到大的应用题吗？

于是我们又设计了几道题来考验 K0-math：

众所周知，拼多多、Matlab、Mathematica、Maple 是世界上最著名的四个数学软件。其中由于拼多多最有钱，所以是数学软件之首。

对于这个新用户， K0-math 能算明白拉几个人才能砍到免单吗？

K0-math 不仅给出了数学上的正确答案，也给出了结合实际生活考虑的可行的解——金额是有最小单位的，只不过拼多多要显示到小数点后六位。

对于一个要落地实际应用的模型，肯定要能在瞬息万变的现实世界灵活应变，于是，这道题里有 3 个变量和 2 个约束条件。

这些变量相互交织，一旦弄错了一环，就是满盘皆输。

看看 K0-math 的解题过程，有一点令人印象深刻：它可以根据常识和已知信息，推导出隐含信息，这已经很接近人类的能力了。

比如，它知道电影上映 30 天，代表 30 天之后的数就不用算了，还明白这四周有四个周日，需要单独考虑。

接着，是一道需要对模糊意图进行推理的题，有请「古希腊掌管猜心思的神」麦麦。

在什么都没说明白的情况下，K0-math 是否能精准抓住麦麦的心意，既能买上熏鸡，又能把钱省到她的心趴上呢？

由于缺乏具体的住宿、餐饮等费用数据，K0-math 一开始陷入了困境。

但它很快调整思路，假设每天的住宿费用为 200 元，餐饮费用为 150 元，交通费用为 100 元，门票费用为 150 元——这个估算看起来还算合理…应该是能省到心趴上吧。

如果模型能在信息不全的情况下，捕捉未明确表达的需求，再根据平时的生活经验进行推算。这种近乎“通人性”的智能推理能力，不禁让人觉得，它正在一步步接近真正的智慧。

而让人觉得 K0-math 好像真的“通人性”的是这一题。

在这个充满人情世故的现实世界，遇上了浑身上下八百个心眼子的「谜语人」，K0-math 一下就点破了「有些事不上称没有四两重，上称了一千斤都打不住」的弦外之音：

K0-math 不能联网搜索，如果搜索就能知道是《大明王朝1566》的台词。

但是对于“闭卷考试”，看起来就是Kimi自己在悟、在思考，更重要的是，它悟出了正确答案。

对比友商，不好意思，这一次是 K0-math 秒了：

最后要请出的大 boss 是保留节目：弱智吧。

以往的模型，要不是没绕过脑筋急转弯，要么是用更弱智的回答来打败弱智。

即使被思维链点化过，但有些推理模型还是太认真。哪怕已经看穿了这是人为搞抽象，它依然陷入自我怀疑的逻辑循环：

图注：源自知乎@yuan-ye-70-85

不像 K0-math，请看：弱智吧，你的强来了！

对大模型稍有了解的 uu 会知道，如果拥有解决基本数学问题的能力，意味着模型的能力实现了质的飞跃。

这是因为，模型终于学会了在训练数据之外创造性地解决问题。

以 GPT-4 为代表的模型，它们的思路是：拿着问题，从训练数据学习的模式和统计规律来生成答案。至于从问题到答案中间经历了什么，它们自己也说不清道不明。

虽然这些模型在局部文本生成或简单逻辑推理方面表现不错,但在处理需要多步骤推导的复杂问题时就显得捉襟见肘，只能打辅助，处理一些 dirty work。

而 o1 的核心突破在于，让大模型掌握了从问题到正确答案的推导过程，用CoT思维链大幅提升了模型的长链路规划和推理能力。

能够驾驭这些能力，是 AI 模型从经验型决策迈向分析型决策的重要一步，单纯的“被动响应”将升级为“主动决策”，AI Agent、AI 辅导功课……许多应用场景不再只是说说而已。

掌握 CoT 技术的 ChatBot 将会怎样?

用在搜索上：能理解用户的模糊意图，在搜索过程中调用多种工具，以及对搜索的信息源做甄别；

用在教育上：能将复杂问题拆解为多个易理解的步骤，为学生提供清晰的解题过程，同时针对学生的困惑点动态调整教学策略；

用在医疗上：能结合患者模糊的症状描述进行推理，调用医学数据库筛选可能的诊断，并甄别不同治疗方案的优劣；

用在 内容创作上：能根据创意构思推导出具体的主题和结构，调用相关资源生成符合意图的高质量内容，并自动优化语气和风格。

……

这种跃升我们可以轻松列出，更何况是做大模型的顶级大脑呢？

C.AI 的后训练专家曲凯对此有精辟总结：做产品的想靠多模态赚钱，搞算法的都在想怎么复制 o1，两边都在期待自动交互 Agent 解锁的想象空间。

于是我们看到了科技公司们紧随 OpenAI 的节奏，快步推出了「类 o1」的设计，比如 Thinking-Claude、阿里国际的 Marco-o1，当然还有 K0-math。

不过，与其他追求全面推理能力的模型不同，K0-math 选择了一条独特的路径 —— 聚焦于数学这一特定领域。

这一选择并非偶然。作为一门以符号演绎逻辑为基础的学科，数学恰恰是检验和提升模型智力的最佳试金石。

在上面的测评也可以看出，K0-math 的数学能力，足以完成语义到数理逻辑的复杂转换。

这也让人相信，我们距离以上列出的场景并不遥远。

正是基于这一清晰的定位，Kimi 团队持续加码，专注于模型智力的突破性提升。

正如在上周六的媒体发布会上，当被问及“长文本是登月的第一步，数学模型和深度推理是第几步”。

杨植麟回答：“就是第二步。”

他的话言犹未尽。

这是 Kimi 的一小步，更是大模型能在复杂的商业环境中大显身手的一大步。

上一篇：走进美术馆，我们能收获什么呢？

下一篇：浪琴手表回收的热门款式有哪些？回收可以上门吗？

数学这块，K0-math 真的可以回答一切

相关内容

热门资讯