数学这块,K0-math 真的可以回答一切
创始人
2024-11-26 17:00:55

内容编辑丨特工小布

内容审核丨特工少女

11 月 16 日,久未露面的月之暗面创始人杨植麟突然现身,召开了一场媒体发布会。

不花钱就能用、可以轻松应对长文本的 Kimi,留住了 3600 万月活用户,在“百模大战”中独占鳌头。

月之暗面估值高达 33 亿美元,资本争夺已白热化。近期的仲裁争议,更是将公司推上了舆论的风暴中心。

但这未免有些喧宾夺主,让我们把目光放回这场发布会的主角, K0-math.

K0-math 是一款主打数学能力的推理模型,它的成绩单很漂亮:

在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 超过了 o1-mini 和 o1-preview。

数据榜单可以作为参考,真正的实力还得靠实测揭晓。

实际体验下来,可以这么说,数学这块,K0-math 真的可以回答一切。

数学能力的检验始终离不开解题,模型的提升也源于不断破解这些问题,我们先来试一道经典的陷阱题。

零帧起手,K0-math 速通经典开局。

更令人惊喜的是,它 已经学会了如何灵活运用知识,懂得可以通过转化成分数,绕过小数点的分词陷阱

接下来给它上点强度,看看它如何面对高考史上最难的四份试卷之一——2022 年全国新课标 1 卷的单选压轴题:

这道题乍一看挺难,实则一点也不容易。

虽然是一道立体几何,但想要做对需要绕好几个弯。首先要将正四棱锥的体积表示为关于高(或侧棱长)的函数,接着对这个函数求导才能得到答案。

整个过程不仅考验几何功底,更需要代数推导的精准性,而 K0-math 同学一眼就抓住了关键:

K0-math 甚至会自我反思:「等一下,我有些糊涂了」。

能够发现错误的前提,不正是清楚正确的解法是什么吗?

最后呈现出来的思路,就好像看到了学霸在草稿纸上一边画图,一边破解了出卷人层层铺设的连环套。

这么强,不会是原来做过吧?

于是,我们又找来了一道数学竞赛题,高低测测 K0-math 在数学的门道到底有多深:

这是号称全美最高难度的数学竞赛 AIME 今年考的第 5 题:

对大模型而言,数学竞赛题无疑是挑战极限的“边界问题”。在漫长的思考中,大模型很容易忘掉关键信息,或者迷失在自己的幻觉里。

看来,难住了众多大模型的 AIME,根本难不倒它。

虽说k0-math是主攻数学能力的模型,但单纯的代数和几何,不足以全面展现它的逻辑推理深度。

和其他科目不同,数学题有确定的标准答案。但正确答案并不总是逻辑推理的结果,有时可能只是“题海战术”的胜利。

大模型就像是一个过目不忘的小镇做题家,做完了市面上的所有辅导资料,碰到原题,自然能对答如流。

但新试题稍微换了几个条件,它就开始乱套公式,手足无措,力不从心。

苹果近期引发广泛讨论的论文就在谈这个问题—— 大模型根本不理解问题的本质,更谈不上掌握了核心的推理能力。

要检验这一点,还要看模型能否将数学知识与千变万化的现实场景相结合,把语言信息抽象成数理逻辑,再 think step by step,进行全面的分析。

诶,这不正好是我们从小做到大的应用题吗?

于是我们又设计了几道题来考验 K0-math:

众所周知,拼多多、Matlab、Mathematica、Maple 是世界上最著名的四个数学软件。其中由于拼多多最有钱,所以是数学软件之首。

对于这个新用户, K0-math 能算明白拉几个人才能砍到免单吗?

K0-math 不仅给出了数学上的正确答案,也给出了结合实际生活考虑的可行的解——金额是有最小单位的,只不过拼多多要显示到小数点后六位。

对于一个要落地实际应用的模型,肯定要能在瞬息万变的现实世界灵活应变,于是,这道题里有 3 个变量和 2 个约束条件。

这些变量相互交织,一旦弄错了一环,就是满盘皆输。

看看 K0-math 的解题过程,有一点令人印象深刻:它可以根据常识和已知信息,推导出隐含信息,这已经很接近人类的能力了。

比如,它知道电影上映 30 天,代表 30 天之后的数就不用算了,还明白这四周有四个周日,需要单独考虑。

接着,是一道需要对模糊意图进行推理的题,有请「古希腊掌管猜心思的神」麦麦。

在什么都没说明白的情况下,K0-math 是否能精准抓住麦麦的心意,既能买上熏鸡,又能把钱省到她的心趴上呢?

由于缺乏具体的住宿、餐饮等费用数据,K0-math 一开始陷入了困境。

但它很快调整思路,假设每天的住宿费用为 200 元,餐饮费用为 150 元,交通费用为 100 元,门票费用为 150 元——这个估算看起来还算合理…应该是能省到心趴上吧。

如果模型能在信息不全的情况下,捕捉未明确表达的需求,再根据平时的生活经验进行推算。这种近乎“通人性”的智能推理能力,不禁让人觉得,它正在一步步接近真正的智慧。

而让人觉得 K0-math 好像真的“通人性”的是这一题。

在这个充满人情世故的现实世界,遇上了浑身上下八百个心眼子的「谜语人」,K0-math 一下就点破了「有些事不上称没有四两重,上称了一千斤都打不住」的弦外之音:

K0-math 不能联网搜索,如果搜索就能知道是《大明王朝1566》的台词。

但是对于“闭卷考试”,看起来就是Kimi自己在悟、在思考,更重要的是,它悟出了正确答案。

对比友商,不好意思,这一次是 K0-math 秒了:

最后要请出的大 boss 是保留节目:弱智吧。

以往的模型,要不是没绕过脑筋急转弯,要么是用更弱智的回答来打败弱智。

即使被思维链点化过,但有些推理模型还是太认真。哪怕已经看穿了这是人为搞抽象,它依然陷入自我怀疑的逻辑循环:

图注:源自知乎@yuan-ye-70-85

不像 K0-math,请看:弱智吧,你的强来了!

对大模型稍有了解的 uu 会知道,如果拥有解决基本数学问题的能力,意味着模型的能力实现了质的飞跃。

这是因为,模型终于学会了在训练数据之外创造性地解决问题。

以 GPT-4 为代表的模型,它们的思路是:拿着问题,从训练数据学习的模式和统计规律来生成答案。至于从问题到答案中间经历了什么,它们自己也说不清道不明。

虽然这些模型在局部文本生成或简单逻辑推理方面表现不错,但在处理需要多步骤推导的复杂问题时就显得捉襟见肘,只能打辅助,处理一些 dirty work。

而 o1 的核心突破在于,让大模型掌握了从问题到正确答案的推导过程,用CoT思维链大幅提升了模型的长链路规划和推理能力。

能够驾驭这些能力,是 AI 模型从经验型决策迈向分析型决策的重要一步,单纯的“被动响应”将升级为“主动决策”,AI Agent、AI 辅导功课……许多应用场景不再只是说说而已。

掌握 CoT 技术的 ChatBot 将会怎样?

用在 搜索上:能理解用户的模糊意图,在搜索过程中调用多种工具,以及对搜索的信息源做甄别;

用在 教育上:能将复杂问题拆解为多个易理解的步骤,为学生提供清晰的解题过程,同时针对学生的困惑点动态调整教学策略;

用在 医疗上:能结合患者模糊的症状描述进行推理,调用医学数据库筛选可能的诊断,并甄别不同治疗方案的优劣;

用在 内容创作上:能根据创意构思推导出具体的主题和结构,调用相关资源生成符合意图的高质量内容,并自动优化语气和风格。

……

这种跃升我们可以轻松列出,更何况是做大模型的顶级大脑呢?

C.AI 的后训练专家曲凯对此有精辟总结:做产品的想靠多模态赚钱,搞算法的都在想怎么复制 o1,两边都在期待自动交互 Agent 解锁的想象空间。

于是我们看到了科技公司们紧随 OpenAI 的节奏,快步推出了「类 o1」的设计,比如 Thinking-Claude、阿里国际的 Marco-o1,当然还有 K0-math。

不过,与其他追求全面推理能力的模型不同,K0-math 选择了一条独特的路径 —— 聚焦于数学这一特定领域。

这一选择并非偶然。作为一门以符号演绎逻辑为基础的学科,数学恰恰是检验和提升模型智力的最佳试金石。

在上面的测评也可以看出,K0-math 的数学能力,足以完成语义到数理逻辑的复杂转换。

这也让人相信,我们距离以上列出的场景并不遥远。

正是基于这一清晰的定位,Kimi 团队持续加码,专注于模型智力的突破性提升。

正如在上周六的媒体发布会上,当被问及“长文本是登月的第一步,数学模型和深度推理是第几步”。

杨植麟回答:“就是第二步。”

他的话言犹未尽。

这是 Kimi 的一小步,更是大模型能在复杂的商业环境中大显身手的一大步。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

国诚投资的29800服务能赚钱... 追损法援寄语:望所有投资者谨慎投资,远离不正规平台,远离所谓的分析师带单,已经不幸陷入的受.害者应在...
亚商投顾交两万多能赚回来吗?暗... 如果你知道哪只股票会涨,你会把这只股票分享给别人吗?那些老师要是炒股真的那么精准,早就自己做股票了,...
湖南股掌柜服务费怎么退?投资者... 追损语录:如果真的有那么好的实力,他们还收这点服务费?不是早就赚的盆满钵满了?有时候不是道理太难懂,...
利多星29800服务费能退吗?... (欢迎来电或添加:185 0274 8116)咨询了解如何收集证据并追回被骗资金!利多星智投的智慧星...
ABC亚商投顾交的服务费能退吗... ABC亚商投顾交的服务费能退吗怎么退?服务费是可以退!宣传于实际不符缴费基本都是亏损! 上海亚商投资...
利多星680元靠谱吗?可以退的... (欢迎来电或添加:185 0274 8116)咨询了解如何收集证据并追回被骗资金!利多星智投的智慧星...
四川大决策服务费能退?老师营造... 大决策证券都是通过给你发一些所谓的盈利截图或者是做概率分发,给你展示,或者是说让你验证他们的实力,骗...
海能29800服务费能退吗?误... 能够搜索到这篇文章的,一般都是在海能投顾交了费吃了亏的,为什么会吃亏呢?也就是交了服务费了。告诉大家...
利多星智投侯勃靠谱吗?这份退费... (欢迎来电或添加:185 0274 8116)咨询了解如何收集证据并追回被骗资金!利多星智投的智慧星...
利多星29800服务费可靠吗?... (欢迎来电或添加:185 0274 8116)咨询了解如何收集证据并追回被骗资金!利多星智投的智慧星...
四川大决策股市赢家忽悠交的服务... 四川大决策股市赢家忽悠交的服务费怎么退?可以退费!有法可依!误导性宣传欺诱导股民缴费证券投资咨询行业...
亚商投顾518元靠谱吗?怂恿购... 如果你知道哪只股票会涨,你会把这只股票分享给别人吗?那些老师要是炒股真的那么精准,早就自己做股票了,...
利多星29800服务费能退吗?... (欢迎来电或添加:185 0274 8116)咨询了解如何收集证据并追回被骗资金!利多星智投的智慧星...
九方智投服务费能退吗?暗示收益... 九方智投涉及虚假宣传,诱导消费导致亏损惨重!九方智投虚假宣传,欺诈消费者亏的血本无归!九方智投收取高...
高能智投29800元怎么退费?... 其实用一句话形容高能智投:空手套白狼,这个形容再合适过了,高能智投需要支出的就是之前给你宣传的股票,...
高能智投付费怎么退?交费荐股被... 其实用一句话形容高能智投:空手套白狼,这个形容再合适过了,高能智投需要支出的就是之前给你宣传的股票,...
博众投资大阳智投怎么退款?诱导... 博众投资大阳智投怎么退款?诱导交费后亏损,均可退费!证券投资咨询行业的本质在于为投资者提供公平、客观...
上海利多星服务费能退吗怎么退?... (欢迎来电或添加:185 0274 8116)咨询了解如何收集证据并追回被骗资金!利多星智投的智慧星...
上海九方智投半年收费29800... 九方智投涉及虚假宣传,诱导消费导致亏损惨重!九方智投虚假宣传,欺诈消费者亏的血本无归!九方智投收取高...
在九方智投交了服务费能退吗?可... 九方智投涉及虚假宣传,诱导消费导致亏损惨重!九方智投虚假宣传,欺诈消费者亏的血本无归!九方智投收取高...
深圳国诚投资服务费怎么退?服务... 追损法援寄语:望所有投资者谨慎投资,远离不正规平台,远离所谓的分析师带单,已经不幸陷入的受.害者应在...
上海汇正财经服务费能退吗?能退... 汇正财经确实是一家正规的财经公司。但这并不能说明他们公司的宣传就符合实际,从案例中不难看出,业务员完...
海能投资推荐的股票如何?业务员... 海能投资推荐的股票如何?业务员虚假承诺骗取股民服务费!可退款! 在监管的灰色边缘,众多投资顾问依然疯...
上海汇正财经荐股靠谱吗?可以退... 汇正财经确实是一家正规的财经公司。但这并不能说明他们公司的宣传就符合实际,从案例中不难看出,业务员完...
利多星服务费怎么退?29800... (欢迎来电或添加:185 0274 8116)咨询了解如何收集证据并追回被骗资金!利多星智投的智慧星...