数学这块,K0-math 真的可以回答一切
创始人
2024-11-26 17:00:55
0

内容编辑丨特工小布

内容审核丨特工少女

11 月 16 日,久未露面的月之暗面创始人杨植麟突然现身,召开了一场媒体发布会。

不花钱就能用、可以轻松应对长文本的 Kimi,留住了 3600 万月活用户,在“百模大战”中独占鳌头。

月之暗面估值高达 33 亿美元,资本争夺已白热化。近期的仲裁争议,更是将公司推上了舆论的风暴中心。

但这未免有些喧宾夺主,让我们把目光放回这场发布会的主角, K0-math.

K0-math 是一款主打数学能力的推理模型,它的成绩单很漂亮:

在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 超过了 o1-mini 和 o1-preview。

数据榜单可以作为参考,真正的实力还得靠实测揭晓。

实际体验下来,可以这么说,数学这块,K0-math 真的可以回答一切。

数学能力的检验始终离不开解题,模型的提升也源于不断破解这些问题,我们先来试一道经典的陷阱题。

零帧起手,K0-math 速通经典开局。

更令人惊喜的是,它 已经学会了如何灵活运用知识,懂得可以通过转化成分数,绕过小数点的分词陷阱

接下来给它上点强度,看看它如何面对高考史上最难的四份试卷之一——2022 年全国新课标 1 卷的单选压轴题:

这道题乍一看挺难,实则一点也不容易。

虽然是一道立体几何,但想要做对需要绕好几个弯。首先要将正四棱锥的体积表示为关于高(或侧棱长)的函数,接着对这个函数求导才能得到答案。

整个过程不仅考验几何功底,更需要代数推导的精准性,而 K0-math 同学一眼就抓住了关键:

K0-math 甚至会自我反思:「等一下,我有些糊涂了」。

能够发现错误的前提,不正是清楚正确的解法是什么吗?

最后呈现出来的思路,就好像看到了学霸在草稿纸上一边画图,一边破解了出卷人层层铺设的连环套。

这么强,不会是原来做过吧?

于是,我们又找来了一道数学竞赛题,高低测测 K0-math 在数学的门道到底有多深:

这是号称全美最高难度的数学竞赛 AIME 今年考的第 5 题:

对大模型而言,数学竞赛题无疑是挑战极限的“边界问题”。在漫长的思考中,大模型很容易忘掉关键信息,或者迷失在自己的幻觉里。

看来,难住了众多大模型的 AIME,根本难不倒它。

虽说k0-math是主攻数学能力的模型,但单纯的代数和几何,不足以全面展现它的逻辑推理深度。

和其他科目不同,数学题有确定的标准答案。但正确答案并不总是逻辑推理的结果,有时可能只是“题海战术”的胜利。

大模型就像是一个过目不忘的小镇做题家,做完了市面上的所有辅导资料,碰到原题,自然能对答如流。

但新试题稍微换了几个条件,它就开始乱套公式,手足无措,力不从心。

苹果近期引发广泛讨论的论文就在谈这个问题—— 大模型根本不理解问题的本质,更谈不上掌握了核心的推理能力。

要检验这一点,还要看模型能否将数学知识与千变万化的现实场景相结合,把语言信息抽象成数理逻辑,再 think step by step,进行全面的分析。

诶,这不正好是我们从小做到大的应用题吗?

于是我们又设计了几道题来考验 K0-math:

众所周知,拼多多、Matlab、Mathematica、Maple 是世界上最著名的四个数学软件。其中由于拼多多最有钱,所以是数学软件之首。

对于这个新用户, K0-math 能算明白拉几个人才能砍到免单吗?

K0-math 不仅给出了数学上的正确答案,也给出了结合实际生活考虑的可行的解——金额是有最小单位的,只不过拼多多要显示到小数点后六位。

对于一个要落地实际应用的模型,肯定要能在瞬息万变的现实世界灵活应变,于是,这道题里有 3 个变量和 2 个约束条件。

这些变量相互交织,一旦弄错了一环,就是满盘皆输。

看看 K0-math 的解题过程,有一点令人印象深刻:它可以根据常识和已知信息,推导出隐含信息,这已经很接近人类的能力了。

比如,它知道电影上映 30 天,代表 30 天之后的数就不用算了,还明白这四周有四个周日,需要单独考虑。

接着,是一道需要对模糊意图进行推理的题,有请「古希腊掌管猜心思的神」麦麦。

在什么都没说明白的情况下,K0-math 是否能精准抓住麦麦的心意,既能买上熏鸡,又能把钱省到她的心趴上呢?

由于缺乏具体的住宿、餐饮等费用数据,K0-math 一开始陷入了困境。

但它很快调整思路,假设每天的住宿费用为 200 元,餐饮费用为 150 元,交通费用为 100 元,门票费用为 150 元——这个估算看起来还算合理…应该是能省到心趴上吧。

如果模型能在信息不全的情况下,捕捉未明确表达的需求,再根据平时的生活经验进行推算。这种近乎“通人性”的智能推理能力,不禁让人觉得,它正在一步步接近真正的智慧。

而让人觉得 K0-math 好像真的“通人性”的是这一题。

在这个充满人情世故的现实世界,遇上了浑身上下八百个心眼子的「谜语人」,K0-math 一下就点破了「有些事不上称没有四两重,上称了一千斤都打不住」的弦外之音:

K0-math 不能联网搜索,如果搜索就能知道是《大明王朝1566》的台词。

但是对于“闭卷考试”,看起来就是Kimi自己在悟、在思考,更重要的是,它悟出了正确答案。

对比友商,不好意思,这一次是 K0-math 秒了:

最后要请出的大 boss 是保留节目:弱智吧。

以往的模型,要不是没绕过脑筋急转弯,要么是用更弱智的回答来打败弱智。

即使被思维链点化过,但有些推理模型还是太认真。哪怕已经看穿了这是人为搞抽象,它依然陷入自我怀疑的逻辑循环:

图注:源自知乎@yuan-ye-70-85

不像 K0-math,请看:弱智吧,你的强来了!

对大模型稍有了解的 uu 会知道,如果拥有解决基本数学问题的能力,意味着模型的能力实现了质的飞跃。

这是因为,模型终于学会了在训练数据之外创造性地解决问题。

以 GPT-4 为代表的模型,它们的思路是:拿着问题,从训练数据学习的模式和统计规律来生成答案。至于从问题到答案中间经历了什么,它们自己也说不清道不明。

虽然这些模型在局部文本生成或简单逻辑推理方面表现不错,但在处理需要多步骤推导的复杂问题时就显得捉襟见肘,只能打辅助,处理一些 dirty work。

而 o1 的核心突破在于,让大模型掌握了从问题到正确答案的推导过程,用CoT思维链大幅提升了模型的长链路规划和推理能力。

能够驾驭这些能力,是 AI 模型从经验型决策迈向分析型决策的重要一步,单纯的“被动响应”将升级为“主动决策”,AI Agent、AI 辅导功课……许多应用场景不再只是说说而已。

掌握 CoT 技术的 ChatBot 将会怎样?

用在 搜索上:能理解用户的模糊意图,在搜索过程中调用多种工具,以及对搜索的信息源做甄别;

用在 教育上:能将复杂问题拆解为多个易理解的步骤,为学生提供清晰的解题过程,同时针对学生的困惑点动态调整教学策略;

用在 医疗上:能结合患者模糊的症状描述进行推理,调用医学数据库筛选可能的诊断,并甄别不同治疗方案的优劣;

用在 内容创作上:能根据创意构思推导出具体的主题和结构,调用相关资源生成符合意图的高质量内容,并自动优化语气和风格。

……

这种跃升我们可以轻松列出,更何况是做大模型的顶级大脑呢?

C.AI 的后训练专家曲凯对此有精辟总结:做产品的想靠多模态赚钱,搞算法的都在想怎么复制 o1,两边都在期待自动交互 Agent 解锁的想象空间。

于是我们看到了科技公司们紧随 OpenAI 的节奏,快步推出了「类 o1」的设计,比如 Thinking-Claude、阿里国际的 Marco-o1,当然还有 K0-math。

不过,与其他追求全面推理能力的模型不同,K0-math 选择了一条独特的路径 —— 聚焦于数学这一特定领域。

这一选择并非偶然。作为一门以符号演绎逻辑为基础的学科,数学恰恰是检验和提升模型智力的最佳试金石。

在上面的测评也可以看出,K0-math 的数学能力,足以完成语义到数理逻辑的复杂转换。

这也让人相信,我们距离以上列出的场景并不遥远。

正是基于这一清晰的定位,Kimi 团队持续加码,专注于模型智力的突破性提升。

正如在上周六的媒体发布会上,当被问及“长文本是登月的第一步,数学模型和深度推理是第几步”。

杨植麟回答:“就是第二步。”

他的话言犹未尽。

这是 Kimi 的一小步,更是大模型能在复杂的商业环境中大显身手的一大步。

相关内容

热门资讯

重庆政法委书记陆克华被查 “广... 中纪委国家监察委2024年11月4日公布的消息,重庆市委常委、政法委书记陆克华涉嫌严重违纪违法,目前...
主编温静丨今天发生了什么? 活动资讯 2024年11月1日,“中子星·小说月报影视改编价值潜力榜”发布会举办,现场重磅嘉宾云集。...
揭秘:中国二手车单店销量天花板... 一个二手车公司,单月销售2600+辆? 上个月帅车阿东严选商城,单店销售量突破2664台,库存周转率...
中简科技股东内斗公开化,温月芳... 来源:深水财经社 作者 | 深水财经社 何离 近日,位于常州的上市公司中简科技(300777)内部斗...
从郑驹到周婷,杉杉股份改变了什... 被推选为新任董事长后,周婷向全体杉杉同仁发表了一封信,信中表明其已与郑驹完成工作交接 标点财经、投...
中概股迎来普涨!有道两个月飙升... 11月27日(当地时间),中概股迎来普涨行情,欢聚(YY.US)、金山云、高途等多股涨逾10%,此外...
姐姐送套房子给弟弟住,弟弟却1... 赠与时是因为亲情 发生矛盾要撤回赠与却成案情 原本一母同胞姐弟情深 如今却因为一套房对簿公堂…… ...
老话说“十月怕初七”,明日十月... 在中国古老的农村,流传着许多与节气和日子相关的谚语和俗语,它们承载着丰富的农耕文化和先人的智慧。其中...
马拉松赛事“井喷”,山东这些城... 金秋十月,正是举办马拉松的黄金季节,山东多地的马拉松赛事轮番开跑。仅10月20日一天,2024黄河口...
FIFA:中国足协计划通过三个... 直播吧11月1日讯 据FIFA官网报道,中国足协的目标是从2024年开始,用三个赛季的时间将足协杯参...