AI论文起名也是越来越卷了,比如这个优雅的Thyme(中文名:百里香)。
(注:百里香是一种原产于地中海的草本植物,主要用于烹饪、药物和装饰,还出现在经典英国民谣《斯卡布罗集市》当中,现在成了一个AI系统的名字。)
2025年8月15日,快手Keye团队开源Thyme系统,让AI具备了灵活使用工具的能力。Thyme能够自主进行图像裁剪、旋转、对比度调整,甚至编写代码解决复杂问题。项目代码在Github开源,论文发布于arXiv。
假如你有一张模糊不清的照片,想要看清楚里面的细节时,你会怎么做?你可能会把照片拿到光线更好的地方,或者用放大镜仔细观察。这些看似简单的动作,其实体现了人类解决视觉问题时的一个重要特征:我们会根据需要灵活地使用各种工具和方法来帮助自己看得更清楚、理解得更深入。
但是,当前的AI系统在处理图像时却缺乏这种灵活性,无论图像多么复杂、多么模糊,都只能依靠第一眼的印象来做判断。
Thyme在近20个不同测试任务上表现出众。相比于传统的AI视觉系统,Thyme在高分辨率图像理解、复杂推理任务等方面都展现出了显著的优势。这项研究不仅在技术层面实现了重大突破,更重要的是为AI系统的发展开辟了一条全新的道路。
突破传统束缚:AI终于学会了"动手操作"
为了解决传统AI处理图像的难题,研究团队采用了一个巧妙的两步训练策略。
第一步是基础技能训练,他们精心准备了50万个不同类型的样本,涵盖了从简单的图像裁剪到复杂的数学计算等各种场景。在这个阶段,AI学会了各种"工具"的基本使用方法,就像学徒学习如何使用锤子、锯子等基本工具一样。
第二步则是实战经验积累,通过强化学习让AI在实际应用中不断磨练技艺。这个过程类似于让学徒在真实的工作环境中历练,通过不断的尝试和反馈来提升自己的技能水平。 研究团队特别设计了GRPO-ATS训练算法,能够平衡AI的创造性思考和精确执行能力。
精巧的双重性格:既能天马行空又能精准无误
Thyme的一个重要特点是具备"双重性格"。在进行创造性思考和分析时,它可以天马行空,探索各种可能的解决方案。但在执行具体的操作代码时,它又变得极其严谨和精确,确保每一个操作都准确无误。
这种双重性格的实现得益于研究团队开发的GRPO-ATS算法。这个算法就像一个智能的"情绪调节器",能够根据当前的任务需求自动调整AI的"工作状态"。 当AI需要进行文本推理和分析时,算法会将"创造性参数"设置为较高的数值,鼓励AI进行发散性思考,探索多种可能的解释和解决方案。
然而, 当AI开始编写代码时,算法会立即将"精确性参数"调整到最高水平。这是因为代码执行容不得半点马虎,哪怕是一个多余的空格或者一个错误的变量名都可能导致整个程序崩溃。通过这种动态调节机制,Thyme既保持了思维的灵活性,又确保了操作的可靠性。
为了让AI能够安全地执行各种操作,研究团队还专门构建了一个"安全沙盒"环境。AI可以在沙盒里自由地进行各种操作和实验,而不用担心对外部系统造成任何影响。沙盒不仅提供了基本的安全保障,还内置了许多智能的辅助功能,比如自动的代码格式化、错误修正等,大大降低了AI的操作难度。
五大核心技能:从图像处理到数学计算样样精通
Thyme掌握的技能可以归纳为五个主要类别,每一类都对应着人类在处理视觉信息时会用到的基本能力。
第三项技能是对比度和亮度调整。这个功能类似于摄影师在暗房中调节照片的明暗效果。当Thyme遇到对比度过低、文字模糊难辨的图像时,它会自动分析图像的光线分布情况,然后相应地调整对比度和亮度参数,使图像中的重要信息变得更加清晰可见。
第四项技能是数学计算代码生成。这是Thyme最独特的能力之一,也是它与传统AI系统最大的区别所在。当遇到复杂的数学问题时,Thyme不会简单地"凭感觉"给出答案,而是会分析问题的数学结构,然后编写相应的计算程序来获得精确的结果。这种方法不仅提高了计算的准确性,还使得整个推理过程变得透明和可验证。
第五项技能是多步骤综合操作。在实际应用中,很多问题需要组合使用多种技能才能得到满意的解决方案。Thyme能够根据具体情况灵活地组合不同的操作,比如先对图像进行裁剪,然后调整对比度,最后进行旋转等。这种综合运用的能力使得Thyme能够处理更加复杂和多样化的现实场景。
海量数据打造:50万样本铸就AI"工匠"
要培养出如此全能的AI系统,数据的质量和多样性至关重要。 研究团队从400万个原始数据源中精心筛选和构建了一个包含50万个高质量样本的训练数据集。这个过程就像一个资深工匠在挑选最好的原材料来制作精品一样,每一个样本都经过了严格的质量控制和验证。
数据集的构建过程充满了巧思和细节考量。对于不需要编码处理的简单问题,研究团队从现有的视觉问答数据集中随机选择了10万个样本,用来训练AI判断什么时候应该直接回答问题,什么时候需要使用工具。这些样本就像基础的判断力训练,帮助AI建立起正确的"直觉"。
对于需要编码处理的复杂任务,数据的构建过程就更加精细了。研究团队首先使用强大的AI模型生成初步的解决方案,然后将这些方案放入安全沙盒中进行实际执行测试。只有那些能够成功运行并产生正确结果的样本才会被保留下来。为了进一步确保质量,团队还使用了另一个AI模型来验证代码执行结果是否真正解决了原始问题。
智能沙盒环境:安全可靠的AI"实验室"
为了让AI能够安全地执行各种代码操作,研究团队专门设计了一个智能沙盒环境。这个沙盒就像一个高度自动化的实验室,不仅提供了安全的执行环境,还配备了各种智能辅助工具来提高代码的成功率和质量。
沙盒的安全设计考虑得相当周到。 它会自动扫描代码中的危险操作,比如文件删除、重命名等可能对系统造成损害的指令,一旦发现这些操作就会立即阻止执行并给出警告。同时,沙盒还设置了严格的时间限制,每段代码的执行时间不能超过10秒,这样可以防止程序陷入无限循环或者执行过于复杂的操作。
除了安全保障,沙盒还具备了许多智能辅助功能。比如自动代码格式化功能,可以修正代码中的缩进问题和格式错误。自动边界检查功能可以确保图像裁剪操作不会超出图像的实际范围。变量自动定义功能会预先设置好常用的变量和导入必要的程序库,减少AI编写代码时的负担。
沙盒还具备上下文记忆功能。当AI需要进行多轮操作时,沙盒会自动记住之前执行过的代码和产生的变量,使得后续的操作可以基于前面的结果继续进行。这种设计使得Thyme能够处理那些需要多步骤操作的复杂任务,就像一个经验丰富的技术人员能够将多个简单操作组合成复杂的解决方案一样。
强化学习打磨:在实战中不断进步
基础技能训练完成后,研究团队采用强化学习的方法来进一步提升Thyme的实战能力。这个过程就像让一个掌握了基本技能的学徒在真实的工作环境中历练一样,通过不断的尝试、反馈和调整来达到专业水准。
强化学习过程中,研究团队设计了一套精巧的奖励机制来指导AI学习。这套机制包含三个主要组成部分:格式奖励、结果奖励和一致性奖励。格式奖励确保AI的输出符合标准格式,结果奖励评估答案的正确性,一致性奖励则检查AI的推理过程是否与最终答案相符。
研究团队在奖励设计上采用了一个聪明的策略: 只有当AI给出正确答案时,才会考虑其他奖励因素。这种设计防止了AI为了获得高分而故意生成看似合理但实际错误的答案。整个奖励机制的设计确保了AI在追求高分的同时,始终将解决问题的准确性放在首位。
实战表现惊艳:全面超越传统系统
在完成训练后,研究团队在近20个不同的测试任务上对Thyme进行了全面评估。这些测试涵盖了感知任务、推理任务和综合应用任务等多个方面,结果显示Thyme在各个方面都表现出了显著的优势。
在推理任务方面,Thyme展现出了将复杂数学问题转换为程序代码的独特优势。传统的AI系统在遇到复杂计算时往往只能"估算"答案,准确性难以保证。而Thyme通过编写和执行精确的计算代码,在数学推理任务上的表现获得了稳定的提升。虽然这种提升幅度相对较小,但考虑到数学计算的精确性要求,这种改进已经非常有意义了。
典型案例展示:看AI如何"施展技艺"
研究团队展示了几个典型应用案例。
第三个案例展示了Thyme处理复杂数学计算的独特方法。面对一道涉及多个变量和复杂公式的数学题,Thyme没有尝试直接"心算"答案,而是仔细分析了题目的数学结构,然后编写了相应的计算程序。这个程序不仅包含了精确的数学公式,还考虑了计算过程中可能出现的各种特殊情况。最终,程序成功地计算出了精确的答案,整个过程透明可控,完全可以验证。
至顶AI实验室洞见
目前大部分智能体还是基于文本的, Thyme开源可能标志着智能体从基于文本转向基于多模态的重要转折点。多模态AI系统具备了主动使用工具和操作环境的能力,而不仅仅是被动地接收和分析信息。
未来,我们可以期待看到更多具备类似能力的AI系统出现在不同的应用场景中。比如在医学影像分析中,AI也许能根据需要调整图像的显示参数、选择最合适的观察角度、甚至结合多种成像技术来获得更准确的诊断结果。在工业质检领域,AI可能会学会操作不同的检测设备、调整拍摄角度和光照条件来发现产品缺陷。
这一次,快手Keye团队似乎走在了全球AI行业的前列。
代码地址:https://github.com/Kwai-Keye/Thyme
论文地址:https://arxiv.org/abs/2508.11630
Q&A
Q1:Thyme模型的核心功能是什么?
A:Thyme是一个多模态大语言模型,能够自主生成和执行代码来处理图像操作(如裁剪、缩放、旋转和对比度增强)以及复杂数学计算。它遵循四个原则:丰富功能、高自主性、高效端到端训练和稳定性能提升。模型通过沙盒环境安全执行代码,支持多轮交互迭代推理。在超过20个基准测试中,Thyme在感知、推理和一般任务上实现显著改进。
Q2:Thyme模型的训练方法包括哪些阶段?
A:Thyme采用两阶段训练:监督微调(SFT)和强化学习(RL)。SFT阶段使用500K样本数据集激活图像操作和计算功能,包括掩码沙盒输出和仅末轮训练策略以减少干扰。RL阶段采用GRPO-ATS算法,自适应温度采样(文本生成温度1.0,代码生成温度0.0)提高代码可靠性。训练仅需约200 GPU小时,在32 NVIDIA H800 GPU上完成,确保了高效性。
Q3:Thyme模型在哪些基准测试中表现优异?
A:Thyme在感知任务(如MME-Realworld基准)中提升10-25%,尤其在监控和自动驾驶等复杂场景;在推理任务(如MathVista和LogicVista)中通过代码计算提升精度;在一般任务(如Hallucination基准)中减少幻觉错误。例如,在HR Bench的细粒度感知任务上,Thyme-7B比基线高8.2%,整体平均提升11.1%。实验包括近20个基准,验证了训练方法有效性。
AI论文起名也是越来越卷了,比如这个优雅的Thyme(中文名:百里香)。