字节Seed开源UI-TARS-1.5:基于视觉语言模型构建的多模态智能体
创始人
2025-04-18 10:15:05
0

IT之家 4 月 18 日消息,IT之家从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

有关的链接如下:

  • GitHub:https://github.com/bytedance/UI-TARS
  • Website:https://seed-tars.com/
  • Arxiv:https://arxiv.org/abs/2501.12326

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”

该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:

  • 视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。
  • System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。
  • 统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。
  • 可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

相关内容

热门资讯

驾驶证有违章没处理驾驶证会恢复... 对于“驾驶证有违章没处理驾驶证会恢复分数吗”这个问题,答案是:不会。因为驾驶证与机动车违章是分开的,...
五菱宏光充电怎么充 五菱宏光充... 五菱宏光电动车可以在家用220v电源下进行充电,它支持的是慢充模式,因此并不适配快速充电桩。这款车的...
汽车前挡玻璃裂了可以修复吗 汽... 汽车前挡风玻璃出现裂纹后,修复的可能性取决于裂纹的类型和大小。一般来说,小型的星状裂纹和线状裂纹是可...
电瓶车刹车刹不住是什么原因 电... 当电瓶车刹车刹不住时,可能有以下几个原因:1. 检查刹车线是否松动,如果松动可以调整线的位置。如果松...
驾驶证换证要体检吗 驾驶证换证... 驾驶证换证需要进行体检。 机动车驾驶员在取得驾驶证后才能驾驶。驾驶证自第一次使用起6年内有效。6年期...
普拉多tx vx txl sx... 普拉多是一款备受喜爱的SUV车型,其不同版本代表了不同的配置水平。TX版是普拉多的基础版本,配置较为...
4s店可以免费点个漆吗 4s店... 关于4S店是否可以免费点漆,答案取决于具体情况。不同4S店的服务水平不一,一些4S店可能会提供免费补...
保险杠下面的黑塑料板叫什么 保... 保险杠下面的黑塑料板叫做导流板。导流板通过螺丝或卡扣固定在保险杠下方,用户可以方便地进行拆卸。导流板...
新车上牌必须在户口所在地吗 新... 新车上牌并非必须在户口所在地进行。实际上,车辆所有人可以根据自己的选择,在户口所在地或非户口所在地为...
汽车充不进电怎么回事 汽车充不... 汽车充不进电的原因可能有多种,以下是一些常见的问题及解决方法:1. 接触不良:充电线路连接不牢固时会...