字节Seed开源UI-TARS-1.5：基于视觉语言模型构建的多模态智能体_科学探索

字节Seed开源UI-TARS-1.5：基于视觉语言模型构建的多模态智能体

创始人

2025-04-18 10:15:05

IT之家 4 月 18 日消息，IT之家从豆包大模型团队获悉，UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。

有关的链接如下：

GitHub：https://github.com/bytedance/UI-TARS
Website：https://seed-tars.com/
Arxiv：https://arxiv.org/abs/2501.12326

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS，通过强化学习进一步增强了模型的高阶推理能力，使模型能够在“行动”前先进行“思考”。

该版本的模型中，团队还展示了一个新的愿景：以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比，游戏更多依赖直观的、常识性的推理，并较少依赖专业知识，因此，游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍，UI-TARS 是一个原生 GUI 智能体，具备真实操作电脑和手机系统的能力，同时，还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作，基于团队在四个维度的技术探索：

视觉感知增强：依托大规模界面截图数据，模型可理解元素的语义与上下文，形成精准描述。
System 2 推理机制：在动作前生成“思维（thought）”，支持复杂任务的多步规划与决策。
统一动作建模：构建跨平台标准动作空间，通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式：通过自动化的交互轨迹采集与反思式训练，模型持续从错误中改进，适应复杂环境变化。

字节推理视觉语言 GitHub Seed 团队模型 Arxiv 动作智能体 IT之家 https

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

上一篇：2025年中国AI眼镜销量将达31.4万副同比增长188.5%

下一篇：北京市第十中学上线生物学科AI学伴智能体，助力学生个性化学习

热门资讯

老刘堂主、同心同德大课堂袁光文... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。" 随着资本市场...

直播间贵州中科分子生物科技有限... 本文专注投资风险普法教育，不针对任何企业及个人。文中所有案例均为模拟情景推演，仅作反诈科普警示使用，...

方舟创富会直播间认购四川华太以... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。现如今，网络直播荐...

长沙谷道农业科技有限公司战略配... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合近年来，以“直播间...

深圳市兰亭网络科技兰亭Lant... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"股市行情持续升...

贵州中科分子被刺梨工坊收购上市... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"随着资本市场加...

钉钉群直播间日月光新能源科技设... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。当“成为战略经销商...

贵州中科分子生物科技有限公司直... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合在股票投资交流中，“...

华太新园寓宙授权成都勇旺睿泰科... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为其他类似股权情景，如有雷同纯属巧合。随着生活...

南京中科微点科技有限公司经销商... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。近期有不少投资者咨...

星星之火股票秦峰直播间新股摇号... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。在资本市场与实体产...

上海兰亭森龄日志经销商合法正规... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"股市行情持续升...

四川华太新园寓宙讯息科技集团有... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。当“成为战略经销商...

圣斯立（湖北）品牌管理股权经销... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合在股票投资交流中，“...

刺梨工坊与贵州中科分子战略合作... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。近期有不少投资者咨...

杭州昶妇乐贸易有限公司线下认购... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。在资本市场与实体产...

上海华迹智能科技华旋传感原始股... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"股市行情持续升...

长石新能源石墨烯股权转让签署入... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"随着资本市场加...

老刘堂主、同心同德大课堂袁光文... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。当“成为战略经销商...

江苏中毅投资管理有限公司经销商... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合在股票投资交流中，“...

博通商学院股票群打新股摇号中签... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为其他类似股权情景，如有雷同纯属巧合。随着生活...

新乡经开区勤数维信息技术公开抽... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"股市行情持续升...

贵州中科分子生物科技有限公司直... 本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。在资本市场与实体产...

小鹅通直播间旭东直播间打新股公... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"股市行情持续升...

钉钉群博通商学院战略进场摇号上... “本文旨在进行投资风险教育，不针对任何特定企业。以下案例为拟情景，如有雷同纯属巧合。"随着资本市场加...

字节Seed开源UI-TARS-1.5：基于视觉语言模型构建的多模态智能体

相关内容

热门资讯