2025-12-12 15:37:02 作者:狼叫兽
12月12日,2025 全球开发者先锋大会暨国际具身智能技能大赛(GDPS 2025)在上海张江科学会堂正式启幕。这场汇聚了全球顶尖开发者、学者与科技企业的行业盛会,共同见证具身智能从实验室走向产业落地的关键跨越。联汇科技在大会首日重磅发布 VLM-FO1、OpenTrackVLA 两项核心开源成果,并携 OmAgent 开发者社区首次线下亮相,成为现场焦点。
两大开源成果狙击终端智能核心技术痛点
在智能体从虚拟世界走向物理世界 “远征” 的浪潮中,视觉 - 语言 - 动作协同与精准感知定位成为技术落地的核心瓶颈。联汇科技此次发布的两项开源成果,精准切入这两大痛点,为开发者提供了开箱即用的技术解决方案。
VLM-FO1:让大模型实现 “精准指认” 的增强框架
作为即插即用的视觉 - 语言模型(VLM)增强框架,VLM-FO1 的核心突破在于弥合了大模型 “高层推理” 与 “细粒度感知” 的行业鸿沟。传统 VLM 虽能理解复杂语义,却难以实现像素级精准定位,而 VLM-FO1 在保留原模型通用推理能力的基础上,赋予其强大的空间定位能力,完美解决 “看得懂却指不准” 的痛点。
该框架支持复杂视觉推理、开放词汇目标检测、视频对象跟踪等多元任务,可为具身智能与机器人提供精确空间坐标,广泛适配工业质检、医疗影像分析、个性化服务等商业场景。其 “即插即用” 的解耦设计更降低了开发门槛,开发者无需重构底层架构,即可将其无缝集成到 Qwen2.5-VL 等主流预训练 VLM,快速完成原型验证与产品迭代。
OpenTrackVLA:赋能机器人 “听懂指令 + 精准行动”
完全开源的视觉 - 语言 - 动作(VLA)系统 OpenTrackVLA,则实现了自然语言指令、实时视觉感知与机器人动作规划的深度融合。该系统仅需单目摄像头即可运行,能精准解析 “保持安全距离跟随穿红色外套的人”“绕开障碍物靠近白色货车” 等复杂指令,自主生成安全高效的运动路径,真正达成 “看得懂、听得懂、做得到” 的核心目标。
凭借 0.6B 参数的轻量设计,OpenTrackVLA 在低成本硬件上即可流畅运行,却能实现超越 7B 参数基线模型的跟踪性能,在 EVT-Bench 测试中静态目标跟踪率达 84.4%,碰撞率仅 5.00%。其全流程开源特性(开放模型权重、训练代码、数据处理工具链与评估框架),让开发者可基于自定义数据集快速二次开发,适配服务机器人、智能安防、自动驾驶辅助等多场景需求。
大会现场,两项开源成果的体验区人头攒动,开发者们纷纷驻足实操测试,围绕技术细节、二次开发方案及行业应用场景与联汇技术团队展开深度交流,现场互动热度持续攀升。
OmAgent 开发者社区线下首秀,加速构建共创生态
除了两大开源成果,OmAgent开发者社区的首次线下亮相也是本次展会的一大亮点。该社区由联汇科技发起成立,是一个以开发者为核心,技术驱动、生态共建的全球化协作平台。
OmAgent开发者社区聚焦终端智能及关键核心领域,涵盖端侧芯片、智能模组、核心组件、多模态数据处理、人机协同等多个方向。它致力于连接全球开发者、企业技术团队、科研机构学者、行业应用方及投资机构,构建“技术共享、场景共创、资源共生、价值共赢”的生态型社群。
以技术交流为核心、以产业落地为导向,OmAgent开发者社区将为开发者提供技术提升、资源对接、项目合作的全链路支持,推动终端智能技术从实验室走向产业场景,实现“技术赋能实体,创新驱动发展”的核心目标。据悉,在13日的论坛活动中,该社区还将释放重磅消息,为全球开发者带来超乎预期的资源支持与合作机遇。
目前,OmAgent开发者社区官方社群正在火热招募中,开发者在活动期间,在展位获取加入方式。
在物理智能加速爆发的当下,联汇科技以两大开源成果打破技术壁垒,用开发者社区凝聚创新合力,既为行业提供了高效落地的 “工具箱”,更搭建了协同共进的 “生态圈”。目前,两大开源项目的技术文档、模型资源均已全面开放,诚邀全球开发者共建共享,期待有更多开发者参与到终端智能的技术创新与场景落地中,推动终端智能从前沿概念走向千行百业的实际应用。