苹果开源FastVLM视觉语言模型 为智能穿戴设备铺路
创始人
2025-05-13 18:44:29
0

【太平洋科技快讯】5月13日,苹果机器学习团队在GitHub上发布并开源了一款新型视觉语言模型(VLM)——FastVLM。该模型提供0.5B、1.5B和7B三个版本,基于苹果自研的MLX框架开发,并借助LLaVA代码库进行训练,专为Apple Silicon设备的端侧AI运算进行了优化。

FastVLM的核心是一个名为FastViTHD的混合视觉编码器。该编码器专为在高分辨率图像上实现高效的VLM性能而设计,其处理速度较同类模型提升3.2倍,体积却仅有3.6分之一。FastViTHD通过减少令牌输出量并显著缩短编码时间,实现了性能的飞跃。

根据技术文档显示,FastVLM在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。最小模型版本(FastVLM-0.5B)的首词元响应速度比LLaVA-OneVision-0.5B模型快85倍,视觉编码器体积缩小3.4倍。搭配Qwen2-7B大语言模型版本,使用单一图像编码器即超越Cambrian-1-8B等近期研究成果,首词元响应速度提升7.9倍。

苹果技术团队指出,基于对图像分辨率、视觉延迟、词元数量与LLM大小的综合效率分析,他们开发出了FastVLM。该模型在延迟、模型大小和准确性之间实现了最优权衡。该技术的应用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示,苹果计划于2027年推出对标Meta Ray-Bans的AI眼镜,同期或将发布搭载摄像头的设备。

FastVLM的本地化处理能力可有效支持此类设备脱离云端实现实时视觉交互。MLX框架允许开发者在Apple设备本地训练和运行模型,同时兼容主流AI开发语言。FastVLM的推出证实苹果正构建完整的端侧AI技术生态。

相关内容

热门资讯

百科常识1000题,扩展知识边... 在信息爆炸的时代,掌握百科常识不仅是个人素养的体现,也是日常生活和工作中不可或缺的技能,本文将带你深...
报了手动挡可以改自动挡吗 报了... 如果在报考驾照时选择了手动挡,但实际上想学习自动挡,那么只要尚未获得机动车驾驶证,就可以更改选择。这...
发动机沙沙响怎么回事 鍙戝姩鏈... 发动机沙沙响可能有以下六个原因,我们来一一解决。 1、机油不足。当汽车停放一段时间后,机油会流回油底...
保时捷macan怎么启动 保时... 保时捷Macan的启动方法保时捷Macan的启动方法十分简单,只需按照以下步骤操作即可:首先,将钥匙...
新车跑多少公里用燃油添加剂 新... 新车跑多少公里用燃油添加剂 正确的方法是首选汽车品牌原厂提供的燃油添加剂,并按照汽车保养手册的...
汽车定位器如何拆除 汽车定位器... 如何拆除汽车定位器 汽车定位器,又称汽车位置跟踪器,是一种车载防盗GPS定位产品。拆除汽车定位...
车辆水温低怎么办 车辆水温低怎... 如果您的车辆水温过低,您应该先确认是实际水温低,还是水温表显示低。如果经过测量实际水温确实低,那么可...
汽车空调没有热风 汽车空调没有... 当汽车空调缺乏热风时,可能是由多种原因造成的。首先,这可能源于发动机冷却系统的问题,或者是暖风控制机...
别克威朗怎么打开空调 别克威朗... 别克威朗空调使用方法及注意事项别克威朗的空调使用方法非常简单,只需按照以下步骤操作即可:1. 车辆启...
科三减速是踩刹车还是离合 科三... 当车辆在科三考试中需要减速时,应该根据车速来选择踩刹车还是离合。如果车速在3档以上且较快,学员可以直...