阿里通义团队开源 R1-Omni:多模态模型 + RLVR
创始人
2025-03-11 19:40:26
0

IT之家 3 月 11 日消息,随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward(RLVR)方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。

然而,现有研究多聚焦于 Image-Text 多模态任务,尚未涉足更复杂的全模态场景。基于此,通义实验室团队探索了 RLVR 与视频全模态模型的结合,于今日宣布开源 R1-Omni 模型

R1-Omni 的一大亮点在于其透明性(推理能力)。通过 RLVR 方法,音频信息和视频信息在模型中的作用变得更加清晰可见。

比如,在情绪识别任务中,R1-Omni 能够明确展示哪些模态信息对特定情绪的判断起到了关键作用

为了验证 R1-Omni 的性能,通义实验室团队将其与原始的 HumanOmni-0.5B 模型、冷启动阶段的模型以及在 MAFW 和 DFEW 数据集上有监督微调的模型进行了对比。

实验结果显示,在同分布测试集(DFEW 和 MAFW)上,R1-Omni 相较于原始基线模型平均提升超过 35%,相较于 SFT 模型在 UAR 上的提升高达 10% 以上。在不同分布测试集(RAVDESS)上,R1-Omni 同样展现了卓越的泛化能力,WAR 和 UAR 均提升超过 13%。这些结果充分证明了 RLVR 在提升推理能力和泛化性能上的显著优势。

IT之家附 R1-Omni 开源地址:

  • 论文:https://arxiv.org/abs/2503.05379

  • Github:https://github.com/HumanMLLM/R1-Omni

  • 模型:https://www.modelscope.cn/models/iic/R1-Omni-0.5B

相关内容

热门资讯

近光灯跟远光灯什么区别 近光灯... 近光灯与远光灯的主要差异体现在以下几个方面: 1、标识符号:近光灯的图标显示光线朝下,象征着其照射范...
油电混合需要充电么 油电混合需... 油电混合汽车不需要充电。它同时拥有两种动力源,汽油或柴油产生的热动力源和电池产生的电动力源。除了动力...
后备箱开锁按哪个 后备箱开锁按... 开启汽车后备箱的方法多种多样,主要依据车型和设计而定。以下是一些常见的开启方式:一、车外开启在车身外...
店保是哪个意思 店保是哪个意思 店保是指在厂家质保的基础上,销售店额外增加质保里程和时间,以扩大质保范围。通常情况下,店保需要车主额...
科目一预约成功没去考试要交钱吗... 科目一预约成功没去考试要交钱吗?如果你已经成功预约了科目一考试,但最终没有参加考试也没有申请取消,那...
科目二头可伸出窗外吗 科目二头... 科目二头可伸出窗外吗 科目二头不可以伸出窗外。根据《机动车驾驶人考试内容和方法》的相关规定,科目二...
车怎么熄火 车怎么熄火 车怎么... 汽车正确熄火步骤汽车熄火是驾车过程中必不可少的一步。正确的熄火步骤可以保护汽车发动机和变速箱,延长汽...
科目一可以同时预约两个场次吗 ... 在驾考科目一考试中,是否可以同时预约两个场次呢?答案是可以的。一般来说,科目一考试预约可以同时预约三...
胎压监测不到怎么回事 胎压监测... 胎压监测不到的原因及解决方法:胎压监测器在汽车中起着至关重要的作用,然而有时候会出现监测不到的情况。...
行驶中突然熄火怎样处置 行驶中... 行驶中突然熄火的处置方法有以下两种: 1. 手动挡车辆在行驶过程中突然熄火,首先不要慌张。由于熄火的...