通义开源Qwen3-VL-30B-A3B模型:智能体任务等领域媲美GPT-5-Mini
创始人
2025-10-04 13:15:23
0

IT之家 10 月 4 日消息,阿里云通义千问今日宣布开源 Qwen3-VL-30B-A3B-Instruct 与 Thinking模型,并同步推出 FP8 版本以及超大规模模型 Qwen3-VL-235B-A22B 的 FP8 版本。

官方表示,Qwen3-VL-30B-A3B-Instruct 与 Thinking 体积更小,性能依旧强劲,更实现集 Qwen3-VL 全部能力于一身。仅需 30 亿激活参数,即可在STEM、视觉问答(VQA)、光学字符识别(OCR)、视频理解、智能体(Agent)任务等多个领域媲美 GPT-5-Mini 和 Claude4-Sonnet,甚至表现更优。

该模型可在魔搭社区、Hugging Face 免费下载,并已同步上线 Qwen Chat。

以 Qwen3-VL-30B-A3B-Instruct 为例,官方介绍大意如下:

通义千问 3-VL—— 通义千问系列迄今为止最强大的视觉语言模型。

这一代产品在各个方面都进行了全面升级:更卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更强的空间和视频动态理解能力,以及更强大的 Agent 交互能力。

提供从边缘到云端可扩展的密集和 MoE 架构,以及用于灵活、按需部署的 Instruct 和推理增强型 Thinking 版本。

主要增强功能:

  • 视觉代理:操作 PC / 移动端图形用户界面 — 识别元素、理解功能、调用工具、完成任务。
  • 视觉编码增强:从图像 / 视频生成 Draw.io/HTML / CSS / JS。
  • 高级空间感知:判断对象位置、视角和遮挡;提供更强的 2D 基础,并为空间推理和具身人工智能实现 3D 基础。
  • 长上下文与视频理解:原生 256K 上下文,可扩展至 1M;能够处理书籍和数小时长的视频,具有完整回忆和秒级索引功能。
  • 增强的多模态推理:在 STEM / 数学领域表现出色 —— 能够进行因果分析和提供基于逻辑与证据的答案。
  • 升级的视觉识别:通过更广泛、更高质量的预训练,能够 " 识别一切 "—— 名人、动漫、产品、地标、动植物等。
  • 扩展的 OCR 功能:支持 32 种语言(此前为 19 种);在低光、模糊和倾斜情况下表现稳健;更好地处理罕见 / 古文字和专业术语;改进了长文档结构解析。
  • 与纯 LLMs 相当的文本理解能力:无缝的文本-视觉融合,实现无损、统一的理解。

IT之家附链接:

  • 魔搭社区:Qwen3-VL
  • Hugging Face:Qwen3-VL

相关内容

热门资讯

通义开源Qwen3-VL-30... IT之家 10 月 4 日消息,阿里云通义千问今日宣布开源 Qwen3-VL-30B-A3B-Ins...
黄仁勋称AI工厂需大量技工:年... AI是当前的大热门,很多人都在担心AI会取代人类工作,但是AI也会创造很多需求,一些传统职业反而可能...
OpenAI CEO奥特曼寻求... OpenAI首席执行官奥特曼在一篇博客文章中表示:“用户生成的视频内容数量远超我们预期,而且许多视频...
世界动物日 · AI条漫 | ... 10月4日是世界动物日。 近年来,随着河北生态环境持续向好,生物多样性日渐丰富。国家一级重点保护鸟类...
贝索斯:AI 虽有泡沫但也提供... IT之家 10 月 4 日消息,综合路透社和彭博社报道,亚马逊创始人、董事长杰夫・贝索斯 (Jeff...
巴西蚊子工厂准备投产:每周生产... 据参考消息援引埃菲社10月1日报道,全球最大的生产携带沃尔巴克氏菌蚊子以抗击登革热的工厂1日宣布,已...
百度学术AI重构:上线AI学术... 百度学术9月11日在AI Day开放日上官宣进行AI重构,上线AI学术搜索、AI文献总结、AI阅读、...
美国安专家又操心:别光盯着AI... 【文/观察者网 阮佳琪】 美国不断加大先进半导体对华限制的同时,宛如惊弓之鸟的美国专家,又开始鼓噪...
高盛CEO:AI基建与政府支出... 高盛集团首席执行官David Solomon预测,受政府持续支出和人工智能基础设施建设的强劲推动,美...
勇士队重聚安德鲁·威金斯!助力... 随着2025赛季的深入,金州勇士队展现出了强烈的夺冠欲望。在这个竞争激烈的赛季中,如果勇士队在交易截...