DeepSeek-V3.2 在推理任务中的表现优于 GPT-5
创始人
2026-01-26 18:47:46

作者 | Anthony Alford

译者 | 平川

DeepSeek 发布 DeepSeek-V3.2,这是一个开源的推理和代理 AI 模型家族。在多项推理基准测试中,其高性能计算版本 DeepSeek-V3.2-Speciale 表现优于 GPT-5,与 Gemini-3.0-Pro 相当。

DeepSeek 在开发 DeepSeek-V3.2 时应用了三项新技术。首先,他们使用了一种更高效的注意力机制,称为 DeepSeek 稀疏注意力(DSA),这降低了模型的计算复杂性。他们还扩展了强化学习阶段,使其消耗的计算资源超过了预训练。最后,为了改进模型使用工具的能力,他们开发了一个代理任务合成管道。最终,该模型在一系列编码、推理和代理基准测试中的表现超过了其他大多数开源模型,并且与 GPT-5 和 Gemini-3.0-Pro 等前沿闭源模型持平或更好。不过,DeepSeek 团队指出:

尽管取得了这些成果,我们承认,DeepSeek 与前沿封闭源模型相比还存在某些局限性……首先,由于训练过程的 FLOP 总数较少,DeepSeek-V3.2 在世界知识的广度方面仍然落后于领先的专有模型。在未来的迭代中,我们计划通过扩大预训练的计算量来解决这一知识差距问题。其次,令牌效率仍然是一个挑战……未来的工作将专注于优化模型推理链的智能密度以提高效率。第三,解决复杂任务的能力仍然不如前沿模型,这激励我们进一步完善我们的基础模型和后训练方法。

InfoQ 报道过 DeepSeek 之前的几个版本,包括最初的 DeepSeek-V3 以及他们的第一个推理模型 DeepSeek-R1。这两个版本都是在 2025 年初发布的。2025 年晚些时候,InfoQ 报道了 DeepSeek-V3.1,这是一个混合推理模型,在单一系统中融合了思考模式与非思考模式。

DeepSeek-V3.2 基准测试性能(图片来源:DeepSeek 技术报告)

DeepSeek-V3.2 使用的架构与 DeepSeek-V3.1 相同,只是使用了新的 DSA 注意力机制。团队从 DeepSeek-V3.1 的一个检查点入手,在继续预训练并生成 DeepSeek-V3.2 之前,将上下文长度扩展到了 128K。新的注意力机制将计算复杂性从 O(L^2) 降低到了 O(Lk),其中 L 是上下文长度,k<

对于后训练,团队使用了专家蒸馏(specialist distillation)技术。他们训练了一组专门针对特定领域的专家模型:编码、数学运算和几个代理任务。然后,这些专家模型生成合成训练数据,用于微调主模型。

在 Hacker News 上关于 DeepSeek-V3.2 的讨论中,部分用户指出了高性能开源模型的优势。一位用户写道:

如果你试图构建基于 AI 的应用程序,你应该比较基于供应商的解决方案和使用自己的硬件托管开源模型之间的成本……然后将其与 GPT-5 的成本进行比较,这比较简单,因为每(百万)令牌的成本可以从网站上获取。运行 DeepSeek(或更成熟的 Qwen3)这类系统能为你节省的云服务开支,绝对超乎想象……DeepSeek 和 Qwen 能在廉价 GPU 上流畅运行,而其他模型会直接卡死。

DeepSeek-V3.2 模型文件可以从 Huggingface 上下载,但高计算资源版本 DeepSeek-V3.2-Speciale 目前仅通过 DeepSeek 的 API 提供。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

刺梨工坊(贵州)科技有限公司股... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 如今不少投资者习...
深圳中酒并购大唐酒业签署合同战... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资市场的魅...
贵州创建腾飞生物科技有限公司股... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"随着资本市场的...
中志浩刺梨产业开发(贵州)有限... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资市场的魅...
中志浩刺梨产业开发(贵州)有限... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合随着线上炒股交流的普...
江苏虞姬农业科技有限公司买酒送... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 当前,以“直播间...
四川严仙道酒业有限公司买酒送原... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 如果您近期看过财...
财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
颐和(深圳)品牌运营买酒送原始... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 当下,“购买指定...
贵州刺梨工坊科技买酒送原始股上... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
智核投研商学院周聪老师推荐琦白... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 在全民理财意...
广东聚沃贸易有限公司买酒送原始... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 如今不少投资者习...
国英百谷言(四川)供应链管理有... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合随着线上炒股交流的普...
国威酒业并购深圳迎宾品牌买酒送... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为其他类似股权情景,如有雷同纯属巧合。 当下,...
四川常阳工会直播间旭东老师讲课... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。如今金融诈骗套路不...
智核投研商学院周聪老师推荐琦白... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 如果您近期看过财...
深圳迎宾品牌发展签署贵州迎宾酒... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"随着资本市场的...
贵州创建腾飞生物科技有限公司股... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
华兴数字经济研究院刘宇峰老师贵... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"随着资本市场的...
小鹅通直播间灯塔驿站旭东老师摇... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 在股票投资领域,...
四川严仙道酒业有限公司买酒送原... 本文旨在普及投资风险知识,做好大众防骗教育,不针对任何企业与机构。全文案例均为虚拟模拟场景,仅供反诈...
华兴数字经济研究院刘宇峰老师贵... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为其他类似股权情景,如有雷同纯属巧合。 当下,...
中志浩刺梨产业开发(贵州)有限... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。如今金融诈骗套路不...