国庆前放大招!DeepSeek-V3.2-Exp发布并开源,API成本将降低50%以上
创始人
2025-09-29 19:43:44
0

国庆长假在即,Deepseek又放大招了!

9月29日,DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。

该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA)稀疏注意力机制,旨在对长文本的训练和推理效率进行探索性优化与验证。这种架构能够降低计算资源消耗并提升模型推理效率。

目前,华为云已完成对 DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。

核心技术突破:DeepSeek Sparse Attention (DSA)

DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制。DeepSeek 方面表示,这项技术在几乎不影响模型输出效果的前提下,大幅提升了长文本场景下的训练和推理效率

为了确保评估的严谨性,DeepSeek-V3.2-Exp 的训练设置与前代 V3.1-Terminus 进行了严格对齐。测试结果显示,该模型在各大公开评测集上的表现与 V3.1-Terminus 基本持平,有效性得到了初步验证。

API成本将降低50%以上

随着新模型服务成本的显著降低,DeepSeek 同步采取了重磅举措:大幅下调官方 API 价格,降价幅度超过 50%,新价格已即刻生效。目前,官方 App、网页端和小程序均已同步更新至 DeepSeek-V3.2-Exp 版本。

DeepSeek 现已将 DeepSeek-V3.2-Exp 模型在 Huggingface 和 ModelScope 平台上全面开源,相关论文也已同步公开。

作为一款实验性版本,DeepSeek 认识到模型仍需在更广泛的用户真实场景中进行大规模测试。为便于开发者进行效果对比,DeepSeek 为 V3.1-Terminus 版本临时保留了 API 访问接口,且调用价格与 V3.2-Exp 保持一致。该对比接口将保留至北京时间 2025 年 10 月 15 日 23:59。

此外,为支持社区研究,DeepSeek 还开源了新模型研究中设计和实现的 GPU 算子,包括 TileLang 和 CUDA两种版本。团队建议社区在进行研究性实验时,优先使用基于 TileLang 的版本,以便于调试和快速迭代。

相关内容

热门资讯

寒武纪Day 0适配DeepS... 钛媒体App 9月29日消息,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Ex...
官方回应“区城管局副局长涉性侵... 9月29日上午,受害者家属顾先生告诉红星新闻记者,六盘水水城区城市管理综合行政执法局副局长付某涉性侵...
10月1日至2日有大到暴雨!国... 9月29日,记者从郑州市气象局获悉,受低涡东移影响,10月1日至2日,我市有一次强降雨天气过程。其中...
小沈阳公司入股艺人培训公司 已... 搜狐娱乐讯 据天眼查App显示,近期,广东山里果子红了科技文化发展有限公司申请注册“美美茶内”“一个...
太不容易!第99分钟比赛终于结... 在本轮意甲联赛中,AC米兰以2-1战胜了那不勒斯,这场比赛的结果让人感受到了一种久违的激动。比赛的最...
汤道生复盘腾讯元宝AI入口之战 日前,腾讯(00700.HK)集团高级执行副总裁、云与智慧产业事业群(CSIG)CEO汤道生受访,坦...
AI重塑世界,数睿数据重塑软件... 如今的我们正处在一个由生成式AI引爆的时代奇点。斯坦福数字经济实验室主任Erik Brynjolfs...
AI创业清华系强势领跑,北京、... 在AI 技术迎来迭代爆发的关键阶段,人工智能正加速从技术概念走向产业实践。无论是 AI 大模型的场景...
用“印”科技,为“AI”创新 近期,TCL科技宣布投资建设8.6代印刷OLED产线的消息引发市场持续关注,印刷OLED技术的成熟度...
国庆前放大招!DeepSeek... 国庆长假在即,Deepseek又放大招了! 9月29日,DeepSeek-V3.2-Exp模型正式在...