强大的双子座3.0专业版! DeepSeek V3.2的实测性能确实很稳定,但您应该注意这三个“缺陷”

硬刚Gemini 3.0 Pro!DeepSeek V3.2实测性能确实猛,但这三个“硬伤”不得不防网易科技出品
硅谷早上醒来,发现追赶者已经到来。当中国的对手推出类似产品却打着“完全免费”牌时,我们该如何打这场仗?

12月1日,DeepSeek带着新“Gemini”的正式版本回归:DeepSeek-V3.2(日常推理的“工作者”)和DeepSeek-V3.2-Speciale(专门从事推理的“最佳学术”)。软件夺得奥运金牌,推理能力媲美谷歌,直接迎来了AI“自由配置”时代。
“人们认为 DeepSeek 是一次突破,但我们以更大的规模回归。”项目贡献者陈芳在社交媒体上的这一“大胆声明”无异于向全球人工智能界“严厉宣战”。

网络瞬间火爆,无数网友涌入评论区,有人高呼:“ChatGPT安息!”
经过他的评估,知名YouTube SEO博主Julian Goldie直言,这个新推出的模型向几乎所有编程和高级推理测试的高额费用和严格壁垒的闭源巨头发出了强有力的挑战。

DeepSeek-V3.2不仅获得了编程大赛的金牌,还轻松解决了奥林匹克级别的数学题。更神奇的是,它完全开源,支持直接本地运行,成本仅为GPT-5的1/25。
一位网友惊呼:“有些人不明白这篇文章有多重要!”这不仅是技术突破,更是对“开源落后闭源八个月”的说法敲响了警钟。

我们一起来看看白皮书和“新发布”的技术报告,看看这个V3.2如何跻身“最佳AI”之列。且看这会不会是一张“通往时代的免费门票”。
有网友评论称,我国上层模型应用层的“复苏窗口”已基本关闭编者按:中美人工智能竞争已进入激烈的“肉搏战”阶段。
您还在支付高昂的 API 费用吗?抱歉,已经有人开着一辆免费的“顶级超级跑车”上路了。

01 极致性能:Speciale的“奥运金牌收藏家”模式
Goldie表示,本次发布的重点肯定是DeepSeek-V3.2-Speciale。这个拥有6850亿个参数的“大智能”直接自带一堆闪亮的“成绩单”,每个闭源模型都感受到了“别人家孩子”的压力。
你在干什么?这是一次“金色的收获”。
·2025年国际数学奥林匹克(IMO):Speciale获得35/42分,获得金牌
· 国际信息学奥林匹克竞赛(IOI):获得492/600分,再次夺得金牌
· ICPC世界总决赛:一次解决10/12题,直接锁定。综合排名第2
看到这一系列结果,有网友立刻“跳了起来”。 “获得 IMO、CMO、ICPC 金牌?🏅 DeepSeek 的 Speciale 不仅打破了界限,而且还颠覆了界限!这样的竞技成绩,足以引起整个领域的关注。绝对震撼! 🚀”

在与闭源巨头的正面枪战中,Speciale打出了自己的“王牌”,直接“将GPT-5和Gemini 3.0 Pro按在地上,相互摩擦”。这一事实表明,开源模式可以成为更高水平的代名词。
· 美国数学竞赛AIME 2025:Speciale变体通过率为96.0%,高于GPT-5-High的94.6%和Gemini-3.0-Pro的95.0%。
· 哈佛大学与麻省理工学院HMMT数学竞赛得分高达99.2%,超越Gemini的97.5%。
同时,标准版V3.2的模型得分在AIME和HMMT中分别为93.1%和92.5%。虽然比领先模型略低,但消耗的计算资源要少得多。
在编程基准测试中,DeepSeek-V3.2成功解决了SWE-Verified中73.1%的实际软件错误。相比之下,GPT-5-High 为 74.9%。
在衡量复杂编码工作流程的 Terminal Bench 2.0 上,其得分为 46.4%,明显高于 GPT-5-High 的 35.2%。这意味着您在处理复杂的真实代码工作流程时可以获得更清晰的见解和更高的效率。 Iste只是程序员的“顶级插件”。
有网友评论称,新的DeepSeek模型非常强大,其性能已经可以直接与GPT-5、Gemini 3.0等最好的闭源模型竞争。特别是数学竞赛等推理任务的表现,显示了开源模型的新高度。免费开源的模式已经这么好了,已经不值得花钱去使用闭源的 API 了。这预示着开源时代的全面到来。

“大揭秘”白皮书:三大突破打破性能魔咒DeepSeek团队在白皮书中承认了核心问题。这是因为,尽管开源社区做出了努力,专有的闭源模型(Anthropic、OpenAI 等)在性能方面的提升速度更快,而且两者之间的性能差距并没有缩小,反而似乎在扩大。
然而,V3.2 的出现是为了结束这个“魔咒”。它的成功并不在于简单的算力积累,而是基于三项革命性的技术进步。戈尔迪这样总结:
1. 智慧护理机制
传统大型模型在读取长文档时“又慢又贵”的原因是它们需要更高程度的关注和监控一切的机制,这会成倍增加成本。 DeepSeek 的解决方案是稀疏出席者 (DSA) 与“闪电索引器”的结合。
DSA 不是扫描所有令牌,而是通过“闪电索引器”快速检索它们,并仅选择并关注最重要的令牌。它就像人工智能翻阅一本厚厚的书来理解要点,而不是逐字阅读。因此,即使在处理超长128K上下文时,speedInference质量也提高了约3.5倍,内存使用量减少了70%,令牌消耗也显着减少,盈利能力显着提高。
2、“抛硬币”后的训练
大多数AI公司在模型的主训练(预训练)完成后,只投入一小部分预算用于后训练(微调)。 DeepSeek 将其预训练总预算的 10% 以上直接投入到基于强化学习的后期训练中。
这种巨大的投资和专门的强化学习技术显着提高了模型的稳定性和最终功能。他们不再满足于“易用性”,而是寻求“专家级性能”。
3. Agent合成训练:拒绝“金鱼记忆”
V3.2 Speciale 型号专为代理人的作品授权而设计。 Its main strength is its “chain of thought” approach, which allows the tool to be invoked multiple times without having to start from scratch.
此次培训的目的是为了解决传统AI在工具之间调用时“丢思路”的老问题。为了实现其目标,DeepSeek 创建了一个专门的综合训练管道,旨在改进该工具的使用。这使得V3.2能够原生支持“推理和工具”,从而实现复杂而复杂的解决方案。 Ideal for multi-step workflows.
Personal Experience: The Temptation and Reality of Running the “Gold Medal Model” for Free
The craziest thing, according to Goldie, is that it can be done completely locally.
DeepSeek V3.2 在 Hugging Face 托管网站上完全开源,提供模型权重、聊天模板和本地导航指南。 This is a boon for document assistant creators, agent system developers, and long-context 聊天机器人设计者。
顽固的极客可以直接访问 Hugging Face 或 GitHub,使用 VLLM、Kaggle、Google Colab 或 Transformers 库来玩代码并在本地运行。
尝鲜者可以访问DeepSeek官网,直接在网页上体验V3.2的“深度思考”和“非深度思考”模式。然而,我们必须醒来。从实际测试中可以看出,V3.2 目前尚未完全集成到 Ollama 和 Open Router 等有用的第三方平台中。
所以如果你不是“代码专家”,需要做“复杂的编码工作”来部署在本地,便利性确实打了折扣。
“老实说,对我来说,如果它不是那么容易使用,比如必须去 Hugging Face 并使用代码之类的东西,我可能不会使用它,因为它会花费太长时间,”戈尔迪说。
但戈尔迪表示,如果它可以直接集成到聊天界面中,他将有兴趣尝试一下,看看它是如何工作的。
优点和局限性:5 个优点和 3 个重要限制
当然,无论模型多么强大,仍然存在“成长的烦恼”。
Goldie 总结了 DeepSeek V3.2 的五个主要优势。它具有处理非常大的上下文的能力(DSA机制的核心)。茄子,高效的推理(令人难以置信的快速),推理和工具使用方面的出色表现(强大的代理能力),专家级的性能(在基准测试中优于付费模型),并且完全开源。
然而,它也有三个重要的局限性。这意味着它仍然落后于现代世界的知识(“恢复课程”定量需要外部搜索 RAG),评分效率没有得到很好的优化,非常复杂的推理需要完善。
在Goldie看来,V3.2应该被视为“推理和工作流引擎”,而不是知识问答机。如果您是文档助理创建者、代理系统开发人员或长上下文聊天机器人设计者,这就是“魔法”武器”你一直在等待。
DeepSeek V3.2的推出不仅是一个新的模式,更是一个历史的转折点。使用真实的性能数据和慷慨的开源策略,我们宣布开源和闭源之间的性能差距正在迅速缩小。
开源巨头已经出现。您准备好迎接人工智能工作流程了吗?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注