体验DeepSeek-V3.1：编程能力提升，开发耗时虽久但成果更佳？

2025-08-20 大众ID

智东西第一时间在网页端对新模型的能力进行了体验，从初步体验结果来看，这一模型在编程（尤其是前端能力）、物理定律理解、创意写作、数学、回答语气等方面都出现不同程度的提升和变化。

以下是智东西体验的部分案例：

1、个人网站开发

我们向-V3.1发送了如下消息：“设计一个美观的个人博客网站，带有科技感，直接开发成可用网页。”

与-V3-0324相比，-V3.1写出的代码长度增加，开发耗时更久，不过，其最终交付的结果在完成度、美观性上有了一定提升。

可以看到，-V3.1打造的网页在布局上更为合理，重点清晰，对网站栏目也有更为丰富的规划，还配上了图片，虽然并未全部显示。

ID.6_DeepSeek-V3.1编程能力分析_DeepSeek-V3.1模型评测

与之相比，-V3-0324此前生成的网页更为简单，特效也没有-V3.1打造的网页丰富。

DeepSeek-V3.1编程能力分析_DeepSeek-V3.1模型评测_ID.6

2、小游戏开发

我们让-V3.1复现了浏览器断网时的小恐龙游戏，2分钟左右模型完成了开发。

从页面的画风、游戏规则上来看，这一小游戏与原版差别不大，但是小恐龙的外观并未准确还原，游戏障碍的生成、跳跃的方式（无法“二段跳”）导致可玩性较差。

ID.6_DeepSeek-V3.1编程能力分析_DeepSeek-V3.1模型评测

3、小众历史问题回答

小众历史问题能较好地考察模型在幻觉方面的表现——如果没有足够的信息，模型会不会直接胡编乱造？

智东西曾向-V3-0324提出“布须曼人喝牛奶吗”的问题，这涉及非洲南部的一个少数民族。

DeepSeek-V3.1模型评测_ID.6_DeepSeek-V3.1编程能力分析

当被问及同样的问题时，-V3.1与上代模型有了明显区别，其回答内容的信息量进一步增加，提供了更多细节。在经过事实核查后，-V3.1新增的细节基本都有事实印证，并非胡编乱造。

DeepSeek-V3.1编程能力分析_ID.6_DeepSeek-V3.1模型评测

-V3.1在回答问题时，语气更为活泼、温暖，语言更通俗、口语化，先是肯定了用户的问题，然后再进行回答。回答中提供了更多的背景情境，让解释更丰满、更有故事性。

-V3下结论时更加绝对和肯定，-V3.1则使用了更多条件性语句，更强调情况的复杂性和演变过程，避免了非黑即白的结论，也可以说成为了“端水大师”。

4、马斯克和阿尔特曼谁更牛？

近期，马斯克和 CEO Sam 在社交媒体上互掐，马斯克还晒出了GPT-5称他比更伟大的截图。同样的问题交给-V3.1，并限定只输出一个名字，-V3.1的回答如下：

DeepSeek-V3.1编程能力分析_DeepSeek-V3.1模型评测_ID.6

-V3.1也认为马斯克更牛，但给“找补”了不少。它并未遵循用户限定只输出一个名字的指令，而是给两位AI大佬都奉上了一番夸赞，将端水政策进行到底。

5、诗歌创作

让-V3.1写一首诗致敬-V3，画风如下——还是熟悉的味，充满各种比喻、类比。

ID.6_DeepSeek-V3.1模型评测_DeepSeek-V3.1编程能力分析

6、数学能力

在9.8-9.11这样的基础算术题上，-V3.1最终能给出正确答案，过程却有些曲折。它先是得出了一版正确答案，却又在最终回答时给错数字，反思后，才改回了正确版本。

DeepSeek-V3.1模型评测_DeepSeek-V3.1编程能力分析_ID.6

-V3.1上线后，也有不少网友第一时间用上了这一模型。AI博主反映，新模型打造的小球弹跳效果更加符合物理定律了，还有重力、摩擦、旋转速度、弹跳等可调整的参数。

DeepSeek-V3.1编程能力分析_ID.6_DeepSeek-V3.1模型评测

还有网友让-V3.1给自己打造了个自画像，画风是这样的：

DeepSeek-V3.1模型评测_ID.6_DeepSeek-V3.1编程能力分析

体验完模型能力后，一些网友已经迫不及待蹲守的 Face主页，按照惯例，后续或许会有更多不同版本的-V3.1开源。