
DeepSeek 新模型上线,推理能力直逼 GPT-5 和 Gemini-3.0-Pro
DeepSeek 最近一口气推出了两个新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。这两个版本在推理能力上有了显著提升,V3.2 版本据说能和 GPT-5 硬碰硬,而 Speciale 结合了长思考和定理证明能力,表现媲美 Gemini-3.0-Pro。有网友调侃说:“这模型不应该叫 V3.2,应该叫 V4!”
海外研究者傻眼:英文提问,中文思考
海外研究者迫不及待地试用了 DeepSeek 的新版本,在感慨推理速度提升之余,却碰上了一件让他们摸不着头脑的事:即使用英文提问,模型在思考过程中还是会切回“神秘的东方文字”——中文。这就把海外友人整蒙了:明明没用中文提问,为什么模型还会用中文思考?难道用中文推理更好更快?
评论区炸开了锅,主要有两种观点:一是“汉字的信息密度更高”,二是“训练数据中包含更多中文内容”。
汉字信息密度高?微软论文来撑腰
来自亚马逊的研究者认为,表达相同的文本含义,中文所需的字符量明显更少。如果大模型的理解与语义压缩相关,那么中文在压缩方面比英文更有效率。这或许就是“中文更省 token”说法的来源。
微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现,使用非英语语言进行推理不仅减少了 Token 消耗,还能保持准确性。即使将推理轨迹翻译回英语,这种优势依然存在,这表明变化源于推理行为的实质性转变,而非仅仅是表层的语言效应。
论文评估了 DeepSeek R1、Qwen 2.5 和 Qwen 3 等模型,问题以英语呈现,但模型被指示以中文、俄语、西班牙语等七种语言执行推理步骤。结果显示,与英语相比,使用非英语语言推理能实现 20-40% 的显著令牌降低,且通常不影响准确性。例如,Qwen 3 在韩语推理中 token 减少量高达 73%。
但中文并非最有效率?OneRuler 基准来打脸
从实验结果看,中文确实比英文能节省推理 token 成本,但却不是最有效率的语言。马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》提出了包含 26 种语言的多语言基准 OneRuler,用于评估 LLM 在长达 128K 令牌的长上下文理解能力。
实验表明,随着上下文长度增加,低资源语言与高资源语言之间的性能差距扩大。令人惊讶的是,英语在长上下文任务中排名第 6,而波兰语位居榜首。中文也未进入前五。既然中英文都不是最佳性能语言,那大模型选择思考语言的方式可能不完全以效率为先。
训练数据说:中文语料多,思考自然中文化
所以,评论区的第二种观点“训练数据中包含更多中文内容”似乎更合理。国产大模型采用更多中文训练语料,其思考过程出现中文是正常现象。就像 AI 编程工具 Cursor 的 Composer-1 模型被质疑是中国模型套壳,正是因为其思考过程完全由中文构成。
但类似的事放在 GPT 上就说不通了,毕竟它的训练数据中英文占比更高。不过,今年 1 月有网友发现 OpenAI 的 o1-pro 模型也会随机出现中文思考过程。或许这就是人类语言的魅力,不同的语言有不同的特性,在大模型中总会有各种奇怪的事情发生。
未来展望:大模型的中文时代?
大模型说中文的事情越来越多,中文训练语料也越来越丰富。说不定有一天,我们真能像海外友人自嘲一样笑话大模型:“我并不是要你变成中国人。我是说——当时机成熟时,你照照镜子,就会发现自己早已是中国人了。”
总之,DeepSeek 的中文思考现象引发了关于语言效率、训练数据和模型行为的深度讨论。无论是汉字的信息密度优势,还是中文语料的潜移默化,这都预示着多语言模型在全球化应用中的复杂性和趣味性。开发者们,准备好迎接更多语言相关的 AI 奇观吧!
登录后参与讨论
加入社区,与大家分享您的独特见解。
立即登录