Chousei's 数字花园

DeepSeek-V4 如何让"百万 token 上下文"从不可能变成现实

DeepSeek-V4 如何让"百万 token 上下文"从不可能变成现实

DeepSeek-V4 通过 CSA/HCA 混合注意力、mHC 流形约束超连接、Muon 优化器三大核心技术创新，在 100 万 token 上下文场景下实现推理成本降至上一代的 27%、缓存占用降至 10% 的突破。

2026-05-08 01:41

2026年5月7日科技资讯速递

2026年5月7日科技资讯速递

开源权重收紧、Go 语言 FIPS 认证、cursed_browser 奇思妙想、GitHub 热门项目……今日科技圈精彩资讯一文打尽。

2026-05-07 09:29

DeepSeek-V4 的后训练揭秘：让一个模型同时成为数学家、程序员和Agent

DeepSeek-V4 的后训练揭秘：让一个模型同时成为数学家、程序员和Agent

为什么一个AI模型同时擅长数学、编程、工具调用和写作这么难？DeepSeek-V4用两阶段后训练框架回答了这个问题——先让数学、编程、Agent、指令跟随各自独立成专家，再用逆向KL散度蒸馏把它们合为一体。详解专家独立训练+OPD全词汇表蒸馏的技术逻辑。

2026-05-06 04:54

深度解读 DeepSeek-V4：三项核心技术创新

深度解读 DeepSeek-V4：三项核心技术创新

深入解析 DeepSeek-V4 的 CSA/HCA 混合注意力、mHC 流形约束超连接、Muon 优化器三项核心技术突破，探讨其如何实现百万 Token 上下文与极致效率的平衡

2026-04-24 06:39