Chousei's 数字花园

  • Home
  • Articles
  • Privacy
  • Contact
DeepSeek-V4 如何让"百万 token 上下文"从不可能变成现实
技术解读

DeepSeek-V4 如何让"百万 token 上下文"从不可能变成现实

DeepSeek-V4 通过 CSA/HCA 混合注意力、mHC 流形约束超连接、Muon 优化器三大核心技术创新,在 100 万 token 上下文场景下实现推理成本降至上一代的 27%、缓存占用降至 10% 的突破。

2026-05-08 01:41
2026年5月7日科技资讯速递
技术解读

2026年5月7日科技资讯速递

开源权重收紧、Go 语言 FIPS 认证、cursed_browser 奇思妙想、GitHub 热门项目……今日科技圈精彩资讯一文打尽。

2026-05-07 09:29
DeepSeek-V4 的后训练揭秘:让一个模型同时成为数学家、程序员和Agent
技术解读

DeepSeek-V4 的后训练揭秘:让一个模型同时成为数学家、程序员和Agent

为什么一个AI模型同时擅长数学、编程、工具调用和写作这么难?DeepSeek-V4用两阶段后训练框架回答了这个问题——先让数学、编程、Agent、指令跟随各自独立成专家,再用逆向KL散度蒸馏把它们合为一体。详解专家独立训练+OPD全词汇表蒸馏的技术逻辑。

2026-05-06 04:54
深度解读 DeepSeek-V4:三项核心技术创新
技术解读

深度解读 DeepSeek-V4:三项核心技术创新

深入解析 DeepSeek-V4 的 CSA/HCA 混合注意力、mHC 流形约束超连接、Muon 优化器三项核心技术突破,探讨其如何实现百万 Token 上下文与极致效率的平衡

2026-04-24 06:39
1 2 3

文章分类

  • AI 72
  • 新闻 99
  • 技术解读 44
  • 动漫 1
  • 游戏 3
  • 经济 7
  • 体育 1
  • 旅游 0
  • 教育 1
  • 文化 3
  • 商业 16
  • 健康 16
  • 科技 62
  • 信息安全 31
  • AI技术 16
  • 科学 10
  • 6 0

标签云

美食 1 Apple 12 科技 244 新闻 99 AI 274 创业 6 新能源 5 半导体 10 OpenAI 33 DeepSeek 10 大模型 32 长上下文 1 蚂蚁集团 1 研究 18 医疗 14 健康 22 技术解读 24 AI安全 51 开源 29 GitHub 3 动漫 0 二次元 0 日本 1 动画 0 春季番 0

Chousei's 数字花园

这里是 Chousei 的数字花园,记录了他的技术思考和生活经验。

Navigation

  • Home
  • Articles
  • Privacy
  • Contact

Contact

  • Email: admin<at>yesiam.monster
  • GitHub

© 2026 Chousei. All rights reserved.