Share - WeChat
据媒体报道
在DeepSeek-R1
发布一周年之际
新模型“MODEL1”
在开源社区悄然出现
引发业界关注

动作频频引发更新推测
2026年1月以来
DeepSeek动作不断
已陆续发布了两篇技术论文
近日
DeepSeek官方又在GitHub
更新了一系列FlashMLA代码
有开发者统计
在涉及的114个文件中
有数十处提到了
此前未公开的
“MODEL1”大模型标识符
且该标识符与现有模型
“V32”(即DeepSeek-V3.2)
被并列或区分引用
通过代码上下文分析
技术人士推测
“MODEL1”大概率对应一款
采用全新架构的AI模型
其核心技术特征
与现有模型存在明显差异
“MODEL1”的技术密码
有分析认为
作为全新架构标识
“MODEL1”与现有模型
有着明显区别
核心优化主要聚焦三大方向

一是重构键值缓存存储逻辑
显存占用降低40%
推理速度提升1.8倍
长文本、长代码处理时
优势更明显
二是加入稀疏FP8解码技术
在提升运算速度的同时
把信息损失率压到5%以下
让普通设备也能跑出高性能
三是适配英伟达最新GPU架构
专门针对SM90和SM100
(分别对应H100/H200显卡
B200显卡)
做了参数优化
部分功能仅对“MODEL1”开放
V3.2无法使用
行业猜测:V4还是R2?
相关报道称
结合目前模型文件结构来看
“MODEL1”很可能
已接近训练完成
或推理部署阶段
正等待最终的权重冻结
和测试验证
与此同时
“MODEL1”的身份
引发广泛讨论
不少观点认为
它大概率是
DeepSeek V4旗舰模型
内部代号
也有开发者推测
可能是R系列模型的迭代版R2
业内分析指出
“MODEL1”的曝光
印证了DeepSeek的技术路线
不同于竞争算力规模
其更专注
优化工程效率和控制成本
目前
DeepSeek尚未对
“MODEL1”作出回应
但这一意外泄露
让全球AI圈
更加期待DeepSeek团队的技术突破
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。