首页 >  新闻中心 > 行业新闻

Share - WeChat

据媒体报道

在DeepSeek-R1

发布一周年之际

新模型“MODEL1”

在开源社区悄然出现

引发业界关注

动作频频引发更新推测

2026年1月以来

DeepSeek动作不断

已陆续发布了两篇技术论文

近日

DeepSeek官方又在GitHub

更新了一系列FlashMLA代码

有开发者统计

在涉及的114个文件中

有数十处提到了

此前未公开的

“MODEL1”大模型标识符

且该标识符与现有模型

“V32”(即DeepSeek-V3.2)

被并列或区分引用

通过代码上下文分析

技术人士推测

“MODEL1”大概率对应一款

采用全新架构的AI模型

其核心技术特征

与现有模型存在明显差异

 

“MODEL1”的技术密码

有分析认为

作为全新架构标识

“MODEL1”与现有模型

有着明显区别

核心优化主要聚焦三大方向

一是重构键值缓存存储逻辑

显存占用降低40%

推理速度提升1.8倍

长文本、长代码处理时

优势更明显

二是加入稀疏FP8解码技术

在提升运算速度的同时

把信息损失率压到5%以下

让普通设备也能跑出高性能

三是适配英伟达最新GPU架构

专门针对SM90和SM100

(分别对应H100/H200显卡

B200显卡)

做了参数优化

部分功能仅对“MODEL1”开放

V3.2无法使用

 

行业猜测:V4还是R2?

相关报道称

结合目前模型文件结构来看

“MODEL1”很可能

已接近训练完成

或推理部署阶段

正等待最终的权重冻结

和测试验证

与此同时

“MODEL1”的身份

引发广泛讨论

不少观点认为

它大概率是

DeepSeek V4旗舰模型

内部代号

也有开发者推测

可能是R系列模型的迭代版R2

业内分析指出

“MODEL1”的曝光

印证了DeepSeek的技术路线

不同于竞争算力规模

其更专注

优化工程效率和控制成本

目前

DeepSeek尚未对

“MODEL1”作出回应

但这一意外泄露

让全球AI圈

更加期待DeepSeek团队的技术突破

2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。