Share - WeChat
9月29日
DeepSeek宣布
官方App、网页端、小程序
均已同步更新为
DeepSeek-V3.2-Exp
顾名思义
这是一款实验性
(Experimental)版本
用于探索下一代架构的可能性
DeepSeek介绍
得益于新模型服务成本的
大幅降低
官方API价格也相应下调
在新的价格政策下
开发者调用DeepSeek API的成本
将降低50%以上
作为迈向新一代架构的
中间步骤
V3.2-Exp在此前版本基础上
引入了DeepSeek Sparse Attention
(一种稀疏注意力机制)
针对长文本的训练和推理效率
进行了探索性的优化和验证
实现了长文本训练
和推理效率的大幅提升
有媒体分析
DeepSeek给出的信号很明确
不仅要在架构层面探索新路径
也要通过成本的下降
加速开发者的涌入
或将推动DeepSeek生态
更大规模增长
目前
华为云已完成
对DeepSeek-V3.2-Exp模型的
适配工作
最大可支持
160K长序列上下文长度
寒武纪也发文称
公司已同步实现对深度求索公司
最新模型DeepSeek-V3.2-Exp的适配
并开源大模型推理引擎
vLLM-MLU源代码
DeepSeek也已将
DeepSeek-V3.2-Exp模型
在Huggingface和
ModelScope平台上全面开源
相关论文
也已同步公开
值得一提的是
连日来
DeepSeek持续推进模型迭代
8月21日
宣布发布DeepSeek-V3.1
9月22日
宣布DeepSeek-V3.1已更新至
DeepSeek-V3.1-Terminus版本
因Terminus在拉丁语里
是终点、界限的意思
故当时业界猜测这是否会是
V3系列的终极版本
并期待下一个发布的
将是大版本更新
目前看起来这个猜测并不成立
撰文:李飞 编辑:雷渺鑫 统筹:李政葳
参考:DeepSeek微信公众号、中国证券报、第一财经
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。