
春节假期还没到,DeepSeek 就先把礼物拆了一半。
2 月 11 日,多位用户发现 DeepSeek 的 App 端和网页端如故悄然开动灰度测试一项紧要升级:高下文窗口长度从此前 V3.1 版块的 128K token 平直拉到了 1M(百万)token。DeepTech 考据后证据,不管 App 照旧网页端,模子自述的高下文长度均为“1M”。
与此同期,常识死一火日历也从此前的版块更新到了 2025 年 5 月,在不联网的情况下如故能够准确修起 2025 年 4 月的新闻事件。不外,这个新版块面前仍然是一个纯文本模子,不救援视觉输入,也不具备多模态识别身手。

以往 DeepSeek V3 系列仅 128K 的高下文容量是一个尽头大的短板,本次擢升至 1M 级别可谓跨越无边,此前,Google 的 Gemini 系列起原将高下文推至百万级别。DeepSeek 这次平直对标 Gemini 的高下文长度,算是在这个维度上置身第一梯队。
值得刺宗旨是,就在不到一个月前,开云app官方在线入口DeepSeek 的 GitHub 仓库 FlashMLA(其自研的多头潜在刺眼力解码中枢库)更新中,社区缔造者发现了一个代号为“Model 1”的精巧模子象征,它在 114 个文献中出现了 28 次,当作零丁于面前 V3.2 架构的并行分支存在。

代码层面的陈迹败露,Model1 在 KV 缓存(Key-Value Cache)布局、寥落性处理和 FP8 数据智商解码等方面与 V3.2 存在走漏互异,指向了一次架构层面的紧要重构,而非粗拙的版块迭代。这一发现正好出面前 DeepSeek-R1 发布一周年之际,mg试玩app更与此前媒体征引知情东谈主士的报谈,即 DeepSeek 诡计于 2 月中旬春节前后发布下一代旗舰模子 V4 这一音问相呼应。
那么,今天灰度测试的这个版块,是否等于神话中 V4 的前奏?从技巧逻辑上看,有一些拼图如故摆上了桌面。往常一个多月里,DeepSeek 以疏远的密度一语气发布了两篇病笃论文,首创东谈主梁文锋均签字参与。元旦本日发表的 mHC(Manifold-Constrained Hyper-Connections,流形拘谨超贯穿)处理了大限制模子考研中的牢固性问题。
{jz:field.toptypename/}紧接着 1 月中旬开源的 Engram 模块则提议了“条款牵记”(Conditional Memory)这一全新寥落性维度,用 O(1) 复杂度的哈希查找取代腾贵的神经荟萃筹画来完成静态常识检索。Engram 论文中非常展示了将高达 100B 参数的镶嵌表卸载到 CPU 内存、GPU 专注推理筹画的身手,极度推理延伸低于 3%。
这种“查算辨别”的架构自然适配超长高下文场景,当高下文窗口扩展到百万级别时,传统的全量刺眼力筹画资本会急剧蔓延,而 Engram 鸠合旧年 V3.2 中引入的 DSA(DeepSeek Sparse Attention)机制,表面上不错权贵缩短长序列推理的筹画支拨。
不外,灰度测试毕竟仅仅灰度测试,离持重发布还有距离。面前尚不明晰这个版块的具体参数限制(据测试,其响应速率似乎要走漏快于 671B 的 V3 系列,有东谈主计算或为 200B 模子)、是否已整合 Engram 和 mHC 等新架构组件,以及它在方式基准测试上的阐述如何,这些信息 DeepSeek 均未表现。
旧年 R1 在农历新年前夜横空出世,激勉世界改动,英伟达市值单日挥发 5930 亿好意思元;而本年 DeepSeek 的故事还在逐步伸开。百万 token 高下文的灰度测试可能仅仅小大除夜的所有开胃菜。确实的大除夜饭,不祥还在背面。
参考贵寓:
1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/
运营/排版:何晨龙
上一篇:mg试玩app 高压电板有隐患,可能自燃!飞驰在好意思调回超1万辆新动力
下一篇:没有了

备案号: