mg游戏app 刚刚，DeepSeek暗暗测试新模子：百万token高下文、V4要来了？

mg免费游戏试玩平台

热点资讯

牛牛

发布日期：2026-02-14 23:34 点击次数：138

mg游戏app 刚刚，DeepSeek暗暗测试新模子：百万token高下文、V4要来了？

春节假期还没到，DeepSeek 就先把礼物拆了一半。

2 月 11 日，多位用户发现 DeepSeek 的 App 端和网页端如故悄然开动灰度测试一项紧要升级：高下文窗口长度从此前 V3.1 版块的 128K token 平直拉到了 1M（百万）token。DeepTech 考据后证据，不管 App 照旧网页端，模子自述的高下文长度均为“1M”。

与此同期，常识死一火日历也从此前的版块更新到了 2025 年 5 月，在不联网的情况下如故能够准确修起 2025 年 4 月的新闻事件。不外，这个新版块面前仍然是一个纯文本模子，不救援视觉输入，也不具备多模态识别身手。

以往 DeepSeek V3 系列仅 128K 的高下文容量是一个尽头大的短板，本次擢升至 1M 级别可谓跨越无边，此前，Google 的 Gemini 系列起原将高下文推至百万级别。DeepSeek 这次平直对标 Gemini 的高下文长度，算是在这个维度上置身第一梯队。

值得刺宗旨是，就在不到一个月前，开云app官方在线入口DeepSeek 的 GitHub 仓库 FlashMLA（其自研的多头潜在刺眼力解码中枢库）更新中，社区缔造者发现了一个代号为“Model 1”的精巧模子象征，它在 114 个文献中出现了 28 次，当作零丁于面前 V3.2 架构的并行分支存在。

代码层面的陈迹败露，Model1 在 KV 缓存（Key-Value Cache）布局、寥落性处理和 FP8 数据智商解码等方面与 V3.2 存在走漏互异，指向了一次架构层面的紧要重构，而非粗拙的版块迭代。这一发现正好出面前 DeepSeek-R1 发布一周年之际，mg试玩app更与此前媒体征引知情东谈主士的报谈，即 DeepSeek 诡计于 2 月中旬春节前后发布下一代旗舰模子 V4 这一音问相呼应。

那么，今天灰度测试的这个版块，是否等于神话中 V4 的前奏？从技巧逻辑上看，有一些拼图如故摆上了桌面。往常一个多月里，DeepSeek 以疏远的密度一语气发布了两篇病笃论文，首创东谈主梁文锋均签字参与。元旦本日发表的 mHC（Manifold-Constrained Hyper-Connections，流形拘谨超贯穿）处理了大限制模子考研中的牢固性问题。

{jz:field.toptypename/}

紧接着 1 月中旬开源的 Engram 模块则提议了“条款牵记”（Conditional Memory）这一全新寥落性维度，用 O(1) 复杂度的哈希查找取代腾贵的神经荟萃筹画来完成静态常识检索。Engram 论文中非常展示了将高达 100B 参数的镶嵌表卸载到 CPU 内存、GPU 专注推理筹画的身手，极度推理延伸低于 3%。

这种“查算辨别”的架构自然适配超长高下文场景，当高下文窗口扩展到百万级别时，传统的全量刺眼力筹画资本会急剧蔓延，而 Engram 鸠合旧年 V3.2 中引入的 DSA（DeepSeek Sparse Attention）机制，表面上不错权贵缩短长序列推理的筹画支拨。

不外，灰度测试毕竟仅仅灰度测试，离持重发布还有距离。面前尚不明晰这个版块的具体参数限制（据测试，其响应速率似乎要走漏快于 671B 的 V3 系列，有东谈主计算或为 200B 模子）、是否已整合 Engram 和 mHC 等新架构组件，以及它在方式基准测试上的阐述如何，这些信息 DeepSeek 均未表现。

旧年 R1 在农历新年前夜横空出世，激勉世界改动，英伟达市值单日挥发 5930 亿好意思元；而本年 DeepSeek 的故事还在逐步伸开。百万 token 高下文的灰度测试可能仅仅小大除夜的所有开胃菜。确实的大除夜饭，不祥还在背面。

参考贵寓：

1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/

运营/排版：何晨龙

上一篇：mg试玩app 高压电板有隐患，可能自燃！飞驰在好意思调回超1万辆新动力

下一篇：没有了