第301章真理的启迪者三（1/2）

请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能，避免出现内容无法显示或者段落错乱。

稍微適应了一下升级后的大脑，徐辰估摸著deepseek的论文应该是发出来了。

他打开电脑，熟练地登录arxiv，输入了关键词。

果然，那篇论文赫然在列。

徐辰在公寓里下载了这篇论文，仔细研读了一遍。

论文的核心原理极其惊艷，直击当前大语言模型（ll）的软肋：现有的transforr架构虽然通过oe（混合专家）实现了“条件计算”，但缺乏原生的知识查找机制。

当模型需要回忆一个静態事实的时候，比如“巴黎是法国的首都”，它只能通过消耗宝贵的注意力机制和前馈网络层去“重新计算”和“模擬提取”。这就像是让一个顶级数学家去死记硬背电话號码，极大地浪费了推理算力。

而deepseek给出的解法，正是“条件记忆”。

他们引入了一个名为“engra（记忆印跡）”的模块，將经典的n-gra嵌入现代化，实现了o时间复杂度的常数级知识查找。简单来说，模型不再需要死记硬背，而是学会了“查字典”。

论文中还提出了一条“u型缩放定律”，证明了將大约20%到25%的稀疏参数分配给engra模块时，模型性能达到最优。更恐怖的是，由於engra的查找是確定性的，它完全可以绕开昂贵的gpu显存（hb）限制，直接从廉价的主机內存（dra）中进行运行时预取，几乎没有额外的性能开销。

“干得漂亮。”

徐辰看著论文里的架构图，暗自点头。

以他升级后的信息学lv2的眼光来看，梁文锋的这个成果，和系统当初给出的那个完美的d-ltn方案相比，其实做了一些工程上的妥协。

系统方案更偏向於底层硬体架构的微调，而deepseek则是在现有的gpu集群和transforr框架下，做到了软体层面的极致压榨。

“这算是……系统方案的『青春版』”

徐辰摸了摸下巴。

但这已经足够惊艷了。

不出意外，这篇论文將在接下来的几个月里，成为整个ai界討论的焦点。

……

徐辰猜得没错。

此时的曼哈顿下城，摩根史坦利大楼。

高级分析师约翰史密斯正对著电脑屏幕发呆，手里那杯昂贵的冷萃咖啡已经在那儿摆了半个多小时，冰块化了一半，也没动一口。

屏幕上是一份还没写完的研报草稿——《英伟达：算力帝国的黄昏还是黎明》。

约翰感觉自己的头髮都要掉光了。

现在的华尔街，简直就是个精神分裂的疯人院。

一方面，整个美股全靠那几只科技巨头撑著，尤其是英伟达，简直就是全村的希望。只要ai的故事还在讲，只要大模型还需要烧钱买卡，纳斯达克就能接著创新高，大家的年终奖就有著落。

如果英伟达倒了，ai泡沫破裂，美股大盘就会瞬间崩盘，引发系统性的金融危机。到那时，不仅他的饭碗保不住，整个华尔街都要排队去跳楼。

所以，上头的指令很明確：“看多！必须看多！不能让泡沫破了！”

但另一方面，现实的数据却像是一记记响亮的耳光。

年初那个中国小子搞出来的slr架构，已经让训练端对gpu的需求砍了一半。现在好了，deepseek又搞出了个engra，直接在推理端把显存需求给废了！

“这日子没法过了……”

他在研报里敲下了一段极其纠结的文字：

本章未完，点击下一页继续阅读。

第301章 真理的启迪者 三（1/2）