首页 > 武侠修真 > 学霸的征途是星辰大海 > 第301章 真理的启迪者 三

第301章 真理的启迪者 三(1/2)

目录

稍微適应了一下升级后的大脑,徐辰估摸著deepseek的论文应该是发出来了。

他打开电脑,熟练地登录arxiv,输入了关键词。

果然,那篇论文赫然在列。

徐辰在公寓里下载了这篇论文,仔细研读了一遍。

论文的核心原理极其惊艷,直击当前大语言模型(ll)的软肋:现有的transforr架构虽然通过oe(混合专家)实现了“条件计算”,但缺乏原生的知识查找机制。

当模型需要回忆一个静態事实的时候,比如“巴黎是法国的首都”,它只能通过消耗宝贵的注意力机制和前馈网络层去“重新计算”和“模擬提取”。这就像是让一个顶级数学家去死记硬背电话號码,极大地浪费了推理算力。

而deepseek给出的解法,正是“条件记忆”。

他们引入了一个名为“engra(记忆印跡)”的模块,將经典的n-gra嵌入现代化,实现了o时间复杂度的常数级知识查找。简单来说,模型不再需要死记硬背,而是学会了“查字典”。

论文中还提出了一条“u型缩放定律”,证明了將大约20%到25%的稀疏参数分配给engra模块时,模型性能达到最优。更恐怖的是,由於engra的查找是確定性的,它完全可以绕开昂贵的gpu显存(hb)限制,直接从廉价的主机內存(dra)中进行运行时预取,几乎没有额外的性能开销。

“干得漂亮。”

徐辰看著论文里的架构图,暗自点头。

以他升级后的信息学lv2的眼光来看,梁文锋的这个成果,和系统当初给出的那个完美的d-ltn方案相比,其实做了一些工程上的妥协。

系统方案更偏向於底层硬体架构的微调,而deepseek则是在现有的gpu集群和transforr框架下,做到了软体层面的极致压榨。

“这算是……系统方案的『青春版』”

徐辰摸了摸下巴。

但这已经足够惊艷了。

不出意外,这篇论文將在接下来的几个月里,成为整个ai界討论的焦点。

……

徐辰猜得没错。

此时的曼哈顿下城,摩根史坦利大楼。

高级分析师约翰史密斯正对著电脑屏幕发呆,手里那杯昂贵的冷萃咖啡已经在那儿摆了半个多小时,冰块化了一半,也没动一口。

屏幕上是一份还没写完的研报草稿——《英伟达:算力帝国的黄昏还是黎明》。

约翰感觉自己的头髮都要掉光了。

现在的华尔街,简直就是个精神分裂的疯人院。

一方面,整个美股全靠那几只科技巨头撑著,尤其是英伟达,简直就是全村的希望。只要ai的故事还在讲,只要大模型还需要烧钱买卡,纳斯达克就能接著创新高,大家的年终奖就有著落。

如果英伟达倒了,ai泡沫破裂,美股大盘就会瞬间崩盘,引发系统性的金融危机。到那时,不仅他的饭碗保不住,整个华尔街都要排队去跳楼。

所以,上头的指令很明確:“看多!必须看多!不能让泡沫破了!”

但另一方面,现实的数据却像是一记记响亮的耳光。

年初那个中国小子搞出来的slr架构,已经让训练端对gpu的需求砍了一半。现在好了,deepseek又搞出了个engra,直接在推理端把显存需求给废了!

“这日子没法过了……”

他在研报里敲下了一段极其纠结的文字:

本章未完,点击下一页继续阅读。

目录
返回顶部