第349章 湍流的颜色(求订阅求月票)(1/2)
四月的芝加哥,天气是个狡猾的骗子。
透过戈登综合科学中心(GCIS)的双层隔热玻璃,阳光铺在橡木地板上,泛着金色的暖意。
但只要推开那扇沉重的金属防火门,密歇根湖吹来的湿冷风就会立刻教你做人。
那是种渗入骨髓的阴冷,能瞬间冻僵面部肌肉,把呼出的热气变成白雾。
林允宁推开206实验室的门。
冷风倒灌,搅动了室内原本沉闷的空气。
陈旧的红牛酸味,混合着刚冲泡的星巴克深烘咖啡焦香,扑面而来。
实验室里充斥着一种令人焦虑的低频底噪——
那是服务器机架上几十个散热风扇全速运转的啸叫。
在这个底噪之上,是机械键盘青轴那种清脆、密集、不间断的敲击声。
咔哒咔哒。
节奏快得让人心率加速。
赵晓峰缩在墙角的人体工学椅里。
椅背被拆掉了,取而代之的是一个硬邦邦的记忆棉靠垫,强行矫正着他佝偻的脊椎。
他面前竖着两块24寸的戴尔显示器。
屏幕亮度调到了最高。
幽蓝色的荧光映在他满是油光的脸上,把那个深陷的眼窝照得惨白。
桌面上是灾难现场:
红色的XilixVirtex-5FPGA开发板散落着,连接线纠缠成乱麻,几根探针危地悬在桌沿。
三罐捏扁的红牛易拉罐堆成了一个摇摇欲坠的金字塔。
旁边,是一袋敞口的奇多,橙色的粉末洒在了黑色的鼠标垫上。
而在实验室的另一头,靠窗的位置,是绝对的静止。
苏畅穿着一件宽松的灰色针织开衫,整个人陷在阴影里。
办公桌面干净整洁,只有几张写满字的A4纸。
她盯着窗外光秃秃的橡树枝桠,眼球几乎一动不动,甚至连呼吸的起伏都难以察觉。
手中的圆珠笔在指间无意识地转动,笔尖悬在纸面上方一毫米处,迟迟没有落下。
“醒醒神。”
林允宁把手里的托盘放在公共桌上,纸杯底座磕在桌面上,发出沉闷的响声。
“馥芮白是晓峰的,燕麦拿铁是苏畅的。没加糖,只有咖啡因。”
赵晓峰像是被触发了某种硬件中断,猛地从代码堆里拔出脑袋。
他眼球上布满了红血丝,眼神聚焦了足足两秒才看清来人。
“林老师……你真是我的救命恩人。”
赵晓峰抓过咖啡,甚至没试温就灌了一大口。
滚烫的液体顺着食道滑下去,他龇牙咧嘴地吸了口气,随后长叹一声,整个人瘫软在椅子上。
“Res-20在FPGA上的并行化遇到了死结。”
他指了指屏幕上一条陡峭上升然后突然断崖式下跌的红色曲线,声音沙哑,“为了追求吞吐量,我把流水线拆到了极致,每个时钟周期都塞满了乘法运算。
“现在的推理速度提升了30%,但是……”
他用力敲了敲回车键,屏幕弹出一串报错日志。
“内存墙(MeoryWall)。DDR3的带宽被吃光了。计算单元大部分时间都在空转,等待数据从内存搬运过来。
“这感觉就像你开着一辆法拉利,却被堵在了晚高峰的肯尼迪高速上,只能怠速烧油。”
林允宁脱下沾着冷气的羽绒服,挂在椅背上。
他拉过一把椅子,坐在赵晓峰旁边,眼神扫过屏幕上那些密密麻麻的时序图。
“别想着怎么把数据从内存里搬来搬去,晓峰。那是无用功。
“冯·诺依曼架构的局限性,没办法单凭算法越过去的。”
林允宁从卫衣口袋里掏出那张在机场候机时随手画的草图,抚平了上面的褶皱,推到赵晓峰面前。
图上没有复杂的电路逻辑,只有一堆排列整齐的方块,中间用单向箭头串联起来,形成了一个紧密的矩阵。
“这是什么?”
赵晓峰推了推鼻梁上厚重的眼镜,凑近看了看,“二维网格?每个节点只有局部连接……这拓扑结构看着眼熟。H.T.Kug的脉动阵列(SystolicArray)?”
“识货。”
林允宁满意地点了点头。
赵晓峰作为清华姚班出身的硬核极客,不仅基础扎实,也称得上是博闻强记。
“可是那是70年代的老古董了,”
赵晓峰眉头拧成了疙瘩,“那是为了做专用矩阵乘法设计的,灵活性太差,编程难度极高。
“现在谁还用这个?大家都转投GPU了,CUDA才是未来。”
“GPU的设计初衷是图形渲染,它的缓存机制是为了纹理映射,不是为了深度学习里的张量计算。”
林允宁拿起一支笔,在草图的方块上点了点。
“既然我们要做AI专用芯片,为什么要追求通用性?
“我要的就是极致的矩阵乘法效率,哪怕它连个如果是(if-else)都算不了。”
他随手在白板上写下一行算式:
C[i][j]+=A[i][k]*B[k][j]
“在传统的架构里,每算一次乘加运算,你就要去内存里读一次A,读一次B,再写回一次C。这种频繁的读写就是你在高速公路上遇到的红绿灯。”
林允宁的手指顺着草图上的箭头滑动。
“但在脉动阵列里,数据不是‘存取’的,而是‘流动’的。
“左边的计算单元(PE)接收数据,完成一次乘法,加上局部结果,然后直接传给右边的邻居。
“上边的传给下边。数据在芯片内部流动一次,就被榨干了所有的计算价值,最后才写回内存。”
赵晓峰盯着那张图,狠狠吞了口口水。
他的手指在桌面上飞快地敲击,似乎在脑海里重新构建电路的时序。
“没有全局总线……全是局部互连……如果这样的话,”
他喃喃自语,“我可以省掉至少40%的片上缓存控制逻辑,把省下来的硅片面积全部塞满乘法器(MAC)。如果不考虑分支预测和乱序执行这些乱七八糟的东西……”
“对,就是这个思路。”
林允宁拍了拍他的肩膀,“这个作业交给你了。不用设计完整的TPU,先用Verilog给我写一个16x16的脉动阵列原型。这对你来说并不难,一个月就能搞定吧。”
“两周。”
赵晓峰接受了挑战,顿时来了精神。
他把那袋奇多扔进垃圾桶,转过身面对屏幕。
手指悬在键盘上方停顿了一秒,然后噼里啪啦地敲击起来,节奏比之前更快、更狠。
“只要你不嫌弃我的Testbech写得烂。”
林允宁笑了笑,端起自己的黑咖啡,转身走向窗边。
那边的静止区域依然存在。
苏畅保持着之前的姿势,仿佛被透明的树脂封存了。
实验室里嘈杂的键盘声、风扇声,甚至赵晓峰刚才的抱怨,都在她周围的一米处自动消音。
直到林允宁走到她面前,挡住了窗外刺眼的阳光,在她的桌面上投下一片阴影。
苏畅迟钝地抬起头。
她的瞳孔处于一种不自然的放大状态,眼神没有焦距,像是穿透了林允宁的身体,看着虚空中的某一点。
“林老师。”
她小声叫道,声音很轻,带着一丝从深海浮上来的窒息感。
“那个持续同调(PersistetHoology)的作业,”
林允宁靠在窗台上,视线落在她面前的那几张纸上,“条形码(Barde)图算出来了吗?”
那是一张由计算机生成的拓扑特征图。
横轴是过滤参数(Filtratio),纵轴是同调群的特征生成元。
正常的条形码图应该是一条条清晰的长短线段,代表着数据中存在的拓扑结构(如孔洞、空腔)的寿命。
但苏畅面前的这张图,乱得像一团被猫抓过的毛线。
“我研究了几个月,”
本章未完,点击下一页继续阅读。