首页 > 武侠修真 > 重回1990：我的科技强国路 > 第405章天权6號热功耗攻坚

第405章天权6號热功耗攻坚（1/2）

请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能，避免出现内容无法显示或者段落错乱。

合城未来科技中央研究院的灯光已经连续亮了七十二个小时。

章宸从法兰克福飞回时是凌晨三点，他没有回家，直接让司机开到了研究院楼下。电梯门打开，走廊里的空气混杂著助焊剂和咖啡的味道——那是晶片验证团队连续作战的標誌性气息。林薇的办公室门半掩著，里面传出低哑的討论声。

推门进去，林薇正对著三块屏幕上的热成像图蹙眉。她的眼圈发青，头髮隨意扎在脑后，白大褂袖口沾著一块不知什么时候蹭上的导热硅脂。张京京坐在她旁边，手里捏著一份刚列印出来的失效分析报告，纸面上密密麻麻標註著红色批註。章宸的突然出现让两人同时抬头，林薇没有寒暄，直接把中间那块屏幕转向他。

“天权6號工程样片，第二次全工况热测试。目標功耗四十五瓦，实测峰值五十五瓦，超出目標值百分之二十二。”她用手指在屏幕上的热成像图上画了一个圈，“热量集中在gpu计算核心区域，这个区域的功率密度已经超过了每平方毫米零点八瓦，比天权5號高出一倍半。再往上加散热方案就只能上液冷，但我们的目標场景是终端设备，液冷不是选项。”

章宸拉过一把椅子坐下，仔细看了一遍热成像图的每一处热点分布。天权6號採用的是异构计算架构，cpu核心群和自研gpu核心群集成在同一颗晶片上，通过高速互联总线交换数据。热成像显示，cpu核心区域温度正常，但gpu核心区域出现了三个明显的热点——分別对应纹理处理单元、张量计算阵列和缓存控制器。其中张量计算阵列的热点温度最高，局部结温已经逼近一百一十度的安全红线。

“泄漏源定位了吗”章宸问。

张京京把失效分析报告摊开在桌上。她用红笔圈出了三个位置：“第一泄漏源是张量计算阵列的时钟树。我们在设计时为了追求算力密度，把张量阵列的时钟频率拉得太高，导致动態功耗超出预算三十一个百分点。第二泄漏源是gpu与共享缓存之间的数据通路，位宽二百五十六比特，全速运行时静態漏电功耗比仿真数据高了四点七倍。第三泄漏源最麻烦——gpu核心与cpu核心之间的互联总线，异构调度时频繁的上下文切换產生了大量的瞬时电流尖峰，这些尖峰在仿真阶段被平均化处理了，没有引起足够重视。”

“仿真掩盖了峰值问题。”章宸一语道破。

林薇点头：“天权5號的冗余设计仿真良率百分之九十九，这套方法论在5號上很成功，团队就惯性延续到了6號。但异构计算的动態功耗波动幅度远大於同构架构，用平均功耗代替峰值功耗做仿真，等於把最危险的部分平滑掉了。”她调出另一组数据，“我们在仿真里看到的是四十五瓦的平均热功耗，但实际工作负载下，gpu张量阵列被调用的瞬间，功耗会在几纳秒內衝到五十五瓦，然后快速回落。这种尖峰式热衝击比持续高温更致命——它不仅影响稳定性，还会加速电子迁移，缩短晶片寿命。”

问题彻底摊开了。三个泄漏源，两个在设计层面，一个在方法论层面。留给团队的时间並不宽裕——天权6號的流片窗口定在十个月后，而解决热功耗问题需要重新设计gpu核心的部分微架构，从rtl修改到功能验证再到物理设计，每一步都卡在临界线上。

章宸没有急於定方案，而是问了一个问题：“自研gpu架构和之前用的第三方gpuip相比，设计复杂度增加了多少”

林薇从抽屉里拿出一张架构对比图。天权5號使用的是经过深度定製的第三方gpuip核，性能不错但架构黑盒，无法做底层的功耗优化。天权6號的自研gpu架构名为“羲和”，从指令集到微架构全部自研，张量计算阵列、纹理处理单元、缓存层次结构都经过了重新设计，算力密度比第三方ip高出百分之四十，但功耗控制也相应复杂了一倍以上。

“自研架构的方向没有错。”林薇的语气很坚定，“第三方gpuip的黑盒限制我们只能做外围优化，相当於在別人打好的地基上盖房子。羲和架构让我们第一次拥有了gpu底层设计的完整自由度，这次热功耗问题暴露的恰恰是我们可以通过架构优化来解决的——时钟树可以重构，数据通路可以重布，互联协议可以重写。如果还在用第三方ip，遇到同样的功耗问题我们连改的权限都没有。”

这话让章宸想起陈醒在启动“补天”计划时说的那句“我们也能写eda”。自研的代价是踩坑，但不自研的代价是把命脉交在別人手里。两害相权，未来科技选前者。

“三个泄漏源，分三条线同时攻坚。”章宸在白板上画了一个三叉戟结构，“第一条线，张量计算阵列的时钟树重构。目標是把动態功耗降回预算线以內，但不能牺牲算力密度——天权6號的ai推理性能是我们的核心卖点，不能因为解决功耗问题就把性能优势丟掉。”

张京京接话：“可以用多时钟域设计，把张量阵列按工作负载分成四个独立的时钟域。轻负载时只激活一个域，重负载时四个域並行，这样平均功耗和峰值功耗之间的波动幅度可以压缩百分之四十以上。代价是控制逻辑复杂一些，rtl代码量增加大约百分之十五。”

“做。”章宸在白板上写下一个“钟”字，“第二条线，数据通路静態漏电优化。四百七十倍的仿真偏差，说明我们的漏电模型本身就有问题。”

林薇从桌上翻出一份技术文档，递给章宸：“根源找到了。gpu与共享缓存之间的数据通路用的是高速lvds差分信號，仿真时我们用的是常温下的漏电参数。但实际工作中，gpu核心温度升高后，差分对的共模电压会漂移，导致静態偏置电流增大。这个问题可以通过两个手段解决——硬体层面引入自適应偏置校准电路，软体层面让天罡os实时监控温度並动態调整偏置电压。”

“自適应偏置校准电路的复杂度呢”

“大概增加百分之三的晶片面积。但可以换来静態漏电功耗下降六成。”

“值得。”章宸在“钟”字旁边写了一个“漏”字，“第三条线，异构互联总线的瞬时电流尖峰。这个问题牵涉到cpu和gpu的调度协同——张京京，赵静那边的小芯团队有没有可能介入”

林薇和张京京对视了一眼，然后林薇说：“我们討论过。赵静的小芯3.0在ai任务调度上有非常成熟的预判模型，可以用机器学习提前预测gpu的负载峰值，然后在cpu侧做预调度——提前把非紧急任务移出关键路径，拉平瞬时电流尖峰。但这需要羲和架构的gpu驱动层对小芯开放深度接口。”

“开放。”章宸没有任何犹豫，“告诉赵静，从今天起小芯团队正式加入天权6號的功耗攻坚组。她的预判模型需要什么数据，羲和架构就开放什么数据。权限不够就改权限，接口不够就加接口。”

他在白板上的“钟”和“漏”旁边，又写了一个大大的“调”字。时钟重构、漏电优化、调度协同——三条线构成了天权6號热功耗攻坚的核心路线图。

本章未完，点击下一页继续阅读。

章节报错(免登录)

第405章 天权6號热功耗攻坚（1/2）

第405章天权6號热功耗攻坚（1/2）