首页 > 灵异恐怖 > 大白话聊透人工智能 > 商汤大装置算电协同:给智算中心装“智能能源大脑”

商汤大装置算电协同:给智算中心装“智能能源大脑”(1/2)

目录

商汤在第二十届中国Idc产业年度大典上分享的算电协同实践,说白了就是给智算中心这个“AI算力工厂”解决了用电的大难题——现在跑大模型的智算中心就是个巨型“电老虎”,不仅耗电多、电费贵,还经常因为电力供应不稳导致算力任务中断。商汤靠一套“能源大模型+智慧储能系统”的组合拳,让算力和电力精准配合,实现了“算随电用、电随算动”,既降了成本,又保了稳定,还贴合了“双碳”目标,

一、为啥智算中心非得搞“算电协同”?——电力已经成了AI发展的“卡脖子”难题

现在AI大模型越做越大,训练一个千亿参数的模型,需要成千上万的服务器连轴转,这些服务器堆在一起的智算中心,就是个实打实的“电老虎”。但行业里一直有两个绕不开的用电痛点,不解决的话,AI算力想发展根本无从谈起。

1.数据“各玩各的”,电力浪费严重

智算中心里有三类关键数据:一是AI训练任务的数据,比如今天要跑视频生成模型、明天要做数据分析;二是服务器集群的负载数据,比如现在有多少服务器在干活、负载有多高;三是电力调度的数据,比如电网什么时候电价便宜、什么时候绿电(风电、光伏)多、电网能提供多少电力。

但现在这三类数据就像三个互不搭理的“部门”,电力系统不知道智算中心接下来要干啥、需要多少电,智算中心也不知道电网的电力情况,只能“瞎用电”。比如电网深夜电价低、绿电充足时,智算中心的算力任务可能正处于低谷,白白浪费了便宜电;而白天电网用电高峰、电价高时,智算中心又刚好要跑大模型,需要大量电力,不仅电费飙升,还可能因为电网供电不足导致任务中断。这种数据孤岛,让智算中心的电力使用效率大打折扣,钱花了不少,还没办好事。

2.电力波动太坑,算力稳定没保障

大模型训练和推理时,算力负载就像坐过山车,可能上一秒还很平稳,下一秒因为要处理海量数据,负载突然飙升,瞬间需要巨量电力。电网的供电能力是相对固定的,根本跟不上这种“尖峰需求”,很容易导致服务器电压不稳甚至宕机,辛苦跑了几天的大模型训练任务可能直接归零,损失难以估量。

反过来,当算力任务进入低谷,服务器负载骤降,智算中心的电力需求也跟着减少,这时候电网的电力又没处用,造成资源闲置。而且现在国家在推“双碳”目标,智算中心作为高耗能场所,要是不能降低能耗、减少碳排放,后续发展也会受政策限制。

3.全球都在抢赛道,这是国家层面的战略布局

不只是国内有这问题,全球科技强国都在盯着“算力-能源”一体化的布局。比如美国的大数据企业pantir推出了“Rea”平台,把它定位成“美国人工智能基础设施的操作系统”,核心就是把算力调度、电力预测和芯片管理揉到一起,打造国家级的AI基础设施。商汤搞算电协同,不只是为了解决自己智算中心的运营问题,更是在国家战略层面,补齐我国AI基础设施的能源短板,避免在全球AI竞争中落后。

二、商汤怎么破解难题?——两大核心抓手,让算力和电力“心有灵犀”

商汤没有简单地给智算中心装个电表或者买个充电宝,而是从底层逻辑入手,打造了“能源大模型+智慧储能系统”的闭环,让算力和电力能双向适配,真正实现“算随电用、电随算动”。

1.能源大模型:智算中心的“电力预言家+总调度”

商汤自研的能源大模型,就像给智算中心装了个超级聪明的大脑,既能精准预测未来的电力需求,又能实时指挥电力怎么用,核心靠三个独门绝技。

(1)把所有数据串起来,实现“任务-算力-功耗”精准对应

以前智算中心的任务、算力、功耗数据是割裂的,现在商汤通过独创的“能量块”数据模型和“算电功耗模型”,把这些数据全打通了。比如跑一个千亿参数的多模态大模型,能源大模型能精准算出需要启动多少台服务器、每台服务器每小时耗多少电、整个算力集群的总功耗是多少,甚至能对应到配电系统的每一条线路。

简单说,只要输入一个算力任务,能源大模型就能立刻算出“要花多少电”,就像你点外卖时,App能精准算出配送时间和费用一样,再也不用“盲猜”电力需求了。

(2)“能量块”加持,复杂场景也能精准预测

为了让预测更准,商汤把能源本身的数据(比如风电、光伏的发电效率)、用户的用能习惯(比如智算中心什么时候跑大任务)、能源平衡规则(比如电网的供电限制),和算力服务器的信息绑在一起,做成一个个“能量块”,作为分析的基础单元。

就像玩积木时,用不同的积木块能拼出不同造型,这些“能量块”能根据实际情况组合分析,再结合多轮训练优化的算法,哪怕遇到极端天气(比如阴天光伏发电少)、算力任务临时调整等复杂场景,能源大模型也能精准预测未来的能源需求。目前这个模型的能源需求预测准确率已经超过88%,决策准确率超93%,未来还能达到90%-95%的行业顶尖水平。

(3)高频次动态调度,让电力使用“利益最大化”

本章未完,点击下一页继续阅读。

目录
返回顶部