第314章 CERN的数据灾难(1/2)
参观完地下100米的s探测器后,针对run3海量数据举办的“高能物理高级数据分析与唯象学研討会”,在的圆形报告厅內正式拉开了帷幕。
徐辰原本对这种纯物理的会议兴致寥寥,他跟著孔采维奇来日內瓦,本质上就是抱著“公费旅游”外加“见世面”的心態。
但拿人的手短,吃人的嘴软。
既然用了的经费报销了tgv高铁票和星级酒店,而且孔采维奇还动用特权带他去看了平时绝对不对外开放的lhc內部,徐辰觉得,自己如果不去会场坐上几节课,良心上多少有点过意不去。
於是,接下来的两天,徐辰老老实实地端著咖啡,和皮埃尔、安德烈一起坐在了报告厅的后排。
……
连著听了三场报告,徐辰算是彻底搞明白了这帮物理学家现在的困境。
简单来说,就四个字:数据灾难。
在过去的run3运行期里,lhc那两束几乎达到光速的质子束,每秒钟要在探测器中心迎头相撞4000万次!
每一次碰撞,都会產生数以千计的次级粒子,像烟花一样在探测器內炸开。s和ats探测器就像是两台超级相机,以每秒千万张的速度疯狂抓拍这些轨跡,生成海量的电子信號。
即使经过了异常严苛的硬体触发器的实时过滤,扔掉了99.99%的“无用”数据,最终存入数据中心的有用数据,依然达到了恐怖的数十pb(1pb=1024tb)级別!
这被扔掉的99.99%其实也是一种无奈的妥协。因为人类目前的存储技术和写入带宽,根本无法吃下每秒四千万次碰撞產生的全部原始信號。物理学家们只能设定一些死板的“閾值”,比如能量不够的、轨跡不够弯曲的,在千分之一秒內直接被晶片硬体物理销毁。谁也不知道,那些被当成垃圾扔掉的99.99%里,是否就藏著通往新世界的钥匙。
而保留下来的这极其珍贵的万分之一,如果把这些数据列印成a4纸,能堆到月球再绕回来几圈。
物理学家们要做的,就是从这几十pb的浩瀚数据海中,寻找可能只出现了几次、甚至一次的“超越標准模型”的新粒子信號——比如超对称粒子,或者暗物质候选者。
这就是典型的“大海捞针”。
更准確地说,这叫“在重金属摇滚音乐会的音箱旁边,试图听清一只特定品种的蚊子在打喷嚏”。
因为质子內部的夸克和胶子在强相互作用下碎裂时,会產生海量的普通粒子,这就是所谓的“qcd本底噪声”。
这些噪声的信號强度,往往是未知新粒子信號的几百万倍甚至上亿倍。
……
台上的报告人换了一茬又一茬。
来自麻省理工的实验团队展示了他们最新的机器学习过滤算法;牛津大学的理论物理学家试图用高维弦论来解释某些异常的散射振幅;甚至还有日本kek实验室的代表,提出了一种基於复杂网络拓扑的数据聚类方法。
这种连轴转的密集报告,其核心目的並非炫耀,而是“技术排雷”与资源共享。毕竟,高能物理的数据分析早已进入了深水区,那些容易被发现的“低垂的果实”在十年前发现希格斯玻色子时就已经被摘光了。
面对如今极其复杂的微观图谱,传统的分析方法已经捉襟见肘,很难再有新的实质性发现。
就拿目前最火的ai和机器学习来说,麻省理工的团队在台上坦言,ai在这个领域面临著“无米之炊”。因为ai需要庞大的“训练集”来认东西,但物理学家要找的是“未知的新粒子”,连它长什么样、什么衰变特徵都不知道,根本没法给ai打標籤。
本章未完,点击下一页继续阅读。