大多数科学家,不管他们的学科是什么,都依赖数据存储系统来帮助他们从工作中得出结论。
但他们的需求却大不相同。一名研究天气的科学家从分布在世界各地的仪器上收集数据,他可能希望按日期或地区对研究结果进行排序,而另一名研究分子的科学家可能会生成一个单一的大数据集,以评估对潜在疗法的反应。
要建立一个同时满足两者需求的单一数据存储系统几乎是不可能的——一个可能帮助一位科学家的微调可能会降低另一位科学家的系统效率。
“任何人都可以想象一个自定义存储系统来解决一个特定的科学问题,但它需要数年才能得到完全完成并准备生产,”菲尔·凯威尔说,主要的软件开发专业的数学和计算机科学(MCS)部门在美国能源部(DOE)的阿贡国家实验室。
Carns是一个团队的技术负责人,该团队旨在通过确定一组构建模块来解决这个问题,科学家们可以将这些模块集合在一起来设计一个数据存储系统,以满足他们自己的特定需求。MCS的高级计算机科学家罗伯·罗斯是这项他和卡恩斯称之为“麻糬”的新技术的首席研究员。Mochi团队包括来自阿贡、能源部洛斯阿拉莫斯国家实验室、卡内基梅隆大学和HDF集团的研究人员。HDF是一个总部设在伊利诺斯州的非营利组织,致力于推进最先进的开源数据管理技术。
卡恩斯说:“我们这样做是为了当有人想要创建新东西时,他们不会从零开始。”“他们正在从一系列需要的东西中进行选择,以适应他们的数据。”
例如,科学家研究气象数据可以选择组件,可以在多个维度的索引信息,把它与另一个组件可以从许多来源聚合数据,科学家研究分子数据时可以选择一个组件缓存经常使用的信息在本地设备上加速机器学习算法。
每个科学家都可以从使用专门的存储服务中获益,而不必从头创建一个。
无论使用哪个组件,它们都共享相同的底层通信框架,称为Mercury,以有效地在存储和计算资源之间移动大量数据。
这项技术在世界各地的科学家们为美国能源部的第一台百亿亿次超级计算机——阿尔贡的“极光”(Aurora)和美国能源部橡树岭国家实验室(Oak Ridge National Laboratory)的“前沿”(Frontier)——做准备时,需求量很大。每个都将能够完成十亿亿(即。它的运算速度是高端台式电脑的100万倍。
已经有概念验证的Mochi目前正处于测试阶段。它的源代码、示例和文档可以在项目网站上找到,供需要访问大量数据进行工作的科学家使用。
自该项目于2015年启动以来,卡恩斯一直致力于该项目。他说,许多科学家在管理实验产生的数据方面都遇到了困难。
“科学领域的一个普遍问题是,研究人员创建数据的速度比分析数据的速度还要快,”他说。“识别那些与他们试图解决的问题特别有趣和相关的少量数据,可以显著减缓发现的过程。”对于一些科学家来说,提高他们处理数据的能力可以减少从研究中获得可操作信息所需的数周或数月时间。”
这项技术已经被用于分析来自粒子加速器的数据,在医学和材料科学等领域有应用;研究粒子模拟数据,目的是寻找新的能源,如核聚变;并存储机器学习数据,用于识别癌症治疗。