处理、可视化和理解高性能计算数据

客座编辑导言 马修 • Matthew Turk • May 2014

International readers, read this article
in Spanish • in English
Translated by Osvaldo Perez and Tiejun Huang
visualiztion abstract in color

对于计算模拟而言,“大数据”时代在开始之前就已终结。我们实际上生活在无穷数据时代 :计算模型和模拟时刻产生巨量数据,就像倾泻而出的洪流,迅速把存储系统和研究者淹没。目前的挑战不是如何扩大模型,而是使它们保持在可控范围内。

复杂性和容量

模拟器面临的挑战是所接收的数据超出了处理能力,因此迫切需要把数据提炼成一些有意义的、相关的信息片段,而这意味着要“理解”数据和模拟器所生成的数据流。一个常用策略——主要是需求驱动的——是在执行一个计算任务周期内把数据迁移至内存,从而避免把所有监测点都写入磁盘。然而,即使采用这种策略,分析也必须在处理下一套数据之前完成。模拟过程仍旧是西西佛斯(Sisyphean,日复一日把山下的石头往山上滚的巨人,译者注)式的处理、等待、处理和再等待。

我的本职工作属于计算天体物理学,研究第一代恒星的形成。这些恒星形成于暗物质光晕的引力势阱的深处。尽管相关模拟需要从数百万年前的早期宇宙开始,但是这些光晕中心内的时间尺度是以天甚至小时计的。要发现数据的意义,不仅取决于看哪里,还要取决于观察的频率。

然而,计算模拟长征的方向不仅仅是越来越大,模拟还在变得越来越丰富,这既包括物理模型的变量和过程愈加丰富,也包括我们希望从数据中追寻的问题更加复杂。把信息综合起来的挑战随着这些复杂性的增加而成倍增加,因此要探询数据,模拟器需要发展更复杂的工具和技巧。这些工具必须既能应对复杂性,又能应对数据量的增加。本月主题就是针对这个挑战选择了一组文章。

主题文章

“今日计算”五月主题的开篇是Hank Childs和他同事们的 可视化软件的研究挑战,简明扼要地给出了可视化大规模数据的难点所在。作者通过鉴别来自用户和技术需求的挑战而照亮了可视化领域。

我还选择了 基于OpenCL的用于大型模拟数据可视化的重要性驱动的等值面抽取,这篇文章最近发表在《科学与工程计算》上,致力于解决一个有关大型数据集的共性问题:我们如何在保持重要特征的同时还能控制复杂性?作者彭艺、陈莉和雍俊海将此运用到了等值面并详细介绍了如何用OpenCL内核实现自己的算法。

如我刚刚提到的,在可视化过程中做出的选择,有可能鉴别出与科学相关的有趣特征,也可能完全与之失之交臂!在 科学可视化中的活动检测中,Sedat Ozer和他的同事们描述了一种发现相关信息和待检特征的数据筛查机制。

气候数据的超大规模可视化 中,Dean Williams和他的同事们描述了可视化大规模气候数据集的挑战,这些数据可能是真实的,也可能是模拟的。他们给出了查询数据的新方法,也给出了有效地和正确地追溯可视化出处的方法。

发现需要回答的正确问题和找到答案一样具有挑战性,而且往往需要大量的思考和开发。在 可视化暗物质模拟的一种新方法 中,拉尔夫·凯勒、奥利弗·哈恩和汤姆·亚伯要应对的挑战是在宇宙学模拟中理解暗物质相空间的分布。暗物质是一种无碰撞的流体,在模拟中离散化为粒子,大多数可视化技术把这中无碰撞的流体视为数据点集。在这篇文章中,作者提出了可视化暗物质分布的一种新方法,其基础是理解它在相空间的运动过程,从而提高了模拟的真实度,也更具物理依据。

最后, 地球物理涡流的自适应提取和定量分析 描述了从一个复杂的模拟中获取特征的过程。这些过程必须快速而且精准,并且基于对系统的物理理解。肖恩·威廉姆斯和他的同事描述了一种从模拟中识别涡流的方法,能够实现对基础数据更好的理解。

“无限数据时代”的挑战是迷人的,我希望你发现这些文章中提出的方法令人兴奋而且有趣,这正是我的感觉。

Citation

M Turk, "Processing, Visualizing, and Understanding Data from High-Performance Computing," Computing Now, vol. 7, no. 5, May 2014, IEEE Computer Society [online]; http://www.computer.org/portal/web/computingnow/archive/may2014.

Steven Gustafson

马修·特克是哥伦比亚大学副研究员,研究宇宙中第一代恒星的形成,开发面向物理现象大规模模拟和分析的赛博基础设施。他是《科学与工程计算》杂志的CN联络员。他的电子邮件是 matthewturk at gmail dot com.

Average (0 Votes)