Procesando, Visualizando y Comprendiendo los Datos a partir de las Computadoras de Alto Desempeño

Presentación del Editor Invitado • Matthew Turk • May0 2014

International readers, read this article
in English • in Chinese
Translated by Osvaldo Perez and Tiejun Huang
visualiztion abstract in color

Para la simulación computacional la era de los "grandes datos" finalizó antes de comenzar. Actualmente vivimos en la era de los datos infinitos, en donde el flujo torrencial inyectado desde los modelos computacionales y de simulación puede ser tan voluminoso como el generado por todos los valores de todos los instantes, inundando tanto a los discos como a los investigadores con juegos de datos arbitrarios y de alta cadencia. En lugar de luchar con el desarrollo de modelos más grandes, los desafíos se centran hoy en mantenerlos bajo control.

Complejidad y Volumen

Los simuladores encaran los desafíos de recibir más datos de los que pueden procesar. La profundidad necesaria para convertir los datos en una pieza de información relevante con algo de sentido requiere del "'entendimiento" de los datos y de la clasificación del flujo de datos generado por los simuladores. Una estrategia usual, estipulada ampliamente por la necesidad, es el pasar datos de la memoria a una tarea de análisis, durante un cálculo, que evita la escritura de un punto de chequeo completo en el disco rígido. Aun cuando este proceso ocurra, el análisis se debe completar antes que el siguiente juego de datos se pueda procesar. Esta tarea interminable, (al estilo de Sísifo), de procesamiento, espera, procesamiento y espera, continua a lo largo de todo el procesamiento de la simulación.

Mi trabajo se relaciona con la astrofísica computacional en la cual estudio la formación de las primeras estrellas. Tales estrellas se formaron profundamente a partir del potencial gravitacional fuerte de la radiación de la materia obscura. A pesar de la simulación relacionada necesaria para recorrer el tiempo desde el inicio del universo y a través de los millones de años, las escalas temporales relativas a partir de estos centros de radiación son de días o inclusive de horas. Por lo cual tiene sentido que los datos signifiquen no solo la determinación de dónde mirar, sino cuan a menudo debemos mirarlos.

La marcha inexorable del progreso de la simulación computacional no se desplaza solo hacia lo grande y lo más grande; las simulaciones se hacen más ricas, con modelos físicos que contabilizan cada vez más variables y procesos, y las preguntas que podemos preguntar por tales datos se hacen cada vez más complejas, por lo cual los simuladores deben desarrollar herramientas y técnicas más complejas para poder interrogar a tales datos. Las herramientas que los simuladores requieren deben lidiar tanto con la complejidad como con la cantidad, por lo cual el tópico de este mes en procesamiento, visualización y entendimiento de los datos HPC, para lo cual he seleccionado los artículos que se centran en estos desafíos.

Los Artículos

El tema de Mayo de Computing Now lo abre Hank Childs y sus colegas con el artículo "Desafíos de Investigación para la Visualización de Software", el cuál enumera concisa y claramente las dificultades de visualizar una vasta cantidad de datos. Los autores, luminarias en el campo de la visualización, identifican los desafíos que se presentan por los requerimientos técnicos y de uso.

He seleccionado también un artículo reciente publicado en Computing Science & Engineering, titulado "Visualización de Vastas Bases de Datos de Simulación en OpenCL, Guiada por Importancia de la Decimación de Isosuperficies", el cual es un artículo reciente de Computing in Science & Engineering que se centra en un problema usual de las colecciones de datos vastas: en cómo podemos hacer que la complejidad sea tratable mientras preservamos las características importantes. Los autores Yi Peng, Li Chen y Jun-Hai Yong aplican estas isosuperficies y detallan como las utilizan con el núcleo de OpenCL para implementar su algoritmo.

Como he remarcado anteriormente, las elecciones realizadas durante el proceso de visualización pueden identificar características relevantes de interés científico, o no hacerlo por completo. En el artículo "Detección Activa en la Visualización Científica", Sedat Ozer y sus colaboradores describen un mecanismo para desplazarse entre los datos y poder encontrar información relevante y características para examinar.

En el artículo "Visualización de Ultra-escala de Datos Climáticos", Dean Williams y sus colegas describen los desafíos de la visualización de vastos conjuntos de datos como lo son los obtenidos para los datos climáticos, reales o simulados. En [el describen nuevos métodos de interrogación de los datos así como cómo realizar un seguimiento correcto y eficiente de los fuentes de la visualización

Encontrar la pregunta correcta a formular puede ser tan desafiante como encontrar la respuesta y a menudo requiere de un pensamiento y desarrollo considerable. En el artículo "Un Acercamiento Novedoso a la Visualización de los Simuladores de Materia Obscura", Ralf Kähler, Oliver Hahn y Tom Abel consideran los desafíos de comprender la distribución del espacio de fase de la materia obscura en las simulaciones cosmológicas. La materia obscura es un fluido libre de colisiones, que se discretiza en las simulaciones como partículas, la mayoría de las técnicas de visualización presentan a este fluido libre de colisiones como una colección de puntos de datos. En este artículo, los autores presentan un nuevo método de visualización de la distribución de la materia obscura apoyado en el entendimiento de como se mueve esa materia en el espacio de fase, con lo cual se obtiene una mayor fidelidad de la representación física de la simulación.

Finalmente en el artículo "Extracción Adaptativa y Cualificación de los Vórtices Geofísicos" describe el proceso de bosquejar las características de simulaciones complejas. Estos procesos deben ser rápidos de alta precisión y vinculados con un entendimiento físico del sistema. Sean Williams y sus colegas describen un mecanismo para la identificación de vórtices en una simulación, la cual ofrece una mejor comprensión de los datos subyacentes.

Los desafíos de la era de los "datos infinitos" son fascinantes y espero que encuentre que los enfoques presentados en estos artículos sean tan interesantes y excitantes, como lo son para mí.

Citation

M Turk, "Processing, Visualizing, and Understanding Data from High-Performance Computing," Computing Now, vol. 7, no. 5, May 2014, IEEE Computer Society [online]; http://www.computer.org/portal/web/computingnow/archive/may2014.

Steven Gustafson

Matthew Turk es un investigador cuentico asociado a la Universidad de Columbia, en el estudio de la formación de las primeras estrellas del Universo y el desarrollo de la ciber-infraestructura para la simulación y análisis de los fenómenos físicos de escala muy amplia. Es el vínculo entre CN y la revista Computing Science & Engineering. Se lo puede contactar en matthewturk en gmail dot com.

Average (0 Votes)