Mejorando la Eficiencia Energética y Potenciando el Paralelismo con el Procesamiento en Memoria y el Procesamiento cercano a los Datos.

Introducción de los Editores Invitados • Kevin Rudd and Richard Murphy • Marzo 2017

Read the Guest Editors’ Introduction in
English   |  Chinese

Translations by Osvaldo Perez and Tiejun Huang


Listen to the Guest Editors' Introduction

English (Steve Woods):

 

Spanish (Martin Omana):

 

Chinese (Robert Hsu):

Mejorando la Eficiencia Energética y Potenciando el Paralelismo con el Procesamiento en Memoria y el Procesamiento cercano a los Datos.

La era de los Grandes Datos promete algunos avances significativos, pero también presenta muchos desafíos nuevos. La potencia de memoria y de procesamiento requeridas para el almacenamiento y el análisis de los datos rápidamente superará lo que la infraestructura actual puede proporcionar. Los centros de datos masivos son costosos y las tendencias indican que tanto la demanda como el costo continuaran creciendo más rápido que la Ley de Moore.

Se proyecta que la memoria consumirá una fracción creciente de la potencia total de un sistema de una plataforma balanceada de exaescala. Maya Gokhale, del Laboratorio Nacional de Lawrence Livermore, ha mostrado que una operación entera de 64 bits consume alrededor de 1 picojoule (pJ), pero que la lectura de DRAM para obtener los datos (sin considerar el consumo por la trasferencia de los datos) es de 16000 pJ por bit. En forma adicional, Bill Dally de Stanford ha estimado que una operación de punto flotante de 32 bits requiere 3,1 pJ, en tanto que la lectura DRAM, para la misma, requiere 640 pJ.

Claramente, el movimiento de los datos hacia el procesador (y su retorno), es un enfoque no sustentable para la computación, porque no mover el procesamiento hacia los datos. El tema de Marzo de 2017 de Computing Now examina la investigación actual en el procesamiento en la memoria, (PIM) y el procesamiento cerca de los datos (NDP), enfoques que se pueden transformar en soluciones oportunas para muchos problemas.  En forma adicional a los sietes artículos recientes principales del tópico, hemos incluido barras laterales con artículos relacionados y recursos que proporcionan un sentido de como este campo se ha desarrollado en los últimos 50 años.

Contexto Histórico

La idea de desplazar la computación hacia los datos no es nueva. Cerca del año 300 antes de cristo, los académicos comenzaron a estudiar en la Biblioteca de Alejandría, si podían tener acceso a todos los libros al mismo tiempo, en lugar de enviar por uno de ellos cada vez. De la misma forma, el procesamiento PIM se desplaza hacia la memoria, de forma tal de no tener que buscar por un dato cada vez.

El PIM ha sido considerado muchas veces a lo largo de la Era de la Información:

A finales de la década de 1960, Harold Stone propuso lógica en la cache, que incluía tanto al procesador como a la memoria en el mismo modulo.

En la década de 1980 la Inmos Transputer tenía tanto el procesador como la memoria en el sustrato.

En la década de 1990, el EXECUBE de Peter Kogge tenía tanto el procesador como la memoria en el sustrato.

En la década de 2000, el procesador vectorial VIRAM de Christoforos Kozyrakis fue integrado en la DRAM.

En la década de 2010 la AMD TOP-PIM tiene tanto el procesador como la memoria en una pila de sustrato 3D.

Estas y muchas otras implementaciones presentan limitaciones de éxito en el mundo real, topándose con costos elevados y capacidades de memoria limitadas.

Un Enfoque Moderno

¿Si la combinación del procesamiento y la memoria no fue exitosa en el pasado, porqué deberíamos continuar investigando en tal idea ahora? La respuesta simple es que la tecnología actual puede superar los problemas del pasado. Ahora tenemos:

Tecnologías de memoria más densas y se han demostrado pilas de memoria 3D

Ensambles 2,5D muy eficientes y pilas 3D de sustrato heterogéneo

Nuevas arquitecturas y tecnologías de fabricación para ayudar a balancear las capacidades y los requerimientos

Mejores capacidades y protocolos para el movimiento de los datos

Adicionalmente, hemos alcanzado la muralla de la memoria y la potencia, así como superado tanto a la ley de Moore como de Dennard, las cuales han enmarcado a varias generaciones de sistemas de computación. Creemos que el momento es el adecuado y la demanda es fuerte, para este enfoque

Los Artículos

En “Migración de Tareas por Granularidad Fina para Algoritmos de Grafos utilizando el Procesamiento en Memoria,”   Paula Aguilera y sus colegas utilizan los patrones de acceso irregular de algoritmos basados en grafos para motivar la necesidad de memorias 3D basadas en cubos NDP. El articulo combina muchos de los elementos históricos centrales del PIM clásico (incluido el desplazamiento del trabajo) para proporcionar una aceleración por algoritmos de grafos en un diseño moderno heterogéneo.

Motivado por la finalización del escalamiento de Dennard, el cual ha resultado relativamente plano para el desempeño de los sistemas de hilo simple, el artículo “Procesamiento Práctico Cercano a los Datos para Patrones de Analítica En-Memoria”   propone un sistema basado en PIM para la analítica de datos. Mingyu Gao, Grant Ayers, y Christos Kozyrakis exploran cuestiones de coherencia y sincronización. El articulo utiliza un conjunto más amplio de aplicaciones que los artículos previos para la motivación, el examen de MapReduce y una red neuronal profunda como agregado al problema de grafos.

En el artículo “Aceleración Cercana a la DRAM con Procesamiento Heterogéneo con ISA Simple en Módulos de Memoria Estándares” se examina el potencial para la aceleración de una arquitectura unificada al mover las unidades de ejecución mas cerca de la DRAM standard, mientras que se mantiene un ISA simple. Hadi Asghari-Moghaddam y sus colaboradores arguyen que su sistema consume por lo menos un 65 por ciento menos de energía que los sistemas tomados como referencia y cerca del doble de desempeño. Este artículo es un reminiscente de un trabajo previo de Stone.

Ping Chi y sus colegas examinan el potencial para la utilización de una tecnología para dispositivos de memoria novedosos para implementar modelos computacionales emergentes en el artículo “PRIME: Una Arquitectura Novedosa para el Procesamiento-en-Memoria para la Computación por Redes Neuronales con Memoria Principal basada en ReRAM.”    Este artículo proporciona una discusión interesante de los compromisos potenciales en la implementación de nuevos enfoques en la computación con tecnologías de fabricación de memorias optimizadas

En el artículo “HAMLeT Arquitectura para la Reorganización de Datos Paralela en Memoria,”  de Berkin Akin, Franz Franchetti y James C Hoe, se explora el uso potencial de PIM para facilitar la reorganización de los datos y simultáneamente mantener los sistemas de servicio de memorias para los procesadores host. Este es un tópico que a menudo pasa desapercibido en la investigación PIM, considerando a los sistemas de memoria fundamentalmente como motores de movimiento de datos

En el artículo “Aliviamiento Transparente y Mapeo (TOM): Permitiendo el Procesamiento Cercano a los Datos Transparente al Programador en los Sistemas GPU”     se describe un Sistema que combina los mecanismos de hardware y de software para aliviar transparentemente el procesamiento basado en PIM de los aceleradores GPU en capas lógicas 3D. Kevin Hsieh y sus colegas arguyen que TOM mejora significativamente el desempeño comparado con los sistemas de referencia GPU que no pueden aliviar la computación de las memorias apiladas en 3D.

En el artículo “HRL: Lógica Reconfigurable Eficiente y Flexible para el Procesamiento Cercano a los Datos” se proporciona un primer examen de la utilización de DRAM que implementa una lógica reconfigurable, la cual conduce a un punto de operación diferente que el del enfoque tradicional FPGA. Mingyu Gao y Christos Kozyrakis describen como su método combina bloques lógicos con granularidad gruesa y fina, separa el enrutamiento de las redes para las señales de control y de datos, y utiliza unidades especializadas para soportar, en forma efectiva, las operaciones de ramificación y las disposiciones irregulares de datos en las cargas de trabajo de analítica.

Conclusión

El fin de la ley de Moore está deslumbrando un renovando el interés en los enfoques PIM y NDP, en la medida en que las personas se enfocan en las arquitecturas para proporcionar beneficios de escalamiento que con anterioridad podían alcanzarse por medio de la tecnología del transistor. Esperamos que el tema de este mes de Computing Now inspire la investigación futura en estas importantes soluciones de eficiencia energética.

Editores Invitados

Kevin Rudd es un investigador de sistemas de computación en el Laboratorio de Ciencias Física y miembro del comité editorial de IEEE Micro and Computing Now. Se lo puede contactar en kevin@lps.umd.edu.

Richard Murphy es director de Advanced Computing Solutions Pathfinding en Micron. Sus grupos se enfocan en I&D en arquitectura de computadoras, sistemas de memoria, supercomputadoras, plataforma para analítica de datos en todas las escalas, y tecnologías disruptivas móviles/embebidas, particularmente PIM. Ha conducido varios grandes equipos multidisciplinarios para el despliegue de nuevas tecnologías. También ha cofundado el banco de comparación Graph 500, el cual ha servido como catalizador para identificar los desafíos en los movimientos de datos en problemas de analítica de escala amplia. Previamente, Murphy trabajo en los Sandia National Laboratories, Sun Microsystems y Qualcomm. Es un miembro facultativo adjunto en el Grorgia Institue of Technology y la Boise State University, y ha si do autor de más de dos docenas de ponencias y patentes. Posee un Doctorado en ciencias de la computación e ingeniería de la Universidad de Notre Dame y es Miembro Senior del IEEE. Se puede visitar su página web personal en http://richardmurphy.net o contactarlo en rcmurphy@micron.com.

 

Recursos Relacionados

  1. "Active Memory Cube: A Processing-in-Memory Approach to Power Efficiency in Exascale Systems," by Ravi Nair, IBM TJ Watson Research Center
    Demonstrates the compelling possibility of using 3D memory devices to support NDP
  2. "Near Data Processing: Are we there yet?" by Maya Gokhale, Lawrence Livermore National Laboratory
    Explores the potential of 3D integrated memory stacks to provide PIM-like functionality
  3. Workshops on Near-Data Processing:
    1st, 2013
    2nd, 2014
    3rd, 2015
    Focuses on changes since the first PIM era

Artículos Relacionados

  1. H.S. Stone, "A Logic-in-Memory Computer," IEEE Transactions on Computers, vol. 19, no. 1, 1970, pp. 73-78.
    Describes the first cache-based example of a PIM-based processing device
  2. M. Homewood et al., "The IMS T800 Transputer," IEEE Micro, vol. 7, no. 5, 1987, pp. 10-26.
    Provides an early example of fused memory and processing
  3. P.M. Kogge, "EXECUBE-A New Architecture for Scaleable MPPs,” International Conference on Parallel Processing, vol. 1, 1994.
    Is the first example of a true in-DRAM PIM processor
  4. C. Kozyrakis, "Scalable Vector Media-processors for Embedded Systems," PhD dissertation, Dept. Computer Science, Univ. of California, Berkeley, 2002.
    Demonstrates the potential for multimedia such as SIMD vector extensions to be coupled to a DRAM bank
  5. D. Zhang et al., "TOP-PIM: throughput-oriented programmable processing in memory," International symposium on high-performance parallel and distributed computing (HPDC), 2014, pp. 85-98.
    Provides an analysis of moving data-intensive computation to the memory
  6. A.M. Caulfield et al., "A Cloud-Scale Acceleration Architecture," IEEE/ACM International Symposium on Microarchitecture (MICRO), 2016, pp. 1-13.
    Describes the use of FPGAs as reconfigurable network processors between switches and servers in the hyperscale data center
  7. S. Jun et al., "BlueDBM: Distributed Flash Storage for Big Data Analytics," ACM Transactions on Computer Systems, vol. 34, no. 3, 2016.
    Demonstrates the potential for flash memory-based storage acceleration using interconnected smart devices

 

Average (0 Votes)
The average rating is 0.0 stars out of 5.

Article Comments

Please log in to comment.