¿Está la Capa de Aplicación Impulsando la Innovación en la infraestructura de Almacenamiento?

Introducción del Editor invitado • Sundara Nagarajan • Mayo 2015

Read the Guest Editor's Introduction in
English  |  Chinese

Translations by Osvaldo Perez and Tiejun Huang


Listen to the Guest Editor's Introduction

Is the Application Layer Fueling Innovation in Storage Infrastructure?

Los reportes de la industria indican que los datos generados digitalmente prácticamente se duplican cada año. Esto no es una evolución sino un cambio disruptivo  que ofrece un nuevo conjunto de problemas y oportunidades para la industria del almacenamiento y su investigación. Estamos actualmente experimentando el nuevo paradigma en el procesamiento de datos,  tanto como empresas y como individuos, en cómo se almacenan, gestionan y consumen este tsunami de datos.

Con el advenimiento de la arquitectura distribuida de aplicaciones globalmente y a alta escala, la infraestructura de almacenamiento debe posibilitar la continuidad transaccional y la operación no disruptiva. Las arquitectura de aplicaciones están conduciendo a la separación del desempeño y de la capacidad en la infraestructura de almacenamiento Una clara separación entre la gestión de datos la gestión del almacenamiento esta también al orden del día. En esencia la infraestructura de almacenamiento para grandes datos se está transformando no solo en ser dirigida por ñas aplicaciones sino también en ser optimizada por las aplicaciones.

Contexto

La infraestructura de almacenamiento posibilita la recolección de datos, el almacenamiento, la protección y la distribución para el consumo. En estos días es crucial el balanceo de los esfuerzos para minimizar el capital y los costos de operación de la infraestructura de almacenamiento en tanto que se mantiene el mantra del almacenamiento “nunca perder datos y siempre ofrecerlos dentro de los límites de la tolerancia de su uso”. La emergencia de la memoria de clase de almacenamiento y del almacenamiento en memoria en el modo computación está extendiendo el nivel del almacenamiento desde los discos hasta los niveles más altos de desempeño. Los niveles de almacenamiento se extienden desde los discos hasta el extremo opuesto de un intercambio pragmático con el almacenamiento en la nube  como servicio. El gran desafío con esta amplitud de niveles de almacenamiento está en cómo garantizar la eficiencia del acceso a los datos desde las aplicaciones

La distribución del acceso de datos es un asunto nominal. Un componente significativo del almacenamiento es el consumo de tiempo en el almacenamiento y movimiento de copias de datos duplicados. En la medida en que los datos transitan hacia los grandes datos, el problema de la gestión de las copias crece, lo cual conduce a las innovaciones en la eficiencia en el almacenamiento. La innovación más importante aparece en la infraestructura de los grandes datos que se producirán en las apelaciones conscientes y las aplicaciones que se gestionan por necesidades.

Los modelos de procesamiento de datos están evolucionando raposamente más allá de los tradicionales sistemas de gestión de  base de datos relacionales (RDBMSs), y del más reciente paradigma de mapas reducidos. Las necesidades de casi tiempo real de la analítica de los grandes datos están impulsando las innovaciones en el modelado de los datos y las arquitecturas de las aplicaciones. La infraestructura de arquitecturas deben evolucionar y adaptarse con al ambiente cambiante de los modelos de datos y los algoritmos de aplicación. Este cambio presenta una miríada de problemas de técnicos y de oportunidades de investigaciones en la problemática evolutiva del almacenamiento

Plataforma de Grandes datos

La aparición de la arquitectura de almacenamiento definida por software ha proporcionado una flexibilidad significativa en la gestión y operación del almacenamiento. Sin embargo la evolución de la infraestructura de almacenamiento para soportar eficazmente al paradigma de los grandes datos está lejos de estar completado. Las plataformas de grandes datos deben encontrar el balance óptimo entre la continuidad de aplicaciones, la protección de los datos, el control del acceso y el desempeño del procesamiento. Esta acción de balanceo involucrara el movimiento de grandes bloques de datos a través de los niveles de almacenamiento en desempeño y capacidad. Se debe tener en mente que este movimiento de datos es bidireccional.

Los requerimientos del procesamiento en casi tiempo real están forzando a los desarrolladores de aplicaciones a innovar en términos de la recepción y el procesamiento de los elementos de datos. Es esencial minimizar la sobrecarga durante el procesamiento de los elementos de datos pero sin perder la transacción si el nodo de procesamiento se cae. Estos requerimientos están lejos de ser tan estrictos como el de los sistemas de soporte de decisiones tradicionales, que procesan los datos en lotes.

El sistema de archivos abstractos POSIX (Portable Operating System Interface), ha sido ampliamente la base para la organización de los elementos de datos de la infraestructura de almacenamiento. Las operaciones del sistema distribuido de archivos han madurado para operaciones confiables de larga escala. Sin embargo las nuevas aplicaciones y los tipos de datos asociados están motivando a los desarrolladores de aplicaciones a explorar rutas diferentes para lidiar con la infraestructura de almacenamiento, o para olvidarse de él, quizás, esperando algo mágico. En sí mismo este no es un nuevo deseo, los arquitectos de bases de datos relacionales han gestionado tradicionalmente el almacenamiento subyacente de los sistemas directamente sin la sobrecarga de los sistemas de archivos estandarizados. Otro ejemplo de tal conducción por la optimización de las aplicaciones es la habilitación del entorno de corrida de Hadoop para correr en forma nativa sistemas de archivos de red, (NFS) basados en la compartición de sistemas de almacenamiento. Para las aplicaciones de grandes datos, comenzamos a ver el middleware de la aplicación o el manejo directo de la aplicación de tales optimizaciones. Los almacenamientos de Valores de Clave, las base de datos orientadas a columnas, los archivos de contenido multimedia, las base de datos documentales y otras clases nuevas de modelos de datos de amplia escala, combinados con nuevos paradigmas de programación presentan nuevas oportunidades de investigación.

En combinación con la aplicación del bien conocido teorema CAP, las arquitecturas de alta disponibilidad en el nivel de infraestructura posibilitan la continuidad transaccional, por ejemplo no se debe perder ninguna transacción de usuario aun con la pérdida de funcionamiento de componentes del sistema. N la escala de los grandes datos, se espera que la infraestructura admita cambios durante el procesamiento en el nivel de hardware, debidos a operaciones de mantenimiento y de reparaciones. La consistencia de la distribución para el desempeño cercano al tiempo real, aun cuando la infraestructura está fallando, es una propiedad importante de tales sistemas de almacenamiento. Los métodos de seguridad de datos y encriptación, ahora están bien desarrollados en el nivel de almacenamiento de sistema. En la escala de los grandes datos los desafíos se desplazan a las relaciones de compromiso efectivas entre la velocidad de acceso y el control de acceso.

Aunque los grandes datos implican un cambio de paradigma en la forma en que la empresa desarrolla sus conceptos de negocios, no es practico esperar negocios corrientes para realizar un cambio instantáneo. Por lo tanto las arquitecturas hibridas están al orden del día. Estas tendencias apuntan a la creación de un servicio de tejido de datos que transportara bloques de datos en forma eficiente a través no solo de los niveles de almacenamiento sino también de los clusters de almacenamiento

Artículos Temáticos

Un buen punto de partida para las soluciones por venir en el modelo de servicio es el artículo de Eli Collins “Grandes Datos en la Nube Publica", en el cual se explora como los modelos de infraestructura de consumo están evolucionando en el contexto de las aplicaciones. A partir de allí Ganesh Chandra Deka presenta varias herramientas de modelos de datos y paradigmas para grandes datos en su artículo “Encuesta de los Sistemas de Base de Datos en la Nube”. Juntos, estos dos artículos establecen el contexto de como las aplicaciones están evolucionando.

En el artículo “Desafío de Almacenamiento: ¿Dónde irán todos aquellos Grandes Datos?” Neal Leavitt ofrece un panorama del estado del arte en las tecnologías y productos de almacenamiento, en tanto que indica que la mezcla de opciones de almacenamiento se verá muy diferente dentro de cinco años. Por supuesto estos cambios no se presentaran sin sus desafíos, y el artículo de Yih Fam Robin Chen “Las Penas Crecientes del Almacenamiento en la Nube” discute varios aspectos subyacentes de la ingeniería de los sistemas de almacenamiento de larga escala diseñados para encarar la capacidad de crecimiento.

El artículo de Xiaoxue Zhang y Feng Xu “Encuesta de la Investigación del Almacenamiento de Grandes Datos” examina las características definitorias de los grandes datos y sus desafíos asociados. Para encarar tales desafíos Fedi Gebara, H Peter Hofstee y Kevin Nowka arguyen en el artículo “Sistemas de Grandes Datos de Segunda Generación”, sobre la necesidad de incorporar estructuras apropiadas para soportar múltiples métodos analíticos y una variedad de tipos de datos, así como la capacidad para responder en casi tiempo real.

El artículo “Sobre los Sistemas Escalables para la Analítica de los Grandes Datos” Un Tutorial Tecnológico” de Han Hu y sus colaboradores, toca todos los aspectos del paradigma e infraestructura de los grandes datos. Se remarca en este tutorial la encuesta sobre la literatura y su rico conjunto de referencias.

Industry Perspective Video
Brian Marshall on changes in the landscape of storage infrastructure.

 

Industry Perspective Video
Ion Stoica on infrastructure utilization.

 

Perspectivas

Ion Stoica es profesor en el Departamento de Ingeniería Eléctrica y Ciencias de Computación de la Universidad de California, Berkeley, desde 2013, ha sido CEO en Databricks, un startup fundado para comercializar tecnologías para el procesamiento de grandes datos. En su corto video comenta sobre como los usuarios están demandando respuestas rápidas y discute técnicas para una mejor utilización de la infraestructura.

En nuestro segundo video de las Perspectivas Industriales, Brian Marshall, el VP de Desarrollo Corporativo de Hortonworks, discute los cambios en el panorama de la infraestructura de almacenamiento. Marshall ha pasado 15 años conduciendo la investigación fundamental en el sector tecnológico tanto desde las perspectivas de la parte compradora como de la parte vendedora.

Conclusion

Las tendencias indican que la capa de aplicación dirigirá las nuevas innovaciones en la infraestructura de almacenamiento. La infraestructura de almacenamiento es distribuida como un servicio vía un paradigma de auto servicio con una automatización sofisticada. Dada la necesidad de la agilidad de los negocios se está motivando el desarrollo de aplicaciones y las operaciones de los trabajadores (El modelo DevOps), para liderar las innovaciones en los Centros de Datos, las infraestructuras de almacenamiento evolucionaran para trabajar transparentemente con la capacidad de computación y de red.

Las personas que están buscando oportunidades para resolver problemas desafiantes en la infraestructura de grandes datos, deben mirar la capa de aplicación. Por ejemplo, la Asociación de la Industria del Almacenamiento en la Red, (SNIA) organiza un comité dedicado enfocado en la analítica y los grandes datos, SNIA proporciona un conjunto de información de cómo la industria de la infraestructura de almacenamiento evolucionara para solucionar tales desafíos.

Citation

S. Nagarajan, “Is the Application Layer Fueling Innovation in Storage Infrastructure?,” Computing Now, vol. 8, no. 5, May 2015, IEEE Computer Society [online]; http://www.computer.org/web/computingnow/archive/application-layer-fueling-innovation-in-storage-infrastructure-may-2015.

Guest Editor

Sundara Nagarajan es un director técnico en NetApp, la cual está basada en Bangalore, India. También es el enlace regional de Computing Now con las actividades de la Computer Society en India. Puede visitar su perfil de LinkedIn en www.linkedin.com/in/nagarajan o lo puede contactar en s.nagarajan en copmputer punto org.

 


Average (0 Votes)
The average rating is 0.0 stars out of 5.