Analítica de Datos Avanzada

Presentación de los Editores Invitados • Giri Kumar Tayi y P Radha Krishna• Octubre 2017

Read the Guest Editors’ Introduction in
English    |    Chinese

Translations by Osvaldo Perez and Tiejun Huang


Listen to the Guest Editors’ Introduction

English (Steve Woods):

 

Spanish (Martin Omana):

Advanced Data Analytics

Las organizaciones y las empresas han estado utilizando una analítica de datos básica desde hace muchos años para descubrir percepciones y tendencias simples. El apetito por más datos y una mejor analítica ha crecido a través de los años, y las organizaciones más modernas realizan un seguimiento y registran los datos sobre casi todos los tipos de transacciones, el flujo de clicks, los medios sociales, el audio, el video, los sensores, el texto, la imagen y otros por el estilo. Este siempre creciente volumen de datos junto con la diversificación de las fuentes de datos hace que los procesos de extracción de información útil y de percepciones sea un emprendimiento cada vez más desafiante y complejo.

Para alcanzar este desafío, las organizaciones y las empresas han adoptado una analítica de datos avanzada como un enfoque predominante para encontrar los valores ocultos en las montañas de datos que rápidamente se está acumulando. Gartner define a la analítica avanzada de datos como una examinación del contenido de datos en forma autónoma o semiautónoma utilizando sofisticadas técnicas cuantitativas y cualitativas y herramientas que poseen el objetivo de descubrir relaciones profundas y patrones sutiles y realizar predicciones y recomendaciones. Estas técnicas tienden a ser interdisciplinarias y se extienden a campos como los siguientes:

  • Data mining,
  • Aprendizaje de maquinas
  • Alcance de patrones
  • Visualización y Simulación
  • Análisis semántico
  • Análisis sentimental  +
  • Análisis en red y en cluster
  • Estadística multivariada
  • Análisis de grafos
  • Procesamiento complejo de eventos
  • Redes neuronales

El tema del mes del número de Octubre 2017 de Computing Now presenta seis ponencias que cubren los últimos avances a través del espectro de las herramientas de analítica de datos, sus técnicas y sus aplicaciones. Los dos videos proporcionan visiones de la analítica de datos como una disciplina emergente, los beneficios y los desafíos de utilizar la analítica de datos en la industria y lo que se presentara en el futuro en este campo.

Los Artículos

Los algoritmos más usuales de aprendizaje asumen o suponen conjuntos de datos que poseen distribuciones de clase balanceadas o costos de mala clasificación iguales. Sin embargo, en el artículo “Aprendiendo a partir de los Datos Desbalanceados” Edwardo A. Garcia y Haibo arguyen que los algoritmos de aprendizaje usuales fallas para representar apropiadamente las características distribuidas de los conjuntos de datos en algunos campos, (por ejemplo, biomedicina), que exhiben distribuciones no iguales entre las clases. Este artículo apunta a proporcionar un estudio de los desarrollos de investigación actuales sobre los problemas de aprendizaje desbalanceados y rever el estado del arte de las soluciones. También resalta las oportunidades y desafíos para el aprendizaje a partir de datos desbalanceados.

La extracción de datos valiosos a partir de petabytes de datos requiere nuevos algoritmos de clustering que sean escalables, menos computacionalmente intensivos y listos para ser implementados en arquitecturas computacionales interactivas de amplia escala, optimizadas. En el artículo “Algoritmos de Clustering Escalables Basados en Fuzzy para el Manejo de Grandes Datos utilizando Apache Spark”, Neha Bharill, Aruna Tiwary y Aayushi Malviya desarrollan un algoritmo para la implementación en Apache Spark Cluster para considerar los desafíos asociados con el clustering de Big Data. Los autores puntualizan que su trabajo logra una reducción significativa en tiempo de corrida para el clustering de enormes cantidades de datos, sin comprometer la calidad de los resultados de clustering. Las técnicas de optimización eliminan la necesidad de almacenamiento de grandes matrices de datos miembros durante el tiempo de ejecución del algoritmo propuesto, resultando en un tiempo de corrida más corto.

En el artículo “Análisis de Redes Sociales Masivas: Explorando Twitter por el Oro Social”, analiza la vasta cantidad de datos no estructurados de Twitter. David Ediger y sus colegas presentan GraphCT, un Juego de Herramientas de Caracterización de Grafos para la representación de Grafos Masivos, que representan las redes de datos sociales. GraphCT analiza los grafos representando el flujo de datos critico de Twitter y revelando características interesantes de las interacciones de los usuarios de Twitter. Esto permite la identificación de fuentes de influencias y ranqueo de conversaciones, con lo cual habilita a los analistas a enfocarse en una cantidad manejable de conversaciones 

Zeqian Shen, Kwan-Liu Ma, and Tina Eliassi-Rad presentan una herramienta de analítica visual llamada OntoVis para el análisis de redes sociales amplias y heterogéneas en el artículo “Análisis Visual de Redes Sociales Amplias y Heterogéneas por Semántica y Abstracción Estructural”. Un grafo auxiliar llamado grafo de ontología describe las relaciones entre actores de la red, que es generalmente, mucho más pequeño que la propia red social, guía el análisis. Los casos de estudio ilustran varias de las capacidades y características únicas de OntoVis.

Las políticas de salud pública son una de las áreas de aplicación más prominentes para la analítica de datos, en el artículo “Mejorando la Salud Publica por Visualización Interactiva”, Bradford W Hesse, Ben Shneiderman y Catherine Plaisant mapean la información de salud pública en tres dominios -cuidado personal, clínica y salud pública y resaltan el rol central de la visualización de la información y de la analítica visual en la atención de pacientes, clínicos y los hacedores de la políticas de salud pública para realizar mejores decisiones. El artículo delinea siete desafíos prácticos en tres dominios de salud y resalta las oportunidades para las herramientas de visualización de la información, técnicas y analítica que puede ayudar a mitigar tales desafíos y conducir a una mejora en la salud pública.

Alexander Brodsky y sus colegas consideran la manufactura inteligente como un área de analítica de datos en el artículo “Análisis y Optimización en Manufactura Inteligente basada en Base de Conocimiento Reutilizable para el Proceso de Modelos de Desempeño”. Postulan que analizar el desempeño de líneas de producción complejas, (tales como las líneas de producción de automóviles), diferentes tipos de análisis y capacidad de optimización, tales como los descriptivos, de diagnóstico, predictivos, y análisis prescriptivo, son necesarios. Cada una de esas capacidades están basadas en una variedad de datos que es filtrada y agregadas a través del tiempo y el espacio, por ejemplo, la analítica descriptiva utiliza sensores temporales de datos que incluyen la velocidad de las líneas, las emisiones de CO2 y el consumo de agua. El articulo propone un diseño arquitectónico y framework para el rápido desarrollo de soluciones de software para lo descriptivo, lo predictivo y la analítica prescriptiva de los procesos dinámicos de producción.

Video Perspectives

Mukesh Mohania of IBM Research Labs, Australia, outlines the evolution from descriptive and predictive analytics to cognitive and prescriptive analytics.

 

Sitarama B. Gunturi of Tata Consultancy Services describes how increasing digitization is resulting in huge volumes of unstructured data in the form of text, images, audio, and video.

Perspectivas de la Industria

El primer video es de Mukesh Mohania de los Laboratorios de Investigación de IBM, Australia, delinea la evolución de la analítica descriptiva y prescriptiva. Tradicionalmente, la analítica de datos responde preguntas simples a partir de los datos estructurados, tales como cuantos clientes han cancelados sus cuentas (descriptivo) y cuales clientes están dispuestos a cancelar sus cuentas el próximo mes (predictivo). Sin embargo, idealmente, los negocios desearían conocer porque esos clientes han cancelado sus cuentas (cognitivo) y que es lo que puede evitar cancelaciones (prescriptivo). Las respuestas a estas preguntas complejas descansan en el análisis no estructurado de datos no convencionales.  

En el segundo video, Sitarama B. Gunturi de los Tata Consultancy Services, describe como el incremento de la digitalización es el resultado de grandes volúmenes de datos no estructurados en la forma de texto, imágenes, audio y video. Esto ha conducido a un cambio de paradigma en la forma en la que la analítica se practica a partir de la estadística tradicional al aprendizaje por máquinas y la inteligencia artificial. En forma adicional, la disponibilidad de herramientas de código abierto, contribuyen al incremento de popularidad de la analítica en la industria y la academia.

Conclusión

En la medida en que el mundo se mueve rápidamente dentro de la era digital, los individuos, las organizaciones y las empresas están siendo inundadas con datos. La analítica avanzada de datos ofrece una plétora de oportunidades para la investigación, el análisis de políticas, y la innovación de los gerentes de negocios y las herramientas de desarrollo y las técnicas, estrategias, políticas y de productos de software para extraer visiones valiosas desde los datos.

Esperamos que el tema de esta edición de Computing Now inspire más investigación en este rico campo.

Editores Invitados

Giri Kumar Tayi es profesor de ciencias de la gestión y sistemas de información en la Universidad Estatal de Nueva York, Albany. Posee un Doctorado de la Carnegie Mellon University, y sus intereses de abarcan los sistemas de información, las operaciones de gestión, y las operaciones de investigación. Tayi ha trabajado en comités editoriales de varias publicaciones de alto nivel, incluyendo Computing Now, y ha co editado nueve ediciones especiales de varios journals académicos. Se lo puede contactar en gtayi@albany.edu.

P. Radha Krishna es investigador principal científico en la Analítica de Grandes Datos en la unidad de Infosys Limited, India, así como miembro facultativo adjunto del National Institute of Tecnology, Warangal, India. Ha obtenido dos Doctorados de la Osmania University y de la International Institute of Information Technology, Hyderabad. Sus intereses de investigación incluyen ciencia y analítica de los datos, Data mining, aprendizaje por máquinas, contratos electrónicos, bases de datos y sistemas workflow. Se lo puede contactar en radhakrishna_p@infosys.com.

 

Average (0 Votes)
The average rating is 0.0 stars out of 5.

Article Comments

Please log in to comment.