October 2017 Theme: 高级数据分析
客座编辑导言: Giri Kumar Tayi 和 P. Radha Krishna

多年来,各类机构和企业已经采用基本的数据分析工具来揭示简单的规律和趋势。对更多数据和和更好分析的需求逐年增长,现在大多数现代组织机构都跟踪和记录几乎所有类型的数据,包括事务、点击流、社交媒体、音频、 视频、传感器、文本、图像等。不断增加的数据规模以及数据源的多样性,使得提取有用信息和洞见的挑战和复杂性日益增长。

为了应对这一挑战,机构和公司已经转向把高级数据分析作为首要方法,以便从迅速堆积成山的数据中发现潜藏价值。Gartner对高级数据分析的定义是:使用高级的定量和定性技术和工具对数据和内容进行的自动或半自动检查,发现深刻见解、精细模式并做出预测和建议。这些技术是跨学科和跨领域的,例如:

  • 数据挖掘
  • 机器学习
  • 模式匹配
  • 可视化和仿真
  • 语义分析
  • 情感分析
  • 网络和聚类分析
  • 多元统计
  • 图分析
  • 复杂的事件处理
  • 神经网络

今日计算10月主题选登的六篇论文涵盖数据分析工具、技术和应用的最新进展。本期的两个视频分享了如下见解:作为一个新兴学科的数据分析,产业界使用数据分析的好处和挑战,以及该领域的未来。

本期文章

大多数标准学习算法假设或希望数据集具有均衡的类分布,或者误分类成本相当。然而,Edwardo A. Garcia和Haibo He在文章 从不均衡的数据中学习 中认为,标准学习算法不能正确地表示某些领域(例如生物医学)中数据集类间分布不均衡的特点。该文旨在综述不均衡学习问题的现有研究进展和最新解决方案,还着重介绍了从不均衡的数据中学习的机会和挑战。

要从P级字节数据中提取有价值的信息,需要可扩展的、较少计算密集的和可在优化了的大型交互式计算框架上实施的新型聚类算法。在文章使用Apache Spark处理大数据的基于模糊的可扩展聚类算法 中,Neha Bharill,Aruna Tiwari和Aayushi Malviya提出了一种在Apache Spark Cluster上实现的、用于解决与大数据集群相关挑战的算法。作者指出,他们的工作能够在不降低聚类结果质量的前提下,大幅降低对巨量数据进行聚类所需的运行时间。在执行所提出的算法时,优化技术不需要存储大型会员数据矩阵,从而缩短了运行时间。

文章大型社交网络分析:为社会公益挖掘推特对推特的巨量非结构化数据进行了分析。David Ediger和他的同事们针对社交网络数据所形成的巨量的图,提出一种名为GraphCT的图表征工具包。GraphCT分析了表示推特公共危机数据流的图,揭示了推特用户互动的有趣特性。可以识别有影响力的对话来源并进行排名,从而使分析师能够专注应对适量的对话。

在文章通过语义和结构抽象对大型异构社会网络进行视觉分析中,Zeijian Shen,Kwan-Liu Ma和Tina Eliassi-Rad提供了一个名为OntoVis的视觉分析工具,用于分析大型异构网络。该文使用一种称为本体图的辅助图形网络来指导分析。本体图是一种描述网络中参与者关系的网络,一般情况下远小于社交网络。案例研究表明了OntoVis的一些特性和功能。

医疗保健政策是最突出的数据分析应用领域之一。在文章用互动可视化提升医疗保健 中,Bradford W. Hesse,Ben Shneiderman和Catherine Plaisant将医疗保健信息勾勒为三张图:个人健康、临床健康和公共卫生,强调信息可视化和视觉分析可以在促使患者、临床医生和公共卫生决策者做出更好决定中发挥核心作用。该文概述了这三个健康领域面临的七项实际挑战,强调信息可视化工具、技术和分析在帮助缓解这些挑战和改善医疗保健方面的机遇。

在文章面向过程性能模型的基于可重用知识库的智能制造分析与优化中,Alexander Brodsky及其同事将智能制造视为数据分析的一个应用领域。他们认为,分析复杂生产线(如汽车生产线)的性能需要不同类型的分析和优化功能,如描述性分析、诊断性分析、预测性分析和规范性分析。这些功能中的每一项都基于随时间和空间进行过滤和汇总的各种数据,例如,描述性分析使用时序传感器数据如线速度、二氧化碳排放量和耗水量。该文章提出了一种支持快速开发软件解决方案的架构设计和框架,对动态生产过程进行描述性、诊断性、预测性和规范性分析。

行业视角

第一段视频来自澳大利亚IBM研究院的Mukesh Mohania,概述了从描述性和预测性分析到认知和规范分析的演变。传统数据分析可以根据结构化数据回答简单的问题,例如有多少客户取消帐户(描述)和哪些客户可能会在下个月取消帐户(预测)。然而,理想情况下,企业想知道为什么这些客户取消帐户(认知),以及哪些措施可以阻止用户的取消(规范)。回答这些复杂问题需要分析非结构化和非传统数据。

 

 

在第二段视频中,Tata咨询服务部的Sitarama B. Gunturi介绍了数字化进程是如何产生大量文本/图像/音频和视频形式的非结构化数据。这导致了分析实践方式的转变,即从传统的统计分析到机器学习和人工智能。此外,开放源代码工具的可用性正在促使分析工具在工业界和学术界快速普及。

 

结论

随着世界迅速进入数字时代,个人、机构和公司正被数据淹没。为了从数据中提取有价值的见解,高级数据分析为研究人员、政策分析师和业务经理提供了大量机会来创造和开发工具、技术、策略、政策和软件产品。我们希望本期“今日计算”可以激发这个领域的更多研究。

客座编辑

Giri Kumar Tayi是位于奥尔巴尼的纽约州立大学管理科学与信息系统教授。他从卡内基梅隆大学获得博士学位,研究兴趣包括信息系统、运营管理和运营研究。Tayi服务于多个顶级出版物如《今日计算》编委会,作为联合客座编辑为多个不同的学术期刊组织了9个专辑。他的联系方式是gtayi@albany.edu

P. Radha Krishna是印度Infosys有限公司的大数据与分析部门的首席科学家,也是位于印度瓦朗加尔的国家技术研究所的兼职教员。他从位于海德拉巴的奥斯曼尼亚大学和国际信息技术研究所获得双博士学位。他的研究兴趣包括数据科学和分析、数据挖掘、机器学习、电子合同、数据库和工作流系统。他的联系方式是radhakrishna_p@infosys.com