大数据时代的数据挖掘
上QQ阅读APP看书,第一时间看更新

1.4 数据挖掘平台:FIU-Miner

本节介绍作者研究团队开发的大数据挖掘平台FIU-Miner(a Fast, Integrated, and User-Friendly System for Data Mining in Distributed Environment)[6]:一个支持在分布式环境中进行快速集成和用户友好的数据挖掘系统。该平台支持数据分析人员快速有效地进行数据挖掘任务。本节介绍该平台的基本架构以及3个成功应用该平台实现高端制造业、空间数据和商务智能的大型、复杂数据挖掘的案例。

FIU-Miner 应用于高端制造业,在国际上率先将数据挖掘技术应用于显示器件制造业,为四川长虹企业构建了制造过程单工序/全工序的数据挖掘分析模型,开发了基于数据挖掘的PDP-Miner(Plasma Display Panel Data Mining Platform) 平台,有效提升了生产效率和产品质量。该企业应用PDP-Miner平台后,产品综合良品率提高了3.02%,生产效率提升产生的经济效益达到1.17亿元/年。该研究获得2013年“中国制造业IT新兴技术应用最佳实践奖”。

FIU-Miner应用于空间数据挖掘,TerraFly GeoCloud在线空间数据挖掘系统已成功应用于地理(如国土边界、水位图等)、自然(如飓风数据分析)、经济(如房产价格分析、人均收入等数据分析)、医疗(如肝癌、关节炎等疾病数据分析)、社会(如犯罪数据聚类等分析)等众多领域,得到了极大的重视。

FIU-Miner 应用于商务智能库存管理平台,iMiner 应用于四川虹信软件股份有限公司,成功解决了产品出库预测、指标异常检查、库龄挖掘等对企业产品生产和经济效益有重要影响的实际问题。

1.4.1 FIU-Miner平台简介

与现有数据挖掘平台相比,FIU-Miner 提供了一组新的功能,能够帮助数据分析人员方便并有效地开展各项复杂的数据挖掘任务。

具体而言,FIU-Miner 具有以下的突出优点。

(1)用户界面友好、人性化、快速的数据挖掘任务配置

根据将软件作为一种服务模式的思想,FIU-Miner 隐藏了与数据分析任务无关的低端细节。通过FIU-Miner提供的人性化界面,用户可以将现有算法直接组装成工作流,轻松完成一个复杂的数据挖掘问题的任务配置,而不需要编写任何代码。

(2)灵活的多语言程序集成

FIU-Miner 允许用户将目前最先进的数据挖掘算法直接导入其系统算法库,对它们进行充分的利用。同时,由于FIU-Miner 能够正确地将任务分配到有合适运行环境的计算节点上,所以对这些导入的算法没有实现语言的限制。

(3)异构环境中有效的资源管理

FIU-Miner支持在异构的计算环境中(包括图形工作站、单个计算机和服务器等)运行数据挖掘任务。FIU-Miner综合考虑各种因素(包括算法实现、服务器负载平衡和数据位置),来优化计算资源的利用率。

1.4.2 FIU-Miner系统架构

FIU-Miner的系统架构如图1-11所示。

该系统分为4层:用户界面层(User Interface)、任务和系统管理层(Task and System Management)、逻辑资源层(Abstracted Resources)和异构物理资源层(Heterogeneous Physical Resource)。这种分层架构充分考虑了海量数据的分布式存储、不同数据挖掘算法的集成、多种分析任务的配置以及系统和用户的交互功能。

图1-11 FIU-Miner系统架构

1.4.3 FIU-Miner应用实例

1.4.3.1 等离子显示器制造

在本例中,基于FIU-Miner实现等离子屏制造过程的数据分析平台[4-5]。等离子显示器(Plasma Display Panel,PDP)是一种利用气体等离子效应放出紫外线,从而激发三原色发光体独立发光,达到显示不同颜色和控制亮度的高端图像显示器。它具有亮度高、色彩多、面积大、视角广、图像清晰众多优势,是大面积显示需求(如家庭影院、电子广告墙)的首选显示器。

在生产实践中,技术人员关注如何提高产品的良率。若想实现这个目标,需要回答下面的一些问题,即哪些是关键的工艺参数(它们对产品的良率有显著的影响),参数值的变动会如何影响产品的良率,哪些可以有效地确保高良率的工艺参数配方等。从PDP的数据特点来看,生产的数据存储量是每天10 GB以上,每月有3亿~5亿笔制造过程记录,在数量、维度和数据产生速度上具有海量这一大数据特征。在生产工序复杂、设备参数众多、数据量大的背景下,人为分析 PDP 生产过程,以期达到提高生产质量的效果几乎是无法实现的。因此,迫切需要研究基于等离子显示屏制造过程的自动化流程和产品优化工具,从而提升制造过程参数管控能力和产品品质。

作者团队在 FIU-Miner 的基础上,开发了离子屏制造过程数据挖掘系统(PDP-Miner)[6]来解决PDP数据分析的难题。PDP-Miner的架构在FIU-Miner的基础上增加了数据分析层。PDP-Miner的实际应用界面如图1-12所示。

图1-12 FDP-Miner实际应用界面

通过技术人员将数据挖掘研究的结果和平台进行有效应用,提高了对制造过程中出现的问题的分析和解决的效率,使PDP屏生产线的综合良率及生产效率得到了快速提升。使用等离子屏制造过程数据挖掘系统之后,使得对前台使用人员的要求大大降低,可以使得操作人员能够将精力聚焦到快速发现问题和解决问题上。

1.4.3.2 空间数据挖掘

随着卫星科技的发展及移动设备的普及,获取一个对象实时完整的空间信息变得越来越容易。为了能够从中实时性地获取有用信息,需要有效的方法进行空间数据挖掘。空间数据挖掘是从大型空间数据库里发现有趣的、不知道的但非常有价值的模式的一个过程。但由于空间数据类型和空间关系的复杂性,从空间数据库里挖掘有趣和有价值的模式比从传统数据库里挖掘难度更大。

FIU-Miner 已被成功应用于TerraFly Geocloud [5],支持多种在线空间数据分析。空间数据挖掘可以用在很多应用领域,包括水资源管理、交通管理、灾难管理、犯罪分析、疾病分析和房地产等。一个典型的空间挖掘系统应支持以下功能:在线的空间数据分析、空间数据可视化和空间数据查询。这里,我们介绍一个具体的空间数据挖掘系统:佛罗里达国际大学(FIU)计算机学院的高性能数据研究中心实验室开发的TerraFly GeoCloud系统。TerraFly GeoCloud是建立在TerraFly系统之上的支持多种在线空间数据分析的平台。图1-13和图1-14分别给出了TerraFly GeoCloud的系统截图和工作流程。

图1-13 TerraFly GeoCloud系统界面

图1-14 分析工作流程

利用 FIU-Miner,系统可以通过构建空间数据分析的工作流来优化分析流程,提高分析效率。下面我们通过一个详细的房产投资的案例分析来展示[7]

房产投资案例的目的是要寻找具有良好升值潜力的房产。如果一栋房产本身价值很低,但它周围的房产却相对来说高些,那么对此房产进行投资将是一个非常不错的选择。根据历史查询数据,通过序列模式挖掘,我们发现这个任务一般有下面几个步骤:

步骤1 计算不同地区的平均价格,比较邻近地区的价格,确定感兴趣的地区;

步骤2 对感兴趣的地区进行空间自相关分析,确定候选地区;

步骤3 验证候选地区罪案率和平均收入,确定选择结果;

步骤4 在地图上对结果进行可视化。

这个任务的工作流如图1-15所示。工作流里所有的子任务都由FIU-Miner来调度并在分布式环境中执行。

图1-15 房地产投资案例

1.4.3.3 库存管理数据挖掘

库存管理是指对制造业或服务业生产、经营全过程的各种物品、产品以及其他资源进行管理和控制,使其储备保持在经济合理的水平。高效可靠的库存管理,可以为制定合理的货物安全库存量和订货量提供可靠的依据,提高企业管理人员的决策质量,从而减小资金的占用和缺货损失,提高企业的经济效益。当今的零售业,供应商往往需要给不同的地区存储大量的货物,且交易活动复杂频繁,必须提前合理规划好库存方案。

作者团队开发了基于FIU-Miner的智能库存管理系统iMiner。该系统为智能库存管理定制了专门的数据挖掘算法,实现多个功能模块,开发大规模的数据分析平台。该系统能帮助供应商实现高效的库存管理,着力解决智能库存管理的两大关键问题。

(1)大规模库存数据分析。该系统分析平台建立在支持高效的数据分析的分布式系统——FIU-Miner 中。这一分析平台在分布式环境中管理所有的交易数据,能够自动地配置和执行数据预处理和数据分析任务。

(2)复杂分析任务管理。iMiner结合多种数据挖掘算法并应用这一专门定制算法来分析库存数据。在实践中,系统采用多种回归模型,结合时间序列分析方法来实现库存预测;运用情境感知异常检测算法来识别异常货物;利用统计回归模型来实现库龄分析。

下面以库龄分析为例,介绍iMiner的库龄挖掘功能。iMiner系统中,库龄挖掘主要包含以下几个模块。

库龄相关分类和标准:包括产品类型(彩电、液晶平板、等离子)、公司(总公司和各分公司)以及库龄段划分。

库龄计算:根据每个公司每个产品的入库出库量数据,使用先进先出原则,计算该公司该产品库存的库龄分布。

库龄金额计算:在库龄计算基础上,将库存库龄对应月份的出库平均价格作为产品价格进行加权计算。

安全库存的计算:基于周出库量计算安全库存。

如图 1-16 所示,用户可以根据选择的物料属性及取值范围和其他基本查询条件,找出潜在的积压物料来重点监控。

图1-16 库龄分析

本节介绍了 FIU-Miner 平台以及在其基础上构建的 PDP-Miner、TerraFly Geocloud以及iMiner的3个应用案例,展示了数据挖掘在高端制造业、空间数据挖掘以及商务智能库存管理中的应用。

本书强调数据挖掘的应用性,通过数据挖掘技术应用的实例来介绍如何应用和学习数据挖掘技术。各个章节的主题均是数据挖掘与某个特定应用领域相结合,与大多数数据挖掘和机器学习的教材不一样之处在于,本书始终以现阶段最热点的数据挖掘应用贯穿全书,而不是严格按理论或技术来划分章节。本书的宗旨是以应用为导向,以实际的数据挖掘应用领域为主题,讲解背后的技术和理论。

本书包括 13个章节,内容包含日志数据挖掘、工单数据挖掘、可持续发展、推荐系统、智能问答系统、文本挖掘、多媒体挖掘、社交媒体挖掘、空间数据挖掘、生物信息学数据挖掘健康医疗数据挖掘、隐私保护与数据挖掘的方方面面,十分全面地介绍了当前数据挖掘领域的研究热点与进展。

本书主要面向热爱和关心数据挖掘技术的学术界和工业界读者,且假设读者已经对各种基本的数据挖掘和机器学习理论有了解,所以不会花过多篇幅来介绍基础理论和算法。欢迎各大高校的师生把此书作为数据挖掘和机器学习课堂的实践教材和参考书籍。希望此书讲解的各种实际用例,可以帮助正在学习数据挖掘和机器学习基本理论的读者更好地理解其背后的根源和本质。