技术文章

当前页面: 首页 >技术文章 >基于IBM S/390面向Web数据挖掘系统

基于IBM S/390面向Web数据挖掘系统

供稿:中国工控网 2016/10/25 9:18:22

0 人气:2855

  • 关键词: 基于IBM S/390面向Web数据挖掘系统||解晓萌,冼进|华南理工大学计算机学院,广东广州
  • 摘要:摘要:在当今数字化社会中,各种原始数据增长的速度远远超过了人类目前已有的分析和处理能力,因此从大量数据中智能地、自动地提取出有价值的知识和信息;即进行数据挖掘,具有十分重要的理实意义和应用前景。本文介绍了数据挖掘的有关概念和知识,提出一个面向Web的数据挖掘系统模型,然后分别在IBM S/390大型机平台和PC机平台上实现了这个模型。

  1  引言

  虽然目前已经开发了许多数据挖掘系统,但大多数系统的实现都是基于PC机平台,采用的操作系统是WINDOWS。数据挖掘是一个复杂的处理过程,在数据挖掘过程中需要对数据进行大量运算,例如快速比较、匹配、求平均值、最大最小值、方差等:数据挖掘过程中还需要与数据库系统进行大量数据传输:数据挖掘系统对内存容量要求也很高,算法中常常用到巨型数组、超长向量、大规模树型结构等,为了加快运行速度,许多中间结果也是暂时保存在内存中而不是硬盘中。因此,数据挖掘系统对机器性能要求很高。然而微机处理能力和系统资源都十分有限,根本不能胜任数据挖掘任务,因此,许多基于PC机平台的数据挖掘系统只具有实验意义,距离一个实用系统还有很大差距。

  IBM S/390在支持高速、大型复杂任务时具有意想不到的高可靠性和可用性,与微机相比,S/390作为IBM公司的大型机服务器系统,具有丰富的硬件资源因此,IBM S/390大型机是进行数据挖掘的最理想平台。

  从另一个方面来看,随着互联网的发展,电子商务成为现代社会不可缺少的信息交流手段。在传统商务中广泛运用的各类数据挖掘技术,,在电子商务中基本上都是适用的。另外,利用Web强大的发布和表现能力,我们可随时随地进行数据挖掘。因此,将数据挖掘技术应用于电子商务,将数据挖掘系统与Web结合起来,具有巨大的商业价值。

  通过以上分析,我们提出并实现了一个基于 S/390面向Web的数据挖掘系统,该系统既利用了S/390的强大处理能力,又利用了Web强大的发布和表现能力,是一个实用的数据挖掘系统。2面向Web的数据挖掘系统模型。

  2.1  系统设计要求和目标

  现代企业中的各类决策任务要求数据挖掘系统能够完成多种类型的数据挖掘任务,如分类模式的发现、关联模式的发现、序列模式的发现、聚类模式的发现等等。这就要求我们的设计系统应尽量考虑到功能的完备性。另外,随着现代企业的电子商务进程的推进,数据挖掘技术及数据挖掘系统都将不断发展变化。这就要求我们的设计系统时应注重在体系结构上的可扩展性,最大限度地保护企业投资。

  数据挖掘系统与数据库的交互一般都是非常频繁的,这是由数据挖掘过程本身的交互性和反复性所决定的。另外,绝大多数数据挖掘任务所基于的数据量都很大。这就导致了数据挖掘系统一般都要与底层(可能是异构的)数据库进行大量、频繁的数据交换。因此,对于一个实用的数据挖掘系统来说,与底层数据库系统的紧密耦合、尽量借助 DBMS的各种功能支持是非常必要的。Intranet/ Internet/Web技术使现代企业的各项日常管理活动在日趋电子化的同时越来越依赖于企业网,作为决策支持软件之一的数据挖掘系统,应该支持和适应这个环境。

  归纳起来,我们认为的现阶段设计一个数据挖掘系统,应该考虑的目标主要包括:系统功能及工具的完备性;系统体系结构的可扩展性;多种数据源的存取能力;底层数据模型支持能力;数据量的最大处理能力;基于Web的发布和表现能力。针对这些设计目标,我们提出了一个面向Web的数据挖掘系统模型,该模型的逻辑结构如图一所示,该模型将多种数据挖掘功能和国际互联网的表现能力结合起来。

  该模型采取客户/服务器三层结构。在客户端采用支持动态网页的浏览器作为用户界面部分来输入挖掘参数和显示挖掘结果;多个数据挖掘模块放在应用层服务器中实现,每个数据挖掘模块是一个CGI程序供Web服务器调用;底层数据处理放在数据库服务器端实现,可以将数据库服务器和 Web服务器放在同一台机器上以提高挖掘效率。

  2.2  系统优点分析

  传统的客户服务器应用软件模式大都是基于“肥客户机”的两层结构应用软件。这种结构的突出的缺点是系统的可伸缩性较差和安装维护困难。本文提出的数据挖掘系统模型属于三层体系结构,由客户机、应用层和数据库层三部分组成,因而具有许多优点:

  该模型与两层结构的应用软件系统结构相比,应用层逻辑被独立地放在应用层,便于功能的共享,整个系统的管理维护也就变得相对简单,因此系统的可伸缩性较好,安装维护简单。该模型将数据挖掘过程放在应用服务器端的实现方式使网络上的信息传输最达到最小,只需传输动态HTML请求和应答。

  该模型利用了Web强大的发布和表现能力,使得随时随地进行数据挖掘成为可能。

  该模型是一个面向电子商务的数据挖掘模型,保护了电子商务网站已有的投资,网站能够以最小代价建立数据挖掘系统。

  该模型的另一个好处是系统有良好的可扩展性,当有新的数据挖掘工具加入时,无需改动和重新编译客户端应用程序,只需将新加入的数据挖掘功能模块加入到数据工具包中,同时更新Web页面即可。

  该模型支持“瘦客户机”,系统对客户端的硬件及操作系统平台无特殊要求,客户机上只需安装一个标准的浏览器,就能以上述三层结构的工作方式访问存储于Web服务器上的大量应用程序。

  该模型中数据库系统可根据实际情况选用大型数据库系统,数据服务器与应用服务器应处在同一台机器上以提高系统性能。

  3  系统实现中各子模块的选择

  在我们实现的数据挖掘系统中,我们采用了 IBM公司S/390大型服务器作为系统的机器平台,整个系统的体系结构采用了面向Web的数据挖掘系统模型。作为一个实用的数据挖掘系统,除了要正确选择机器平台和体系结构外,我们还需要正确选择操作系统、数据库系统、Web服务器和编辑语言等子系统。只有正确选择各子系统,我们才能实现一个经济、高效、功能强大、可移植好的数据挖掘系统。

  3.1  操作系统的选择

  IBM S/390大型机上运行的是MVS操作系统,用户很难在该系统上进行应用开发。2000年5月,IBM公司发布了能在S/390企业服务器上运行的Linux软件及相应服务,在取得IBM公司技术支持的前下,通过多次努力,我们也将Linux成功地移植到了华南理工大学的S/390大型机上,这使得在S/390上开发一个面向Web的数据挖掘系统的方案真正成为可行。

  Linux是一个多用户、多任务操作系统,具有可移植性好、对机器硬件要求低、开发资源丰富、源代码开放等优点,这使Linux成为我们开发基于 S/390数据挖掘系统的最佳也是唯一的操作系统。

  3.2  WWW服务器的选择

  目前较流行的Web服务器有Apache,Microsoft IIS,Domino Go web server,Netscape web server等,由于apache具有使用广泛、价格便宜、可移植性好、功能强大等优点,现在apache与Linux相结合是建立Web站点的最有效的途径,因此我们面向Web的数据挖掘系统也采用apache服务器。

  从本挖掘系统的最终挖掘结果来看,apache是建立高效率、跨平台、高性价比的Web站点的最佳选择。

  3.3  数据库服务器的选择

  在数据库的应用开发中,常常会遇到性能和代价的之间矛盾。虽然一些大型数据库系统性能优越,功能强大,但安装、维护费用很大,对机器性能的要求也较高,并且有些数据库系统只适用于专用的操作系统。

  考察国内常用的数据库管理系统,如Oracle, Sybase,DB2,mSQL,MySQL,Informix,SQL Server,Access,Unix dbm,PostgreSQL等,通过比较各数据库管理系统的性能和对操作系统的要求,在基于S/390面向Web的数据挖掘系统中我们最终选择的数据库系统为MySQL,这是因为MySQL有着其它数据库系统无法比拟的优势:运行速度快、容易使用、可移植性好、有丰富的API开发接口,另外MySQL是gnu软件(即OpenSource自由软件)中非常优秀的完全网络化的跨平台关系型数据库系统,可以免费供个人使用,并且MySQL业界已经有许多成功的应用。

  经过在IBMS/390上一段时间的运行,证明了MySQL确实是高效而稳定的数据库,非常适合构建大容量、高效率、易维护、高性价比的数据库应用系统。

  3.4  开发语言的选择

  基于S/390面向Web的数据挖掘系统需要处理Web浏览器发出的HTML请求,然后按要求进行数据挖掘,最后生成动态网页并将挖掘结果传给客户,通过对常用网页开发程序语言的性能、效率、移植性、数据库支持可及价格等多方面的综合考虑,我们最终选择了PHP作为该数据挖掘系统的脚本语言。

  虽然PHP在处理动态网页方面的功能很强大,但要用PHP来实现数据挖掘功能如关联分析、序列分析是远远不够的,这是因为,数据挖掘涉及到许多数据结构,如多叉树、数组、指针、链表、双向队列、散列表等,这些结构在PHP中很难实现,数据挖掘还要涉及动态内存分配、多进程、多线程、挖掘算法的高速实现,这任务PHP同样不能胜任,因此,我们的数据挖掘系统中挖掘模块需要用其它的 CGI程序来实现。

  c/c  作为使用最广泛的编程语言,它的编程效率高、功能强大、可移植性好,是优秀程序员编程的最佳选择,在我们的基于S/390面向Web的数据挖掘系统中各数据挖掘模块也是用gnu c/c  编写的CGI程序。

  为了简化程序实现,我们用到了gnu的标准模板库(STL)。STL已经被测试<< p="">

更多内容请访问 中国工控网(http://www.gongkong.com)

手机扫描二维码分享本页

工控网APP下载安装

 

我来评价

评价:
一般