工控网首页
>

应用设计

>

数据挖掘在商务中的应用

数据挖掘在商务中的应用

2009/12/11 10:19:00
      随着数据挖掘技术的不断改进和数据挖掘工具的不断完善,数据挖掘必将在各行各业中得到广泛的应用,该文首先介绍数据挖掘的常用模式和常用的解决方案,并着重介绍关联规则、多层和多维规则以及聚类分析在商务中的应用。
    数据挖掘技术是一项以数据库技术、统计分析、人工智能等为依托的综合性运用技术,它在零售、保险、电信、电力等行业的运用已经显示出巨大的商业价值并逐步向其他行业渗透,数据挖掘是新型的商业分析处理技术,它是从大型数据仓库中发现并提取隐藏在其中的信息的一种新技术,帮助决策者寻找数据间潜在的关联,发现被忽略的因素, 它不仅是面向特定数据库的简单检索查询调用,而且要求对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测,这些信息和因素对预测趋势和决策行为是至关重要的,随着信息化进程的不断推进,企业信息化工作发展迅速,各种辅助管理软件(ERP、CRM、SCM、PDM等)在企业中都得到了广泛的应用, 而这些辅助软件的核心就是数据库技术,随着数据库技术的发展,数据仓库、数据集市的建立,企业存储有大量的管理资料、客户资料和生产资料,如何从中提取出隐藏在其中的信息,帮助决策者进行决策,是企业面临的问题。

1 常用数据挖掘模式

    数据挖掘模式有很多种,按功能可分为预测型模式和描述型模式两类,预测型模式是可以根据数据项的值精确确定某种结果的模式,挖掘预测型模式所使用的数据也都是可以明确知道结果的, 描述型模式是对数据中存在规则的描述,或者根据数据的相似性把数据分组,在实际应用中,往往根据模式的实际作用将数据挖掘模式细分为以下几种:

    1.1 分类模式

    分类模式是一个分类函数(分类器),它把数据集中的数据项映射到某个给定的类上, 分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索, 沿着数据满足的分支往上走,走到树叶即可确定类别。

    1.2 回归模式

    回归模式的函数定义与分类模式相似,差别在于前者的预测值是连续的,而后者是离散的。

  
  1.3 时间序列模式

    时间序列模式是根据数据随时间变化的趋势预测将来的值。

    1.4 聚类模式

    聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小,与分类模式不同,聚类前并不知道将要划分的组的数量和类型,也不知道根据那一个数据项来定义组。

    1.5 关联模式

    关联模式是数据挖掘的核心技术,它是由R.Agrawal等人首先提出的,关联规则就是给定一组项目和一个记录集合,通过分析记录集合,推导出项目间的相关性,关联模式广泛应用于各行各业。

2 数据挖掘在商务应用中的解决方案

    传统的数据库已无法满足大容量历史数据、不同部分数据难以集成等特点,于是数据仓库应运而生。数据仓库是面向主题的、继承的、稳定的和随着时间变化的数据集合,它是数据挖掘的基础,数据挖掘也称数据仓库中的知识发现。

    2.1 基于数据仓库的数据挖掘系统结构

    基于数据仓库的数据挖掘系统的结构一般包括三个部分:数据仓库管理系统、模型库管理系统和知识库管理系统,如图1所示。


图1 基于数据仓库的数据挖掘系统结构框架


    数据仓库管理系统:直接负责对数据仓库进行管理,并完成对各种异构分布数据源中数据的提取工作,在最大限度上屏蔽各类异构数据源对系统带来的影响。

    知识库管理系统:对知识库进行管理和控制,包括知识的增加、删除、更新和查询等。

    模型库管理系统:对模型库进行管理,模型库的一个重要组成部分是知识发现模块,它包括各类数据挖掘工具。

   
2.2 数据仓库和数据挖掘解决方案

    通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供较为通用的处理模式,如:分类模式、回归模式、时间序列模式、聚类模式、关联模式等,例如:IBM公司的QUEST系统、SGI公司的MineSet系统、加拿大Simon Fraser大学的DBMiner、美国Business Object公司的Business Miner系统、SAS公司的SAS EM(Enterprise Miner)系统等, 另外,Oracle公司不但提供对数据仓库的全面支持,同时还提供了一系列的集成工具,利用这些工具可以帮助我们创建、管理和维护企业数据仓库,同时,利用数据仓库中的数据进行数据挖掘,提供决策分析。

3 数据挖掘在商务中的应用

    随着信息技术的迅速发展,特别是数据库技术和计算机网络技术的广泛应用,企业拥有的数据急剧增大。在大量的数据与信息中,蕴藏着企业运作的利弊得失,若能够对这种海量的数据与信息进行快速有效地深入分析和处理,就能从中找出规律和模式,获取所需知识,帮助企业更好地进行企业运筹决策。数据挖掘技术和产品在这种市场需求中逐渐发展成熟,并使企业获得极高的投资回报。

    3.1 关联规则的应用

    在商品销售中,我们往往重视客户与商品的关系,即不同的客户(不同年龄、不同地区)对不同商品的偏好,从而可做到个性化的服务, 但是我们往往忽略了另一个方面,即商品之间的关联。例如一条典型的关联规则如下:“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”,说明面包、黄油和牛奶之间存在着潜在的关联。

    某经营有化妆品和沐浴用品的公司对某一时段内的销售记录(2000条)进行关联分析,过程如下:

    (1)在2000条交易记录中,同时包含有两种商品的交易数如表1所示。


表1 同时包含两种商品的交易数


    (2)在2000条交易记录中,包含各商品的交易数如表2所示。


表2 包含各商品的交易数


    (3)根据表1,计算出支持度如表3所示。


表3 X→Y的支持度


    (4)针对设定的最小支持度阈值(0.3),计算可信度如表4所示。


表4 X→Y的可信度


    将大于最小可信度阈值(0.67)的规则列出,即为关联分析所得出的规则:

    


    从上述规则中可以得出以下结论:

    <

投诉建议

提交

查看更多评论
其他资讯

查看更多

助力企业恢复“战斗状态”:MyMRO我的万物集·固安捷升级开工场景方案

车规MOSFET技术确保功率开关管的可靠性和强电流处理能力

未来十年, 化工企业应如何提高资源效率及减少运营中的碳足迹?

2023年制造业“开门红”,抢滩大湾区市场锁定DMP工博会

2023钢铁展洽会4月全新起航 将在日照触发更多商机