数据挖掘在商务中的应用
1 常用数据挖掘模式
数据挖掘模式有很多种,按功能可分为预测型模式和描述型模式两类,预测型模式是可以根据数据项的值精确确定某种结果的模式,挖掘预测型模式所使用的数据也都是可以明确知道结果的, 描述型模式是对数据中存在规则的描述,或者根据数据的相似性把数据分组,在实际应用中,往往根据模式的实际作用将数据挖掘模式细分为以下几种:
1.1 分类模式
分类模式是一个分类函数(分类器),它把数据集中的数据项映射到某个给定的类上, 分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索, 沿着数据满足的分支往上走,走到树叶即可确定类别。
1.2 回归模式
回归模式的函数定义与分类模式相似,差别在于前者的预测值是连续的,而后者是离散的。
1.3 时间序列模式
时间序列模式是根据数据随时间变化的趋势预测将来的值。
1.4 聚类模式
聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小,与分类模式不同,聚类前并不知道将要划分的组的数量和类型,也不知道根据那一个数据项来定义组。
1.5 关联模式
关联模式是数据挖掘的核心技术,它是由R.Agrawal等人首先提出的,关联规则就是给定一组项目和一个记录集合,通过分析记录集合,推导出项目间的相关性,关联模式广泛应用于各行各业。
2 数据挖掘在商务应用中的解决方案
传统的数据库已无法满足大容量历史数据、不同部分数据难以集成等特点,于是数据仓库应运而生。数据仓库是面向主题的、继承的、稳定的和随着时间变化的数据集合,它是数据挖掘的基础,数据挖掘也称数据仓库中的知识发现。
2.1 基于数据仓库的数据挖掘系统结构
基于数据仓库的数据挖掘系统的结构一般包括三个部分:数据仓库管理系统、模型库管理系统和知识库管理系统,如图1所示。
数据仓库管理系统:直接负责对数据仓库进行管理,并完成对各种异构分布数据源中数据的提取工作,在最大限度上屏蔽各类异构数据源对系统带来的影响。
知识库管理系统:对知识库进行管理和控制,包括知识的增加、删除、更新和查询等。
模型库管理系统:对模型库进行管理,模型库的一个重要组成部分是知识发现模块,它包括各类数据挖掘工具。
2.2 数据仓库和数据挖掘解决方案
通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供较为通用的处理模式,如:分类模式、回归模式、时间序列模式、聚类模式、关联模式等,例如:IBM公司的QUEST系统、SGI公司的MineSet系统、加拿大Simon Fraser大学的DBMiner、美国Business Object公司的Business Miner系统、SAS公司的SAS EM(Enterprise Miner)系统等, 另外,Oracle公司不但提供对数据仓库的全面支持,同时还提供了一系列的集成工具,利用这些工具可以帮助我们创建、管理和维护企业数据仓库,同时,利用数据仓库中的数据进行数据挖掘,提供决策分析。
3 数据挖掘在商务中的应用
随着信息技术的迅速发展,特别是数据库技术和计算机网络技术的广泛应用,企业拥有的数据急剧增大。在大量的数据与信息中,蕴藏着企业运作的利弊得失,若能够对这种海量的数据与信息进行快速有效地深入分析和处理,就能从中找出规律和模式,获取所需知识,帮助企业更好地进行企业运筹决策。数据挖掘技术和产品在这种市场需求中逐渐发展成熟,并使企业获得极高的投资回报。
3.1 关联规则的应用
在商品销售中,我们往往重视客户与商品的关系,即不同的客户(不同年龄、不同地区)对不同商品的偏好,从而可做到个性化的服务, 但是我们往往忽略了另一个方面,即商品之间的关联。例如一条典型的关联规则如下:“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”,说明面包、黄油和牛奶之间存在着潜在的关联。
某经营有化妆品和沐浴用品的公司对某一时段内的销售记录(2000条)进行关联分析,过程如下:
(1)在2000条交易记录中,同时包含有两种商品的交易数如表1所示。
表1 同时包含两种商品的交易数
(2)在2000条交易记录中,包含各商品的交易数如表2所示。
(3)根据表1,计算出支持度如表3所示。
(4)针对设定的最小支持度阈值(0.3),计算可信度如表4所示。
提交
助力企业恢复“战斗状态”:MyMRO我的万物集·固安捷升级开工场景方案
车规MOSFET技术确保功率开关管的可靠性和强电流处理能力
未来十年, 化工企业应如何提高资源效率及减少运营中的碳足迹?
2023年制造业“开门红”,抢滩大湾区市场锁定DMP工博会
2023钢铁展洽会4月全新起航 将在日照触发更多商机