工控网首页
>

应用设计

>

数据仓库、数据挖掘和OLAP分析及其应用实例

数据仓库、数据挖掘和OLAP分析及其应用实例

2009/12/11 9:34:00
       在日益激烈的市场竞争中,海量信息的存储、挖掘而得到的任何与消费者行为有关的信息对商家来说都是非常宝贵的。概要介绍了数据仓库、数据挖掘和联机分析处理(OLAP分析)等概念,并介绍了一个工具SAS及其在网站访问量分析中的应用实例。

1 引 言

       商业社会正以不同寻常的速度在改变。对客户本身而言,绝对忠实的客户已不存在。客户越了解市场,他们作为个体就越想被承认和理解,希望企业能提供个性化的服务。因此,客户会把业务交给那些能满足他们需要、最能理解和了解他们且服务最出色的公司。为了回应这种变化,具有竞争力的企业正在摒弃过去无效的企业哲学,采取创新的方式来维护顾客的忠诚度,从中获取最大的利润。在客户效益概念的引导下,企业正在采取一个“以客户为中心”战略,强调客户价值的重要性。在这个意义重大的从“以产品为中心”的策略到“以客户为中心”策略的转变过程中,保留现有的有效益的客户正在变得越来越重要。随着客户获取的成本不断提高,同时也认识到分析客户效益的重要性,许多公司已经意识到,企业成功的关键就在于尽可能地了解所能了解的有关客户的一切信息,并把它转化为知识,进而变成企业竞争的原动力。

       现在许多企业已经有了关于客户的一些详细的数据,比如,背景信息及其历史交易数据,按理已经可以从这些数据中分析出客户的效益和其行为,但为什么许多公司都在提出这样的问题:究竟哪些是他们的客户?面对一份个别客户的详细档案,何时采用何种方式才能满足该客户的需求?答案是因为这些企业不愿对复杂的数据进行管理和风险分析。毕竟,如果收集1000个客户的信息(每个客户100条),然后你必须存储、管理和分析100,000个具体数据。即使是一个很小的案例,那些需要处理的数据之多也是令人生畏的,这就是数据仓库最初出现的地方。

2 几个有关概念

    2.1 数据仓库

    传统的数据库技术是单一的数据资源,即数据库为中心,进行事务处理、批处理到决策分析等各种类型的数据处理工作。要提高分析及决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。这种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一种新的体系化环境。把分析型数据从事务处理环境中提取出来,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。

    数据仓库不是为了存储数据,而是为决策支持更好地组织企业内所有可能收集到的数据。建立数据仓库不是目的,只是进行决策支持的中间环节,保证数据的一致性、准确性、综合性、易用性,为各种决策支持方案提供统一的数据源。例如,以客户为中心的数据仓库是根据客户管理的需求,对企业所有可能和客户相关的数据进行重组,使得企业对自己的客户具有统一的认识。数据仓库的要素包含以下几个方面:

    (1)ETL(数据的抽取、转换和装载);
    (2)数据仓库的存储;
    (3)数据仓库的管理和维护(包含元数据的管理)。

    2.2 数据挖掘

    数据挖掘,也可以称为数据库中的知识发现(Knowledge Discovery in Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。数据挖掘是当前业界的热门技术,已经在多个应用领域产生了巨大的效益。数据挖掘不一定需要建立在数据仓库的基础上,但是,如果将数据挖掘和数据仓库协同工作,则可以简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率。并且,因为数据仓库的数据来源于整个企业,保证了数据挖掘中数据来源的广泛性和完整性。数据挖掘技术是数据仓库应用中比较重要也是相对独立的部分。目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。

    数据挖掘是按照企业既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法。如通过对客户各种数据深入分析,了解客户的行为,建立模型,并对客户未来的行为进行预测。多年来,统计人员采用手工方式“挖掘”数据库,寻找统计学上的重要模式。现在,数据挖掘技术被很好地用于为预测客户行为进行建模。预测建模可以对客户进行分类,同时对客户的行为进地打分,这些信息可以被整合到数据仓库和其他市场营销应用中。

    2.3 联机分析处理OLAP

    联机分析处理的概念最早是由关系数据库之父E.F.Codd年提出的。当时,Codd认为联机事务处理OLTP(On-Line Transaction Processing)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP主要通过多维的方式来对数据进行分析、查询和报表。它不同于传统的OLTP应用。OLTP应用主要是用来完成用户的事务处理,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等。主要是进行大量的查询操作,对时间的要求不太严格。

    目前,常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP。在数据仓库应用中,联机分析处理应用一般是数据仓库应用的前端工具,同时,联机分析处理工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。

3 工具及实例

    SAS系统是用于严肃数据分析和决策支持的大型集成式模块化软件包。六十年代末到八十年代初,以统计分析及线性数学模型为主,并以此闻名于世。其早期名为“Statistical Analysis System”,“SAS”即成为SAS软件研究所(SAS Institute Inc.)产品的商标。下面是该系统在网站访问量分析中的应用实例。

    美国亚特兰大的AutoTrader.com是世界上最大的汽车超级站点。站点上提供非常丰富的二手汽车及其他交通工具信息。用户每天都要对站点上提供的信息进行点击,寻求有用的信息。决策者需要知道什么样的客户访问这个站点;客户喜欢怎样的站点访问路径来获得所需信息;各个站点层次访问量如何;同一位客户访问站点的频率;客户经常重复进行怎样的购买行为;哪位老客户介绍来了新客户;经介绍来的新客户和不是经介绍来的新客户购买习惯有什么不同,等等。

    AutoTrader.com需要用相关的分析和数据挖掘工具对用户的网络点击流进行分析,从而决定自己是否需要根据客户的不同喜好开设特定服务区。分析和数据挖掘软件选用了SAS,包括应用开发、信息和图形展现、Web发布、SAS/SPDS等方面集成了的能力。借助SAS软件,AutoTrader.com对站点下一年度的访问流量进行预测。有了SAS/SPDS对大数据量的良好支持,AutoTrader.com一点都不为将来数据量的增长担心。

    AutoTrader.com建立了应用,每天凌晨2点应用系统访问日志文件中的数据,对之自动解压并分析。基于SAS软件建立的公司内部网大大提高了决策人员从多角度浏览信息的能力,应用系统可自动生成包含访问统计量和图表的网页,第二天早晨自动送到决策者的桌面机上。用户能非常容易地对这些报表进行钻取操作,以报表或三维图表的形式进行浏览观察。

    由于数据挖掘结果能清楚地显出客户浏览访问模式和对特定网页的响应率,得到的信息也指导AutoTrader.com优化网页设计。基于得到的结果,AutoTrader.com设定了满足不同用户喜欢的页面,满足特定个人用户的需求。

    数据挖掘的结果也清楚地表示出了特定合作伙伴连接和公司广告对于个人用户的影响,这能够指导公司在将来制定更加合理的战略决策。

投诉建议

提交

查看更多评论
其他资讯

查看更多

助力企业恢复“战斗状态”:MyMRO我的万物集·固安捷升级开工场景方案

车规MOSFET技术确保功率开关管的可靠性和强电流处理能力

未来十年, 化工企业应如何提高资源效率及减少运营中的碳足迹?

2023年制造业“开门红”,抢滩大湾区市场锁定DMP工博会

2023钢铁展洽会4月全新起航 将在日照触发更多商机