基于可拓集的企业数据挖掘应用方案初探_可拓学_可拓集合

基于可拓集的企业数据挖掘应用方案初探

2009/12/11 10:31:00

数据本身的质量差造成数据挖掘结论的可信度低已经成为影响数据挖掘应用的重要因素，针对不完备数据设计的清洗算法、容忍算法等都不能从根本上解决这个问题。通过深入分析这一矛盾现象的原因，对企业数据建立物元可拓集合，提出基于可拓方法的数据挖掘企业应用方案。以数据挖掘所需的完备数据集做为条件物元，发现数据质量差距，以事元“数据挖掘咨询”促使物元集可拓域的发展变换，推出以数据挖掘应用咨询带动数据质量改进的措施，从而解决了数据质量的矛盾问题，使数据质量不高的企业也可以实施数据挖掘项目，提高信息决策水平。

1 数据挖掘应用现状及存在问题

    近年来，数据挖掘在生物、金融、保险、零售等行业已得到较为广泛的应用，成为后信息化时代的关键技术，但在数据挖掘项目洽谈及实施过程中，常常会碰到各种矛盾问题。例如，数据本身质量问题和挖掘结论正确性的矛盾、海量数据与快速挖掘的矛盾、影响因素的无限性和挖掘属性选取的有限性之间的矛盾等等。其中，数据质量问题已成为影响数据挖掘应用的重要因素，存在有错误的或者不完整的、冗余的、稀疏的数据使得最终数据挖掘结论的可信度降低。因而，数据挖掘专家对数据质量差的企业得出的结论是不能做数据挖掘，做了结论准确性也很低，无法商业化应用；对企业而言，往往缺乏有效措施使数据准确，同时数据准确性无法有效检验，最终导致数据挖掘项目的沟通时间长，企业热情由高到低，可能使数据挖掘项目的洽谈无法达成协议。

    针对数据质量和挖掘结论准确性之间的矛盾，目前企业的做法通常是制定数据质量检验的标准，引入数据质量管理平台，加大数据误差的处罚力度，购买新技术和新软件等，这些措施往往不能很好地解决数据的质量问题，企业信息化质量仍然不高。数据挖掘专家则把精力集中在研究数据处理、清洗的技术、算法等，或者对低质量数据进行挖掘算法研究，但效果并不理想。

    本文拟从可拓工程研究的基本思想、工具和方法出发，将不相容问题进行形式化描述，建立条件物元和目的物元，将企业数据看作物元可拓集合，从可拓集合的变换角度进行分析，试图通过可拓变换解决数据准确性差和数据挖掘结论要求的可信度高之间的矛盾。

2 数据质量问题的可拓分析

    可拓学把物N、特征名c和N关于c的量值v构成的有序三元组R＝(N，c，v)作为描述物N的基本元，称为一维物元。其中c和v构成的有序二元组M＝(c，v)表示物N的一个特征。

    根据可拓学的动态原理，任何物元都是参数t的函数，即R(t)＝(N(t)，c，v(t))，其中参数t可以是时间、空间或其他参数。

    用于挖掘的数据是一个随时间、空间及信息化管理程度等动态变化的多维物元，记为



    式中：N1(t)为数据记录，c为数据记录的特征名，v是N1(t)关于c的量值，t为一般参数。因此，可以从参数t为时间、空间和其他条件等方面来分析造成数据质量差的原因。

    从时间角度分析，信息化初期的软件系统是面向操作的，以提高工作效率为主，内容不完整，补丁多，设计实施缺乏统一规划；从空间角度分析，企业中各个子系统相对独立，数据分散，不同的业务规范和基础数据编码，导致数据表达方式的多样性；从管理角度分析，数据存在不一致、不完整、数据重复、数据二义性甚至可能会有冲突等问题，但缺乏管理手段和工具发现这些问题。此外，设计时没有提供合理有效的数据更新维护途径，缺乏数据质量监督管理措施也是原因之一。

    数据质量差的最根本原因在于数据没有得到企业高层的有效分析和应用，原因是信息系统自企业部门级应用开始，受信息集成技术的限制，各部门数据形成信息孤岛，数据的完整性、一致性无法保证。这种不准确、不完整的孤立数据不利于面向主题的分析，更不能进行数据挖掘，无法有效地进行决策支持，因此，企业高层领导对数据的关切度降低，数据准确的推动力减小，从而使数据更不准确，形成恶性循环。

3 基于可拓变换的企业数据挖掘应用方案

    数据挖掘涉及3个多维物元和一个多维事元，用于数据挖掘的原始数据集可用式(1)所示的多维物元R1来表示；质量达到要求，可进行有效挖掘的数据集可用多维物元表示为



    该物元为条件物元，数据挖掘过程可用多维事元表示为



    其中bi(i＝1…n)为动词的特征名，包括支配对象、施动对象、接受对象、时间、地点、程度、方式和工具等基本特征，ui为量值。

    挖掘结论即目的物元，可用多维物元表示为



    目前一般的数据挖掘过程都是先通过数据清洗、格式化等把R1，变换为R2，然后再采用see5、支持向量机、MCLP等数据挖掘软件工具实现挖掘变换，得到挖掘的结论R3。由于企业数据质量不高，数据清洗处理往往占用大量的人力、物力和时间，况且数据清洗等方法往往治标不治本，即使费力清洗了现有数据，随后采集的用于挖掘的数据又被新的来自信息系统的不准确的数据所污染，必须重新清洗才能挖掘分析，清洗效果的不确定性增加了数据挖掘项目的风险。

    在企业用于数据挖掘的原始数据集上可以建立一个可拓集合。设U为论域，k是U到实域I的一个映射，T＝(TU，Tk，Tu)为给定的变换，称A(T)＝{(u，y，y’)︱u∈TuU，Y＝k(u)∈I，Y’＝Tkk(TuU)∈I}为论域TuU上的一个可拓集合，Y＝k(u)为A(T)的关联函数，Y’＝TkK(TuU)为A(T)的可拓函数，其中TU、Tk、Tu分别为对论域U、关联函数k(u)和元素u的变换。

    从数据挖掘的角度，可进行有效挖掘的数据R2是由和挖掘目标关联的完整的、一致的、正确的数据的集合。数据清洗的一个重要任务就是通过清洗脏数据，使数据质量达到可有效挖掘的要求。设某企业进行数据挖掘项目，论域U＝{某企业用于数据挖掘的数据的集合}，数据集质量的评价特征c01＝数据完整性，c02＝数据一致性，c03＝数据的正确性，记



    u∈U，在c01至c04的量值域V(c01)至V(c03)上分别建立关联函数k1(x1)，k2(x2)，k3(x3)，x1∈V(c01)，x2∈V(c02)，x3∈V(c03)。在物元集W＝上，建立物元可拓集合
    D(R)(T)＝{(R，y，y’)︱R∈TwW，y＝k(R)＝(k1(x1)∧k2(x2)∧k3(x3))∈(－∞，＋∞)，y’＝TkK(TrR)∈(－∞，＋∞)}，其中变换T＝{Tw，Tk，Tr}，y’＝TkK(TrR)是关于T的可拓函数，称D(R)(T)＝{(R，y，y’)︱R∈TwW，y＝k(R)≤0，y’＝TkK(TrR)≥0}为原数据集关于变换r的可拓挖掘集。
3.1 关于论域变换的解决方案

    对论域做置换变换，可以选择质量满足数据挖掘要求的其他数据集进行挖掘，同时改变挖掘目标；对论域做增删变换，增加质量更好的数据集以降低整体数据集的不准确率，或者去掉一些质量很差的数据，用清洗后的子集做数据挖掘，这是目前<