工控网首页
>

应用设计

>

贝叶斯文本自动分类器的研究与实现

贝叶斯文本自动分类器的研究与实现

2005/12/29 16:15:00
关键词:文本分类;贝叶斯;向量空间模型(VSM) 中图分类号:TP202 文献标识码:A A Research and Implementation of Naive Bayes Automatic Text Classifier ZHOU Qin-qiang,SUN Bing-da (1. Department of Automation Guangdong University of Technology, Guangzhou 510090, China; 2. Department of Automation Guangdong Polytechnic Normal University, Guangzhou 510665, China) Abstract: This paper gives a research to Na? ve Bayes method, which is one of automatic text categorization techniques. A Na? ve Bayes classifier is built to validate that it also has good performance even if Bayes assumption is not true in many situations. Finally, the experimental results show that suitable thresholdings for probabilistic text classification model is of great importance to get the optimal classifier. Key words: text categorization ; naive hayes; vector space model (VSM) 1 引言 随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对信息进行组织和整理。为了减轻这种负担,人们开始研究使用计算机对文本进行自动分类。文本自动分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。自动文本分类是人工智能技术和信息获取(Information Retrieval)技术相结合的研究领域,是进行基于内容的自动信息管理的核心技术。 当前,文本自动分类大都是基于概率分类和机器学习技术的,例如K近邻算法[2],贝叶斯分类算法[1],支持向量机[4],神经网络[5]和最大熵模型[6]等。本文对基于概率模型的贝叶斯分类算法作了深入的讨论,根据所讨论的算法构造了贝叶斯文本自动分类器,并对其做了详尽的训练测试。试验结果表明,贝叶斯算法简单、性能优越,即使在不考虑贝叶斯假设的前提下,仍然取得良好的分类性能;同时证明了降维阈值的确定对于获得性能最优的分类器具有至关重要的作用。 2 实现方法 2.1 贝叶斯模型 朴素贝叶斯算法是文本分类领域中一种简单但性能优越的的分类算法,为了简化计算,假定各待分类文本特征变量是相互独立的,即“贝叶斯假设”。虽然这种条件独立的假设在许多应用领域未必能很好满足甚至不成立,但这种简化的贝叶斯分类器在许多实际应用中还是得到了较好的分类精度。总体来讲,贝叶斯模型具有以下特点: (1)训练(学习)和分类都是基于概率模型 (2)贝叶斯公式在学习和分类中起着主导作用 (3)贝叶斯算法建立起了产生近似数据的范化模型 (4)每一类别的先验概率分布代表类别信息 (5)分类结果给出了每篇文本属于每个类别的后验概率分布 2.2 贝叶斯分类描述 根据联合概率分布的定义
M——训练文本集合中经过停用词去除文本预处理之后关键字的数量。 3 试验数据 3.1 数据集 本文采用文本分类领域最常用的分类训练测试集Reuters21578(可以登陆网站查看详细信息: http://www.daviddlewis.com/resources/testcolle-ctions/reuters21578/)对所构造的分类器训练和测试,采用ModApte切分方法将数据集切分为9603篇训练文本和3299篇测试文本。在分类器训练和测试过程中,训练文本和测试文本都由本地硬盘读取,经过文本向量化[7]和降维处理[3]后输入贝叶斯分类器。整个分类器采用当前流行的编程语言 JAVA实现。 3.2 实验结果 试验结果给出了16类最高分类精度的分类结果,详细分类结果请见表1。 为了证明降维阈值对所构造的分类器分类性能的影响,本文选取分类准确率作为贝叶斯分类器的评分函数,给出了选取四个不同的降维阈值得到的四组分类准确率,如图3所示。其中t为训练文本的降维阈值,w为待分类文本的维度。Y轴表示分类准确率,X轴表示16个不同的类别。由图3可知: (1)尽管贝叶斯算法假设每个类别中每篇文本的特征向量属性服从独立同分布,但是,忽略这一假设,分类器仍能表现出良好的分类性能:分类最低准确率在70%左右,甚至有三个类别的分类准确率达到100%,16个类别的平均分类准确率是82.0%。 (2)降维阈值的选取对分类准确率具有重大的影响。图3中四种不同颜色的曲线代表了四种不同的降维阈值(t,w)所对应的分类准确率折线。可以看出,阈值不同时分类准确率变化明显。因此,在分类器没有溢出的前提条件下,为了得到最佳性能的分类器,必须选取不同的降维阈值反复训练测试分类器。 (3)尽管分类器平均分类准确度达到82.0%,但是对于每一确定降维阈值的分类准确率而言,其分类准确率变化区间较大。也就是说,对应于图3中每一种颜色的折线,16个类别的分类准确率曲线并不平滑,而是起伏较大。如何使分类器对各个类别的分类准确率趋于一致也是本文后续工作继续研究的问题。
4 总结 本文对文本自动分类技术中最简单实用的朴素贝叶斯算法做了深入细致的研究描述,在此基础上实现了贝叶斯文本自动分类器,并对该分类器进行了训练和测试,实验结果表明: (1)即使在忽略贝叶斯假设的情况下,贝叶斯分类器仍能够取得良好的分类效果。 (2)降维阈值的选取对于取得最佳分类性能的 分类器具有重要的影响,要获得最佳分类性能的分类器,必须在保证分类器没有溢出的前提下选取不同的阈值对分类器反复训练测试。虽然,本文所构造的文本自动分类器取得了较好的分类性能,但是对于不同的类别得到的分类准确率变化较大,因此在实际应用中有一定的局限性,为了使其更好的运用到实际中,使其针对不同类别训练测试集的分类准确率变化较小或者基本不变,还需要对朴素贝叶斯分类算法作一研究改进。 参考文献 [1] Jyotishman Pathak. Text Classification Using A Naive Bayes Approaeh[J]. Department of Computer Science Iowa State University. [2] Aynur Akkus and H. Altay Guvenir, K Nearest Neighbor Classifications on Feature Projections [J]. Dept. of Computer Engr. And Info. Sci, Bilkent University, Ankara, Turkey. [3] Yang, Y. Pedersen, J. O. A, Comparative Study on Feature Selection in Text Categorization[J]. Proceeding in the 14th international conference on Machine Learning, Morgan Kaufman Publishers, San Francisco, US, 1997,pp,412~420. [4] A. Basu, C. Watters and M. Shepherd, Support Vector Machines for Text Categorization [J] Faculty of Computer Science Dalhousie University, Halifax, Nova Scotia, Canada B3H 1WS. [5] Lain Lai Yin, Dominie Savio, Learned Text Categorization by Baekpropagation Neural Network [J]. A Thesis Presented to The Hang Kong University of Science and Technology, Hang Kong , August 1996. [6] Kamal Nigam, John Lafferty and Andrew McCallum, Using Maimum Entropy for Text Categorization [J]. School of Computer Science Carnegie Mellon University, Pittsburgh, PA15213. [7] 庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究.Vol(18),No 9,2001.9:23-26.
投诉建议

提交

查看更多评论
其他资讯

查看更多

助力企业恢复“战斗状态”:MyMRO我的万物集·固安捷升级开工场景方案

车规MOSFET技术确保功率开关管的可靠性和强电流处理能力

未来十年, 化工企业应如何提高资源效率及减少运营中的碳足迹?

2023年制造业“开门红”,抢滩大湾区市场锁定DMP工博会

2023钢铁展洽会4月全新起航 将在日照触发更多商机