当前位置: 首页 > 期刊 > 《分析化学》 > 2004年第7期
编号:10794303
粗糙集方法及其在化学模式分类规则挖掘中的应用
http://www.100md.com 《分析化学》 2004年第7期
粗糙集,,粗糙集,离散化,信息熵,数据挖掘,分类规则,化学模式
     第32 卷

    2004 年7 月

    分析化学(FENXI HUAXUE) 研究报告

    Chinese Journal of Analytical Chemistry

    第7 期

    879~883

    粗糙集方法及其在化学模式分类规则挖掘中的应用

    束志恒 陈德钊

    3

    陈亚秋

    (浙江大学化工系仿真中心,杭州310027)

    摘 要 简要介绍了粗糙集的基本概念,决策系统的约简步骤和分类规则的挖掘原理,提出了基于信息熵的

    数据离散化方法,使之充分结合粗糙集特性,具有良好的推广性。又以经典的橄榄油产地判别为例,采用粗糙

    集方法,无需先验知识,不用设定参数,即能消除冗余的属性和属性值,约简化学系统,从样本数据中挖掘出简

    明直接、易于理解的产生式分类规则,构建专业意义明确的化学模式分类模型,其预报性能良好,效果令人满

    意。

    关键词 粗糙集,离散化,信息熵,数据挖掘,分类规则,化学模式

    2003208222 收稿;2003212225 接受

    本文系国家自然科学基金(No. 20276063) 和杭州市科技发展计划项目(2003131B07) 资助课题

    1 引 言

    随着现代分析测试技术的发展,将产生并积累大量的化学数据,从中发现有用的信息,这是化学信

    息工程必须应对的严峻挑战。从数据中发现分类规则,用以建模,是数据挖掘的典型模式之一。化学模

    式的分类建模方法主要有判别分析和神经网络,前者要求数据遵从一定的分布,而后者的网络设计与训

    练存在较多困难,尤对高维海量数据更甚1 。另外,两者所建的模型往往表示为复杂的算式与数,难用

    专业知识描述,也难为专业人员所理解。

    基于粗糙集理论的智能数据处理方法,无需先验专业知识,即可从数据中发现蕴含的知识模式2 ,找出属性间的依赖性。在保持分类能力的前提下,约简消除冗余的属性及属性值,获取最小的产生式分

    类决策规则集。这些规则与专业有关,所建模型,易于专业说明。

    粗糙集的处理对象为离散型数据,化学属性的连续型数据,必须先离散化。其离散结果将影响导出

    规则的统计特性,此为粗糙集处理方法的重要关键。本研究拟以Chi2merge 离散化方法7 为基础,将信

    息熵用作离散化评分函数,以提高所得规则的推广性,并将粗糙集方法用于橄榄油模式分类规则的挖

    掘,其良好的效果表明这是一种有效的化学数据挖掘方法 ......

您现在查看是摘要页,全文长 16210 字符