值域用什么字母表示(一种面向混合数据的模糊等价关系构造约简)


值域用什么字母表示(一种面向混合数据的模糊等价关系构造约简)

在混合数据分析中,基于模糊粗糙集模型的模糊等价关系构建是一种有效方法。针对属性类别多样的混合型信息系统,我们提出了一种考虑权重因素的对象间相似性度量方法。该方法针对各类属性建立相应的相似性度量函数,并通过合并建立带权重的模糊相似矩阵,最终确定模糊等价关系。在转化为模糊等价关系后,我们加入了包含领域专家知识和用户需求的约简算法。通过对数据库中多个数据集样本的属性约简数量及精度进行对比,验证了该方法的有效性和可行性。

一、引言

粗糙集理论是一种处理不确定信息的数学工具,属性约简是在保持分类能力不变的前提下获取最小特征子集的核心应用之一。实际信息系统中的属性和决策值域是多样化的,包括符号型属性和连续数值型属性,即混合分类数据。如何处理这些数据大体上可分为两类方法:离散化方法和对不可分辨关系进行拓展的混合型方法。本文重点研究在模糊粗糙集模型框架下如何定义混合数据间的带权相似性度量方法及模糊等价关系。

二、模糊等价关系及其度量

针对符号型变量,我们可以利用粗糙集在等价关系的基础上建立对象间关系。但对于数值型变量,等价关系不足以清晰地刻画对象间关系,需要借助模糊等价关系的概念。

定义1:给定一个矩阵A,若满足自反性、对称性、模糊性和传递性,则称矩阵A为模糊等价矩阵。

在以下论述中,用M(R)表示二元关系R的关系矩阵。

针对混合数据的特性,我们提出了一种带权的对象间相似性度量方法,并依据属性重要性进行约简。

三、模糊等价矩阵的构造及算法描述

基于模糊等价关系的数据构造是混合数据分析的重要模型。我们利用矩阵形式刻画具有不同属性类别的样本间关系。针对符号型属性和数值型属性,我们分别进行重新构造,提出一种带权的对象间相似性度量方法,并使其最终转化为一个模糊等价关系。在加入量化知识的基础上进行约简。

3.1 模糊相似关系的构造

给定一个决策系统,其中包含符号型属性和数值型属性。我们分别描述样本的属性分类处理,并为之定义唯一函数。

符号型属性的取值是离散的、非有序的。若两个样本的条件属性取值完全相同,则其决策是一致的。不同样本间的区分能力由取值不同的属性来体现。我们引入一个关系矩阵来体现符号型属性集对样本间的贡献度。

数值型属性的取值是连续的、有序的。当两个样本除某个属性外的其余条件属性相针对该属性,若样本x比样本y占优,则x的决策至少不比y差。我们定义数值型属性集对样本间的贡献度。

以上是针对单个数值属性进行的对象间模糊相似处理。对于多个属性,我们采用交运算来合并不同属性间的模糊关系。假设属性a和属性b分别计算其偏好关系为wij和zij,则对象xi与xj对属性{a}∪{b}量化的偏好关系为min(wij,zij)。

我们实现了混合数据间的模糊相似关系构造,但模糊等价关系是计算信息熵的前提,因此还需将模糊相似矩阵转化为模糊等价矩阵。

3.2 模糊等价关系的构造算法及约简算法

我们采用优化算法进行模糊相似矩阵到模糊等价矩阵的转化。算法如下:

算法:设模糊相似矩阵为R,模糊等价矩阵为R。

输入:R。

输出:R的传递闭包R。


值域用什么字母表示(一种面向混合数据的模糊等价关系构造约简)