分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》
摘要: 属性约简对于数据处理来说意义重大。在基于邻域粗糙集的属性约简算法中,正域计算是保证其有效性的重要依据,也是影响其时间开销的最主要部分。为了减少算法时间开销,通过对现有算法FHARA的正域计算进行改进,采取保留策略,利用矩阵保留度量计算值的平方,将原本n维上的计算改进为1维上的计算,从而缩减了每次度量计算的计算时间,并在此基础上提出了基于矩阵保留策略的邻域粗糙集属性约简算法,最后通过多个UCI数据集验证了该算法。与现有算法相比较,实验结果表明,对大部分数据集而言,该算法能有效且更快速地得到数据集的属性约简。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: 邻域粗糙集应用的好坏依赖于邻域大小#1;的取值。在使用基于邻域粗糙集的属性约简算法时,现有的#1;取值方法一般是点值式的,即仅凭借人的经验指定某个值,这种方法在对#1;取值时没有结合实际问题的具体情况,因此在算法的实用性上可以作进一步讨论。为此,提出一种自适应#1;取值方法,其最大特点是不指定#1;取值,而是指定#1;取值的区间,然后在该取值区间上,通过使用一种结合了数据集和分类器自身特性的适应值函数自动地选出最合适的#1;取值。实验结果表明,相比点值式#1;取值方法,通过自适应#1;取值方法能找到属性个数更少,而分类精度更高的属性集。实验证明该方法能进一步提高基于邻域粗糙集的属性约简算法的实用性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: Pawlak粗糙集的知识约简包括对决策表的知识约简和对信息表的知识约简。作为Pawlak粗糙集的扩展,邻域粗糙集在针对决策表的属性约简方面应用广泛,而针对信息表的属性约简方面应用鲜少。为了设计一种适用于信息表的属性约简算法,根据Pawlak粗糙集的信息表知识约简标准,首先提出一种邻域粗糙集的信息表知识约简标准,然后根据这种标准,结合贪心思想,进一步提出了一种适用于聚类任务的信息表属性约简算法。与主成分分析(principal component analysis,PCA)算法相比,实验结果表明用该算法对数据集降维后,得到的属性约简集合的属性个数较多,K-means算法根据属性集合进行聚类的精度较高。实验结果证明该算法能有效地应用于信息表的属性约简方面。