分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-24 合作期刊: 《计算机应用研究》
摘要: 特征项的选择和特征权值的计算是文本分类过程中两个至关重要的环节,对文本分类的结果起关键性作用。为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-nearest neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 针对传统协同过滤算法中存在数据稀疏问题,提出融合协同过滤的线性回归推荐算法。根据用户对项目的评分以及用户和项目自身特征,构建用户间和项目间相似矩阵。基于相似矩阵,选出用户和项目最近邻集合,分别通过基于用户和基于项目的协同过滤算法来预测用户已评分项目的评分,将预测评分与真实评分的差值作为特征,组合在一起生成新的训练数据。把新的训练数据作为线性回归模型的输入,根据训练好的模型预测未知评分,采用Top-N算法产生推荐列表。在MovieLens数据集上进行实验。实验结果表明,新算法的推荐准确性较传统协同过滤算法有显著提高。