您当前的位置:首页 > 论文浏览
您选择的条件: 谌志群(4)

1. chinaXiv:201712.01400 [pdf]

基于多权值的 Slope One 协同过滤算法*

覃幸新; 王荣波; 黄孝喜; 谌志群
分类: 图书馆学、情报学 >> 情报学

【目的】针对 Slope One 算法未考虑项目相似性、项目属性和对目标用户已有评分同等考虑进而导致推荐 准确度降低的问题进行改进。【方法】提出一种基于改进的项目相似性度量、改进的项目属性相似性度量和用户 评分概率函数的多权值的Slope One协同过滤算法, 在项目相似性度量方面将共同评价的两个项目的用户数量和 Pearson 相关系数相融合, 在项目属性相似性度量方面将修正的拉普拉斯平滑与 Jaccard 系数相结合, 同时利用用 户评分概率函数对用户已有评分进行有效区分。【结果】实验结果表明, 本文方法相比于原 Slope One 算法, MAE 值下降了 5.4%, 能够获得更好的推荐准确度。【局限】只关注推荐系统中用户对项目产生的评分, 并没有关注用 户对项目给出的评论, 在一定程度上影响了推荐效果。【结论】本文方法更能适应评分数据稀疏性, 有效提高了 推荐系统的推荐质量。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量126下载量90 评论 0

2. chinaXiv:201712.01611 [pdf]

基于多权值的 Slope One 协同过滤算法*

覃幸新; 王荣波; 黄孝喜; 谌志群
分类: 图书馆学、情报学 >> 情报学

【目的】针对 Slope One 算法未考虑项目相似性、项目属性和对目标用户已有评分同等考虑进而导致推荐 准确度降低的问题进行改进。【方法】提出一种基于改进的项目相似性度量、改进的项目属性相似性度量和用户 评分概率函数的多权值的Slope One协同过滤算法, 在项目相似性度量方面将共同评价的两个项目的用户数量和 Pearson 相关系数相融合, 在项目属性相似性度量方面将修正的拉普拉斯平滑与 Jaccard 系数相结合, 同时利用用 户评分概率函数对用户已有评分进行有效区分。【结果】实验结果表明, 本文方法相比于原 Slope One 算法, MAE 值下降了 5.4%, 能够获得更好的推荐准确度。【局限】只关注推荐系统中用户对项目产生的评分, 并没有关注用 户对项目给出的评论, 在一定程度上影响了推荐效果。【结论】本文方法更能适应评分数据稀疏性, 有效提高了 推荐系统的推荐质量。

提交时间: 2017-11-30 来自合作期刊:《数据分析与知识发现》 点击量164下载量119 评论 0

3. chinaXiv:201711.01936 [pdf]

基于改进CFSFDP 算法的文本聚类方法及其应用

詹春霞; 王荣波; 黄孝喜; 谌志群
分类: 图书馆学、情报学 >> 情报学

【目的】针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进。【方法】提出一种基于粒子群算法的CFSFDP 算法, 通过粒子群算法寻找CFSFDP 算法中的最佳局部密度和距离阈值, 得到相对较高的局部密度和距离的聚类中心, 减少离散点对数据中心选取的影响, 并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验。【结果】实验结果表明, 在不同的数据集中, 本文算法相对于基本的CFSFDP 算法在准确率、召回率、F 值上均有明显提高。【局限】文本处理时没有考虑语义关系。【结论】本文方法有很好的聚类效果, 应用在高考咨询库中能够有效地减轻被咨询方的工作量并且帮助快速回答考生的问题。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量1536下载量164 评论 0

4. chinaXiv:201711.01967 [pdf]

基于LDA 模型的移动投诉文本热点话题识别

方小飞; 黄孝喜; 王荣波; 谌志群; 王小华
分类: 图书馆学、情报学 >> 图书馆学

【目的】运用中文信息处理和话题识别与追踪的方法, 从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手, 使用k-means 先对文本聚类。利用LDA 对每个类进行建模, 提取话题, 并从词频、词跨度和词长三方面计算每个话题中词的权值, 把权重最大的词作为该话题的标签, 并计算每个话题的文档分布概率均值。对具有相同标签的话题, 先按照均值最大的原则去掉重复标签话题, 再对所有话题计算文档支持率, 并将文档支持率作为话题的热度, 通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模, 通过对比一般话题和热点话题, 得出热点话题的支持文档率至少是一般话题的3 倍, 支持文档率变化趋势也比一般话题高, 说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA 模型对移动投诉话题检测初探的方法是比较合理和有效的, 对今后此领域的研究具有一定的借鉴意义。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量397下载量193 评论 0

  [1 页/ 4 条记录]