分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》
摘要: 潜在狄利克雷分布(LDA)是一种流行的三层贝叶斯概率模型,其实现了文本与文本中的单词在主题层次上的聚类。LDA以词袋(Bag of Words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(Expectation Maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行主题建模算法表现的更加优越,同时该模型提高了收敛速度和模型精度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 电信运营商为了发现可能离网的客户,针对不同的场景研究开发了多种离网预测模型。目前的离网预测模型首先选择一种时间粒度抽取特征,之后使用机器学习算法对抽取的数据建模。这类方法只考虑了模型对分类性能的影响,没有充分考虑数据的作用。针对上述问题,提出一种使用多种时间粒度抽取特征的方法,并尝试在模型训练的不同阶段对不同粒度的特征进行融合。实验结果表明,使用多种粒度抽取特征训练出来的模型性能会明显优于使用单一粒度抽取特征的模型。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-24 合作期刊: 《计算机应用研究》
摘要: 随着移动通信技术的发展和移动设备的普及,关于人们日常移动行为的轨迹数据记录愈发的丰富起来。海量的轨迹数据背后隐藏着关于人及人类社会的有价值的知识模式。为了使基于轨迹数据产生的知识模式更精准有效服务用户,能够准确、可靠地恢复缺失电信轨迹显得尤为重要。目前大多数方法主要针对GPS轨迹等连续轨迹进行建模,而缺乏对移动通信场景中产生的电信轨迹恢复的研究。因此,针对电信轨迹缺失恢复问题,将电信轨迹恢复问题转化为矩阵补全问题,提出了一种基于LDA主题模型的恢复算法。实验中,与传统矩阵补全算法进行综合比较,并观察了不同参数对轨迹恢复效果的影响。实验结果表明,与传统矩阵补全算法相比,运用LDA主题模型能够显著提高缺失电信轨迹的恢复精度。