您选择的条件: 居亚亚
  • 基于语义分布相似度的主题模型

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》

    摘要: 潜在狄利克雷分布(LDA)是一种流行的三层贝叶斯概率模型,其实现了文本与文本中的单词在主题层次上的聚类。LDA以词袋(Bag of Words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(Expectation Maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行主题建模算法表现的更加优越,同时该模型提高了收敛速度和模型精度。