您当前的位置: > 详细浏览

基于权重的 Apriori 算法在文本统计特征 提取方法中的应用*

请选择邀稿期刊:
摘要: 【目的】解决在海量客户评论信息中抽取产品特征时噪声大的问题。【方法】运用 TF-IDF 和方差选择的 统计方法在众多初步提取出来的特征中进行选择, 设置阈值后将各自提取出来的特征取交进行过滤, 得到产品 特征集合, 根据基于矩阵和权重改进的 Apriori 算法产生频繁项集, 设定不同阈值得到最优特征集合, 实现对用 户评论中产品特征的自动提取。【结果】以手机评论文本为例, 从中抽取手机类的产品特征, 根据人工标注的 183 个特征和算法识别出来的特征, 查准率 P 为 72.44%, 查全率 R 为 77.59%, 综合值 F 为 74.93%。【局限】查准率 偏低, 存在人工标注特征错误的情况。【结论】实验结果表明, 在用统计方法和改进后的 Apriori 算法进行特征提 取时可以提高各性能指标。

版本历史

[V1] 2017-12-05 13:51:27 ChinaXiv:201712.01366V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量4884
  •  下载量1015
评论
分享