分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】解决在海量客户评论信息中抽取产品特征时噪声大的问题。【方法】运用 TF-IDF 和方差选择的 统计方法在众多初步提取出来的特征中进行选择, 设置阈值后将各自提取出来的特征取交进行过滤, 得到产品 特征集合, 根据基于矩阵和权重改进的 Apriori 算法产生频繁项集, 设定不同阈值得到最优特征集合, 实现对用 户评论中产品特征的自动提取。【结果】以手机评论文本为例, 从中抽取手机类的产品特征, 根据人工标注的 183 个特征和算法识别出来的特征, 查准率 P 为 72.44%, 查全率 R 为 77.59%, 综合值 F 为 74.93%。【局限】查准率 偏低, 存在人工标注特征错误的情况。【结论】实验结果表明, 在用统计方法和改进后的 Apriori 算法进行特征提 取时可以提高各性能指标。