您当前的位置:首页 > 论文浏览

1. chinaXiv:201712.01381 [pdf]

基于网络用户评论的评分预测模型研究*

张红丽; 刘济郢; 杨斯楠; 徐 健
分类: 图书馆学、情报学 >> 情报学

【目的】通过网络用户评论, 为评论网站构建有效的评分预测机制。【方法】提出基于网络用户评论的评 分预测模型, 该模型包括 4 个模块: 网络用户评论获取模块、预测变量获取模块、预测分析模块以及预测结果评 价模块。抓取 30 部不同类型的电影评论数据, 27 部用于构建模型, 3 部用于检验模型。【结果】使用逐步回归方 法筛选出变量: 参与评分人数、参与评论人数、想要观看人数和电影正向评论情感均值, 构建评分预测模型。使 用 3 部电影验证, 预测评分与 IMDb 评分相差最大值为 0.0644, 最小值为 0.0227。【局限】在数据样本量、情感 特征提取精度、模型普适性验证等方面有待进一步提升。【结论】该模型能够依据用户评论对评分进行有效预测, 在网络水军探测方面也能发挥一定的作用。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量180下载量119 评论 0

2. chinaXiv:201712.01388 [pdf]

基于情感分析的网络谣言识别方法

首欢容; 邓淑卿; 徐 健
分类: 图书馆学、情报学 >> 情报学

【目的】提出一种基于情感分析技术自动识别特定领域谣言的方法。【方法】界定高、低质量信息源, 在 假设高质量信息源信息更可靠的情况下, 通过基于情感词典的情感分析方法, 量化高质量信息源与低质量信息 源对特定对象的情感差异, 判定低质量信息源提供的信息是否属于谣言。【结果】将该方法应用于“食品养生”、 “医学健康”两个领域进行谣言识别。在 30 个疑似谣言案例中准确识别出 23 个谣言案例, 准确率为 76.67%。 本文提出的谣言识别方法在谣言预测方面的 F 值为 83.34%, 查全率为 71.42%, 查准率为 100%; 在非谣言文本预测 上的 F 值为 72.73%, 查全率为 100%, 查准率为 57.14%。【局限】未实现不同信息源数据自动抽取, 每个谣言案例 下的人工收集的谣言数量有限。【结论】本文基于情感分析的谣言识别方法对特定类型的谣言是有效的。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量94下载量69 评论 0

3. chinaXiv:201712.01599 [pdf]

基于网络用户评论的评分预测模型研究*

张红丽; 刘济郢; 杨斯楠; 徐 健
分类: 图书馆学、情报学 >> 情报学

【目的】通过网络用户评论, 为评论网站构建有效的评分预测机制。【方法】提出基于网络用户评论的评 分预测模型, 该模型包括 4 个模块: 网络用户评论获取模块、预测变量获取模块、预测分析模块以及预测结果评 价模块。抓取 30 部不同类型的电影评论数据, 27 部用于构建模型, 3 部用于检验模型。【结果】使用逐步回归方 法筛选出变量: 参与评分人数、参与评论人数、想要观看人数和电影正向评论情感均值, 构建评分预测模型。使 用 3 部电影验证, 预测评分与 IMDb 评分相差最大值为 0.0644, 最小值为 0.0227。【局限】在数据样本量、情感 特征提取精度、模型普适性验证等方面有待进一步提升。【结论】该模型能够依据用户评论对评分进行有效预测, 在网络水军探测方面也能发挥一定的作用。

提交时间: 2017-11-30 来自合作期刊:《数据分析与知识发现》 点击量210下载量166 评论 0

4. chinaXiv:201712.01604 [pdf]

基于情感分析的网络谣言识别方法

首欢容; 邓淑卿; 徐 健
分类: 图书馆学、情报学 >> 情报学

【目的】提出一种基于情感分析技术自动识别特定领域谣言的方法。【方法】界定高、低质量信息源, 在 假设高质量信息源信息更可靠的情况下, 通过基于情感词典的情感分析方法, 量化高质量信息源与低质量信息 源对特定对象的情感差异, 判定低质量信息源提供的信息是否属于谣言。【结果】将该方法应用于“食品养生”、 “医学健康”两个领域进行谣言识别。在 30 个疑似谣言案例中准确识别出 23 个谣言案例, 准确率为 76.67%。 本文提出的谣言识别方法在谣言预测方面的 F 值为 83.34%, 查全率为 71.42%, 查准率为 100%; 在非谣言文本预测 上的 F 值为 72.73%, 查全率为 100%, 查准率为 57.14%。【局限】未实现不同信息源数据自动抽取, 每个谣言案例 下的人工收集的谣言数量有限。【结论】本文基于情感分析的谣言识别方法对特定类型的谣言是有效的。

提交时间: 2017-11-30 来自合作期刊:《数据分析与知识发现》 点击量190下载量164 评论 0

5. chinaXiv:201711.01958 [pdf]

面向网络游记时间特征的情感分析模型

程翠琼; 徐健
分类: 图书馆学、情报学 >> 情报学

【目的】通过对网络游记进行情感分析, 发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息, 制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容, 也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型, 分析游客情感的时间变化规律。该模型包括5 个模块: 网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征分析。并从网络抓取4 种类型旅游地游记对模型进行实验。【结果】在7类情感中, [好]的情感均值在各旅游地的各月份中总是远高于其他情感, 较为稳定; [好]、[乐]和[恶]在不同月份的波动程度较大; 情感随时间的波动与相应游记数量并不相关, 即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。【结论】该模型能够有效地反映旅游地的游客情感随时间变化的波动, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量91下载量70 评论 0

6. chinaXiv:201711.01970 [pdf]

混合蛙跳算法在文本分类特征选择优化中的应用

路永和; 陈景煌
分类: 图书馆学、情报学 >> 情报学

【目的】由于文本数据存在许多与分类不相关的冗余词项, 引入混合蛙跳算法进行特征选择优化, 提高分类准确率。【方法】分别使用CHI 和IG 预选出不同维度的特征集合, 再引入改进后的混合蛙跳算法对预选特征集合进行二次优选, 每只青蛙的位置代表一种特征选择规则, 将分类准确率作为算法的适应度函数。SVM和KNN 分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰, 从而提高文本分类准确率。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量88下载量64 评论 0

7. chinaXiv:201711.02136 [pdf]

面向网络游记时间特征的情感分析模型

程翠琼; 徐健
分类: 图书馆学、情报学 >> 情报学

【目的】通过对网络游记进行情感分析, 发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息, 制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容, 也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型, 分析游客情感的时间变化规律。该模型包括5 个模块: 网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征分析。并从网络抓取4 种类型旅游地游记对模型进行实验。【结果】在7类情感中, [好]的情感均值在各旅游地的各月份中总是远高于其他情感, 较为稳定; [好]、[乐]和[恶]在不同月份的波动程度较大; 情感随时间的波动与相应游记数量并不相关, 即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。【结论】该模型能够有效地反映旅游地的游客情感随时间变化的波动, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量124下载量105 评论 0

8. chinaXiv:201711.02112 [pdf]

混合蛙跳算法在文本分类特征选择优化中的应用

路永和; 陈景煌
分类: 图书馆学、情报学 >> 情报学

【目的】由于文本数据存在许多与分类不相关的冗余词项, 引入混合蛙跳算法进行特征选择优化, 提高分类准确率。【方法】分别使用CHI 和IG 预选出不同维度的特征集合, 再引入改进后的混合蛙跳算法对预选特征集合进行二次优选, 每只青蛙的位置代表一种特征选择规则, 将分类准确率作为算法的适应度函数。SVM和KNN 分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰, 从而提高文本分类准确率。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量93下载量78 评论 0

  [1 页/ 8 条记录]