您当前的位置:首页 > 论文浏览

1. chinaXiv:201712.01390 [pdf]

基于微博的细粒度情感分析

敦欣卉; 张云秋; 杨铠西
分类: 图书馆学、情报学 >> 情报学

【目的】对微博进行细粒度情感分析, 将情感分为 8 类, 并计算其情感强度值, 从而尽可能还原微博用户 情感。【方法】通过微博语料分析构建疑问词词表, 在大连理工大学情感词汇本体 DUTIR 的 7 类情感基础上, 丰 富一类情感“疑”, 并利用点互信息法构建表情符号词典, 还综合考虑否定词和程度副词对情感表达的影响, 利用 Python 从新浪微博上获取数据, 并用 R 语言的 jiebaR 包进行分词, 对情感进行分类并计算其强度。【结果】得到 微博用户对于糖尿病 7 类常用药物的 8 类情感占比及情感强度, 并通过正确率、召回率、F 值对结果进行验证, 其 中“怒”和“哀”的正确率最高, 分别为 85.73%和 83.05%, 而“乐”和“好”的召回率与 F 值均最高, 为 81%以上。本文 新增情感“疑”的正确率、召回率、F 值分别为 77.33%、78.58%、77.95%, 均值在 8 类情感中排名前列, 说明其情 感识别较好。【局限】由于本文依赖于情感词典进行情感分析, 因此为了更好的分析结果, 情感词典仍需进一步 完善。【结论】本方法具有较高的识别率和可靠性, 能够更好地对微博上的情感分类进行细粒度分析。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量219下载量158 评论 0

2. chinaXiv:201712.01605 [pdf]

基于微博的细粒度情感分析

敦欣卉; 张云秋; 杨铠西
分类: 图书馆学、情报学 >> 情报学

【目的】对微博进行细粒度情感分析, 将情感分为 8 类, 并计算其情感强度值, 从而尽可能还原微博用户 情感。【方法】通过微博语料分析构建疑问词词表, 在大连理工大学情感词汇本体 DUTIR 的 7 类情感基础上, 丰 富一类情感“疑”, 并利用点互信息法构建表情符号词典, 还综合考虑否定词和程度副词对情感表达的影响, 利用 Python 从新浪微博上获取数据, 并用 R 语言的 jiebaR 包进行分词, 对情感进行分类并计算其强度。【结果】得到 微博用户对于糖尿病 7 类常用药物的 8 类情感占比及情感强度, 并通过正确率、召回率、F 值对结果进行验证, 其 中“怒”和“哀”的正确率最高, 分别为 85.73%和 83.05%, 而“乐”和“好”的召回率与 F 值均最高, 为 81%以上。本文 新增情感“疑”的正确率、召回率、F 值分别为 77.33%、78.58%、77.95%, 均值在 8 类情感中排名前列, 说明其情 感识别较好。【局限】由于本文依赖于情感词典进行情感分析, 因此为了更好的分析结果, 情感词典仍需进一步 完善。【结论】本方法具有较高的识别率和可靠性, 能够更好地对微博上的情感分类进行细粒度分析。

提交时间: 2017-11-30 来自合作期刊:《数据分析与知识发现》 点击量1254下载量1192 评论 0

3. chinaXiv:201711.01190 [pdf]

三种数据挖掘算法在电子病历知识发现中的比较

牟冬梅; 任珂
分类: 图书馆学、情报学 >> 情报学

【目的】从异构的电子病历数据中发现疾病危险因素, 为数据挖掘与知识发现提供借鉴。【方法】选取集各种结构为一身的临床电子病历数据, 利用决策树、逻辑回归和神经网络三种数据挖掘算法分别建立疾病危险因素预测模型, 对三种预测模型进行比较分析和统计学评价。【结果】决策树预测模型在查准率、召回率上高于逻辑回归和神经网络, 在总体性能上决策树最优, 但三者差别不大。【局限】未对电子病历属性进行优化选择。【结论】决策树在危险因素的发现与疾病的预测方面优于逻辑回归和神经网络。研究中建立基于数据挖掘算法的异构数据源知识发现框架, 为今后领域知识发现和知识库构建以及数据挖掘算法的选择提供一定借鉴和参考。

提交时间: 2017-10-11 来自合作期刊:《数据分析与知识发现》 点击量278下载量179 评论 1

  [1 页/ 3 条记录]