分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分 类效果。【方法】在特征扩展之前, 对 TF-IDF 加以改进, 提出并使用一种新的特征选择方法 CDFmax-IDF 获得候 选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关 系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的 LDA 概率主题模 型 wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和 SVM 三种分类器上实现分 类, 其 marco-F1 和 micro-F1 分别提升 1.6%-2.8%和 1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互 联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结 论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献 的自动分类效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】更好地反映 MOOC 论坛参与者的活跃水平以及论坛主题的质量, 以提高学员的论坛参与度, 发 挥 MOOC 社会效应。【方法】提出超网络下“迭代超中心度”概念和算法, 通过多次迭代, 直至收敛, 将整个网络 的节点考虑在内, 以更全面地反映出不同节点的重要性与影响力。【结果】传统网络指标揭示的信息有限, 点度 小的节点, 其重要性与影响力可能大; 点度相同的节点, 重要性与影响力也会不同。迭代超中心度全面衡量节点 的重要性, 在 MOOC 中更能反映出节点推动知识流动的能力。【局限】数据量比较少, 只对一门课程进行分析, 没有从更多的超网络指标进行分析。【结论】“迭代超中心度”可以揭示出论坛参与者的活跃水平以及论坛主题的 质量, 可以作为一种改进论坛设置的评价指标。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】在“共同拥有而不占有”的共享经济理念下, 探索如何优化供需方的服务。【方法】爬取“小猪短租” 的用户数据, 利用二模网络分析工具Ucinet 探究用户位置演变, 结合一模网络中用户复杂关系, 构建固定效应模 型分析个体中心度对相连用户交易行为的影响程度。【结果】度数中心度会正相关显著影响相连用户行为, 而房 东中介中心度显著影响房客消费行为, 核心房客中介中心度显著影响房东订单供应行为。【局限】主要针对互动 性强的用户采取滚雪球抽样, 无法完全体现整个关系网络的特点。【结论】为了促进小猪短租因交易行为构建的 社会网络活跃, 应鼓励用户充当消费者, 并主动参与其中作为服务提供商。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】充分利用多源网络评估数据和 URL 异常特征数据, 研究提高钓鱼网站识别准确性的可行性方案。 【方法】采用 8 种机器学习技术, 对比研究网络评估数据与传统的 URL 异常特征数据在钓鱼网站识别中的性能, 并融合两类数据研究进一步提高钓鱼网站识别准确性的可行性方案。【结果】在钓鱼网站识别中, 相比于传统的 URL 异常特征, 利用网络评估数据可以取得更好的识别效果。融合两类数据对于提高识别准确性有一定帮助。 【局限】未考虑钓鱼网站与正常网站的数量存在严重的不均衡问题。【结论】充分利用多源网络评估数据和 URL 异常特征数据识别钓鱼网站的方法是比较合理和有效的, 对后续相关研究具有一定的借鉴意义。