您当前的位置:首页 > 论文浏览

1. chinaXiv:201712.01359 [pdf]

基于无标度网络模型和传染病模型的舆论 演化仿真研究*

韩 普; 王 鹏
分类: 图书馆学、情报学 >> 情报学

【目的】精确地呈现网络社交中信息传播状态和传播过程, 从而更深入理解网络信息的传播机制。【方法】 在无标度网络模型和传染病模型基础上, 加入可调整参数, 构建改进的网络信息传播模型, 并在 NetLogo 平台上 进行舆情传播演化仿真。【结果】仿真实验结果表明: 在信息传播过程中, 不断变化的传播速率能够更好地描述 网络信息传播; 在集群度大的网络中对信息传播进行引导和控制的最佳时机是在传播速率增大阶段。【局限】模 型对人群分类仍然不够精细。【结论】模型不仅能够在设定条件下模拟不同类型信息的传播过程, 还可以为网络 舆情监测、引导和控制提供支持。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量630下载量293 评论 0

2. chinaXiv:201712.01389 [pdf]

基于 LSTM 模型的中文图书多标签分类 研究*

邓三鸿; 傅余洋子; 王 昊
分类: 图书馆学、情报学 >> 情报学

【目的】利用 LSTM 模型和字嵌入的方法构建分类系统, 提出一种中文图书分类中多标签分类的解决方 案。【方法】引入深度学习算法, 利用字嵌入方法和 LSTM 模型构建分类系统, 对题名、主题词等字段组成的字 符串进行学习以训练模型, 并采用构建多个二元分类器的方法解决多标签分类问题, 选择 3 所高校 5 个类别的书 目数据进行实验。【结果】从整体准确率、各类别精度、召回率、F1 值多个指标进行分析, 本文提出的模型均有 良好表现, 有较强的实际应用价值。【局限】数据仅涉及中图分类法 5 个类别, 考虑的分类粒度较粗等。【结论】 基于 LSTM 模型的中文图书分类系统具有预处理简单、增量学习、可迁移性高等优点, 具备可行性和实用性。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量401下载量303 评论 0

3. chinaXiv:201712.01394 [pdf]

中国农产品品牌评价研究的内容解析*

王雪颖; 张紫玄; 王 昊; 邓三鸿
分类: 图书馆学、情报学 >> 情报学

【目的】通过分析中国农产品品牌评价领域的文献题名总结该领域的研究现状。【方法】对该领域的文献 题名进行 K-means 聚类, 分析每簇研究的重点内容, 分别使用因子分析、多维尺度分析和层次聚类分析进一步解 析聚类得到的每簇文献的特点。【结果】文献数量总体呈现“M”型趋势, 文献多采用模糊综合法, 从多个评价角 度集中探讨评价指标体系、评价模型、影响因素等方面。【局限】仅针对题名进行分析, 未涉及关键词与摘要文 本。【结论】聚类结果较好地揭示了中国该领域的研究现状, 但没有反映出种类农产品、Interband 品牌评估法相 关内容。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量263下载量165 评论 0

4. chinaXiv:201711.01949 [pdf]

中文文本聚类常用停用词表对比研究

官琴; 邓三鸿; 王昊
分类: 图书馆学、情报学 >> 情报学

【目的】通过实验对比分析, 比较不同停用词表对于不同类型的文本数据的作用效果, 对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表, 基于三个不同语料库运用汉语分词技术、TF-IDF 特征评估函数以及VSM 模型进行文本处理, 并且采用Java 编写的K-means 算法进行聚类实验, 通过准确率P、召回率R 和F1 三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显, 词表的长度、内容结构是影响作用效果的直接因素, 其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限, 同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较, 未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响, 构建或选取适宜的中文停用词表极为重要。同时, 过度增加停用词的数量并不会一直改善聚类结果。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量544下载量403 评论 0

5. chinaXiv:201711.01257 [pdf]

中文领域专业术语层次关系构建研究

朱惠; 杨建林; 王昊
分类: 图书馆学、情报学 >> 情报学

【目的】对如何从中文非结构化文本获取术语的层次关系进行探讨。【方法】从CNKI 获取数字图书馆学科领域文献, 通过术语抽取、术语向量空间模型构建、BIRCH 算法聚类和聚类标签确定构建术语的语义层次结构。【结果】构建数字图书馆领域术语的层次结构, 并对构建结果进行验证, 聚类正确率达到80.88%, 类标签抽取正确率达到89.71%。【局限】对构建效果的验证是通过随机抽样进行的, 且仅与一种其他构建方法进行实证比较。【结论】应用BIRCH 算法聚类构建术语层次结构, 该方法与K-means 聚类方法相比具有明显优势, 具备较高的执行效率和聚类有效性。

提交时间: 2017-10-11 来自合作期刊:《数据分析与知识发现》 点击量237下载量169 评论 0

6. chinaXiv:201711.01199 [pdf]

基于CRFs 的冶金领域中文专利术语抽取研究

王密平; 王昊; 邓三鸿; 吴志祥
分类: 图书馆学、情报学 >> 情报学

【目的】探讨冶金领域中文专利术语抽取模型的最优条件, 用于有效地抽取冶金领域专利术语。【方法】使用尚不完善的核心语料库, 在无需人工标引的情况下, 采用条件随机场(CRFs)构建字角色标注的冶金领域中文专利术语识别模型。详细说明模型的构建过程, 同时重点对比CFRs 的各个因素(特征组合、字长窗口等)对识别效果的影响。【结果】实验结果表明字序列、级别特征、领域特征、温度特征的组合在字长窗口为3, c 等于1,f 等于1 时, 准确率达到94.26%, 召回率达到94.37%, F1 值达到94.5%。【局限】核心词典欠完善, 使得部分词语标注不够准确; 未与其他方法作详细比较, 未详细说明CRFs 的可靠性。【结论】CRFs 在适当的角色和特征以及特征模板的组合下能较好地识别出冶金领域的中文专利术语。

提交时间: 2017-10-11 来自合作期刊:《数据分析与知识发现》 点击量234下载量180 评论 0

  [1 页/ 6 条记录]