按提交时间
按主题分类
按作者
按机构
您选择的条件: 2017-11-30
  • 基于 CSpace 的科技信息可配置化自动监测 功能设计与实现*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】实现对多源异构科技信息的长期监测、自动采集发布与存储管理, 以满足专题领域科技研究的需 求。【方法】结合 CSpace 的应用扩展需求, 设计开发了基于 CSpace 的可配置化的科技信息自动监测功能, 着重 研究和解决了多源异构科技信息采集内容规则的可配置化实现、与 CSpace 交互的自动采集发布接口的可配置化 实现等关键技术问题, 并以海洋科技信息的自动监测采集为例进行应用研究。【结果】能够实现对多源异构科技 信息的自动监测采集, 为科技平台建设提供良好支持。【局限】采集内容规则配置过程比较复杂; 不支持对一些 需要登录的复杂站点的自动监测。【结论】该功能方法较大程度上扩展了 CSpace 的数据采集集成功能, 且具有 一定的通用性、可配置性与松耦合性, 可应用于多个科技信息监测领域。

  • 关联数据中 owl:sameAs 网络分析*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】调研 owl:sameAs 连接在真实数据网络中的配置和应用情况。【方法】从 BTC 2014 数据集中抽取 部分数据, 应用统计学方法对样本数据构成的 sameAs 网络进行结构分析、域名分析和实例类型分析。【结果】 数据分析结果表明, 真实数据网络中 sameAs 连接较稀疏, 等同实体网络中大多数实体只建立了单个连接。【局限】 样本数据数量有限, 未能更全面地深入分析。【结论】该研究分析可以为关联数据中基于实例水平的数据集成、 本体对齐、知识发现以及跨数据集查询等提供参考。

  • CSpace 机构知识库影音资源支持能力扩展 研究与实践*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】提出机构知识库影音支持能力扩展方向, 实现 CSpace 机构知识库影音支持能力扩展。【应用背景】 影音知识资源在机构产出中所占比例不断增长, 扩展机构知识库影音支持能力可更好地揭示、发现影音知识资 源, 挖掘和利用其学术研究价值和潜力。【方法】分析用户的应用需求和国内外机构知识库影音支持服务的发展 趋势, 构建机构知识库影音资源支持功能扩展框架, 选择其中的关键技术和方法搭建实验平台, 探索将其应用 于 CSpace 系统的可行性。【结果】实现了影音格式转换、视频场景分析和具有场景导航功能的播放器。【结论】 影音转码稳定性和效率较高, 其他影音支持功能离实用还存在一定距离, 将影音格式转换技术应用于 CSpace 机 构知识库系统中, 能够扩展机构知识库的影音支持服务。

  • 基于标签的商品推荐模型研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】构建社会化电子商务环境下基于标签的个性化商品推荐模型。【方法】综合考虑用户使用标签的 频率和时间因素计算用户的兴趣偏好; 基于标签层次特征和电子商务网站中关于商品特征的检索条件, 构建某 一主题商务社区中商品本体; 利用本体规范化用户标签语义, 并对商品进行分类; 寻找含有用户偏好的类簇, 计 算该类簇中商品与用户偏好商品的相似度, 将用户未标注过的商品与用户偏好相似度高的商品推荐给用户。 【结果】从翻东西网站上随机选取 200 个活跃用户关于热门商品的标注信息进行分析, 验证该模型的有效性。【局 限】在计算用户兴趣偏好时, 只考虑用户使用标签的频率和时间因素, 未考虑其他因素。【结论】该模型相对于 利用标签进行协同过滤推荐方法具有较优的效果, 计算时间和空间复杂度更小。

  • 开放数据平台的接口服务研究及应用探讨*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】分析我国地方政府各开放数据平台接口服务同国际发展趋势的差距, 探讨提升互操作性的途径。 【应用背景】“十三五”期间, 我国将建设国家政府数据统一开放平台, 推动各级政府数据的开放共享与深度利用, 对开放数据接口服务有着广泛的需求。【方法】在介绍国际上主要的开放数据平台和 W3C API 最佳实践基础上, 分析我国开放数据平台接口服务的主要不足。引进开放数据协议 OData, 给出开放标准化 API 服务的关键步骤。 【结果】通过搭建 OData 服务、发布说明文档和附加机器可读的元数据, 为遵循国际通用的最佳实践打下基础。 【结论】我国在提供接口服务时, 需要借鉴先进经验, 采纳国际标准是提升互操作水平的关键。

  • 基于多特征多分类器集成的专利自动分类 研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】为了准确地给专利申请书分配 IPC 分类号, 本文提出一种基于多特征多分类器集成的专利自动分 类方法。【方法】使用从专利申请书中提取的全词典 TFIDF 特征、信息增益词典 TFIDF 特征、段落向量特征、 主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost 分类器, 以此构建特征–类别矩阵, 并结合 F1 权重矩阵集成, 获得最终 IPC 预测分类号。【结果】对 2014 年–2016 年“发动机或泵”领域的 10 个小类进行分 类, 使用 Top Prediction、All Categories 和 Two Guesses 三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。 【局限】训练仅仅使用了 2014 年–2016 年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文 方法能够有效地提高专利文本分类的准确率。

  • 社会网络中关键节点的识别 ——基于符号网络的 PageRank 算法改进

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】针对 PageRank 算法在符号网络中的局限性, 提出其改进算法, 以识别社会网络中的关键节点。 【方法】基于符号网络的相关理论, 将 PageRank 算法与点度中心性相结合, 提出 KeyRank 算法, 并对 Slashdot 网站的用户数据进行分析, 以获取用户的 KeyRank 算法排名。【结果】PageRank 算法排名、入度排名、M-PR 算 法排名与 KeyRank 算法排名在统计学意义上呈中度正相关。【局限】KeyRank 算法忽略了每次迭代时正、负链 接的相互作用。【结论】传统算法与 KeyRank 算法在节点排序上存在差异, 说明链接的符号属性对排序结果产生 了重要影响, 改进算法具有一定的理论和实践意义。

  • 基于网络用户评论的评分预测模型研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过网络用户评论, 为评论网站构建有效的评分预测机制。【方法】提出基于网络用户评论的评 分预测模型, 该模型包括 4 个模块: 网络用户评论获取模块、预测变量获取模块、预测分析模块以及预测结果评 价模块。抓取 30 部不同类型的电影评论数据, 27 部用于构建模型, 3 部用于检验模型。【结果】使用逐步回归方 法筛选出变量: 参与评分人数、参与评论人数、想要观看人数和电影正向评论情感均值, 构建评分预测模型。使 用 3 部电影验证, 预测评分与 IMDb 评分相差最大值为 0.0644, 最小值为 0.0227。【局限】在数据样本量、情感 特征提取精度、模型普适性验证等方面有待进一步提升。【结论】该模型能够依据用户评论对评分进行有效预测, 在网络水军探测方面也能发挥一定的作用。

  • 基于多特征融合的金融领域科研合作推荐 研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】科研合作关系是一种重要的社会网络。为了促进科研合作, 提高科研生产率, 对金融领域的科研 合作推荐模型进行研究。【方法】建立金融领域个人、机构和区域三个层面的科研合作网络, 提出一种新的融合 基于邻居节点和基于路径的网络特征的科研合作推荐模型, 并从个人、机构和区域三个层面进行实证检验。【结 果】通过对 2000 年到 2014 年刊载的 68 905 篇金融领域的文章进行分析并构建科研合作网络, 在个人、机构和 区域三个层面上, 基于特征融合的链接预测方法的 AUC 值分别为 84.25%、87.34%和 91.84%, 均高于基于邻居 节点的算法和基于路径的算法的 AUC 值。【局限】在进行训练集和测试集选取的时候只按时间进行切分, 有待 使用更多的切分方式对实验结果进行优化。【结论】本文有助于金融科研领域的个人、机构和区域寻求合作对象, 为进行科研网络的研究以及科研合作推荐的学者提供新的研究方法和思路。

  • 基于日志分析的民办高校大学生网络生活 类型研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】研究基于民办高校大学生的导航页面使用情况, 揭示民办高校大学生典型的网络生活类型及特点。 【方法】通过对导航页面设置数据采集点, 获得民办高校大学生的点击行为和搜索行为数据, 进行统一建模和特 征提取后, 利用聚类算法将其细分为几个有代表性的群体。【结果】将民办高校大学生划分为 6 个典型群体, 分 别为重度视频型、昼学夜玩型、搜索追剧型、沉迷直播型、劳逸结合型、勤奋学习型; 民办高校大学生主要用 网络看视频与直播, 仅有小部分学生利用互联网进行学习。【局限】PC 端导航页面行为仅能反映大学生网络生 活的一部分, 且数据的时间跨度为两个月, 不能反映学生在期初和期末的行为差异。【结论】本研究实现了民办 高校大学生群体中典型网络生活类型的识别, 这将有助于民办高校大学生特点和行为规律的发现和总结, 为提 升高校服务管理水平提供参考建议。

  • 基于用户偏好与商品属性情感匹配的图书 个性化推荐研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】识别并获取细粒度的用户偏好信息, 优化图书个性化推荐的效果。【方法】使用情感分析方法对 用户图书评论进行属性层文本挖掘, 通过用户本身的图书评论获取用户对图书属性的偏好; 基于每本图书的所 有评论的情感计算获得其属性评分; 将用户偏好矩阵、图书属性得分矩阵进行匹配, 从而实现用户对图书属性情 感偏好的个性化推荐。【结果】利用亚马逊图书评论数据作为数据来源分别对传统的协同过滤方法与本文提出的 推荐方法进行实验对比。结果表明, 本文提出的方法在准确性、召回率、覆盖率上分别提高了 0.030、0.097、0.2812。 【局限】未考虑时间因素对用户偏好的影响, 并且属性类型的全面程度受亚马逊图书评论数量和质量的限制。 【结论】本文计算用户对图书属性的情感得分, 得到细粒度的用户偏好信息, 并通过与图书属性的得分进行匹配, 提升了图书个性化推荐的效果。

  • 近 5 年信息检索的研究热点与发展趋势 综述* ——基于相关会议论文的分析

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】统计近 5 年相关会议集收录的论文, 分析信息检索的研究热点与发展趋势。【文献范围】检索 2012 年–2016 年 ACL、ACMMM、ICML、KDD、SIGIR 等 5 个信息检索领域的相关会议集收录的论文。【方法】使 用爬虫软件获取 5 个相关会议收录的论文的摘要和关键词, 并利用分词工具对其处理, 进行统计分析和文献研 究。【结果】发现目前信息检索中移动搜索是主流; 检索模型不断优化; 注重过滤和推荐; 与人工智能关系密切, 用户隐私以及医疗健康也是信息检索重点关注的内容。【局限】仅采集论文的摘要和关键词数据, 未进行全文内 容以及引文的分析。【结论】反映目前信息检索的大致发展状况, 为其他学者开展新的研究提供借鉴和参考。

  • 基于情感分析的网络谣言识别方法

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】提出一种基于情感分析技术自动识别特定领域谣言的方法。【方法】界定高、低质量信息源, 在 假设高质量信息源信息更可靠的情况下, 通过基于情感词典的情感分析方法, 量化高质量信息源与低质量信息 源对特定对象的情感差异, 判定低质量信息源提供的信息是否属于谣言。【结果】将该方法应用于“食品养生”、 “医学健康”两个领域进行谣言识别。在 30 个疑似谣言案例中准确识别出 23 个谣言案例, 准确率为 76.67%。 本文提出的谣言识别方法在谣言预测方面的 F 值为 83.34%, 查全率为 71.42%, 查准率为 100%; 在非谣言文本预测 上的 F 值为 72.73%, 查全率为 100%, 查准率为 57.14%。【局限】未实现不同信息源数据自动抽取, 每个谣言案例 下的人工收集的谣言数量有限。【结论】本文基于情感分析的谣言识别方法对特定类型的谣言是有效的。

  • 基于微博的细粒度情感分析

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】对微博进行细粒度情感分析, 将情感分为 8 类, 并计算其情感强度值, 从而尽可能还原微博用户 情感。【方法】通过微博语料分析构建疑问词词表, 在大连理工大学情感词汇本体 DUTIR 的 7 类情感基础上, 丰 富一类情感“疑”, 并利用点互信息法构建表情符号词典, 还综合考虑否定词和程度副词对情感表达的影响, 利用 Python 从新浪微博上获取数据, 并用 R 语言的 jiebaR 包进行分词, 对情感进行分类并计算其强度。【结果】得到 微博用户对于糖尿病 7 类常用药物的 8 类情感占比及情感强度, 并通过正确率、召回率、F 值对结果进行验证, 其 中“怒”和“哀”的正确率最高, 分别为 85.73%和 83.05%, 而“乐”和“好”的召回率与 F 值均最高, 为 81%以上。本文 新增情感“疑”的正确率、召回率、F 值分别为 77.33%、78.58%、77.95%, 均值在 8 类情感中排名前列, 说明其情 感识别较好。【局限】由于本文依赖于情感词典进行情感分析, 因此为了更好的分析结果, 情感词典仍需进一步 完善。【结论】本方法具有较高的识别率和可靠性, 能够更好地对微博上的情感分类进行细粒度分析。

  • 基于深度表示学习的跨领域情感分析

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过在标注资源丰富的源领域中学习, 并将目标领域的文档投影到与源领域相同的特征空间中去, 从而解决目标领域因数据量较小难以获得好的分类模型的问题。【方法】选择亚马逊在线购物网站在书籍、DVD 和音乐类目下的中文、英文和日文评论作为实验数据, 在卷积神经网络和结构对应学习的基础上提出跨领域深 度表示模型(CDDRM), 以实现不同领域环境下的知识迁移, 并将其应用到跨领域情感分析任务之中。【结果】实 验结果表明, CDDRM 在跨领域环境下最优的 F 值达到 0.7368, 证明了该模型的有效性。【局限】CDDRM 针对长 文本的跨领域情感分类 F 值仍然有待提升。【结论】知识迁移能够解决监督学习在小数据集上难以获得好的分类 效果的问题, 与传统监督学习的基本假设相比, 它并不要求训练集和测试集服从相同或相似的数据分布。

  • 国际公众科学领域演化路径与研究热点 分析*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过厘清国际公众科学领域的源流与研究现状, 为今后该领域的探索提供参考与借鉴。【文献范 围】选取 Web of Science (WOS)核心数据集作为文献数据来源, 以公众科学(Citizen Science)、群智科学(Crowd Science)等关键词以及项目名称进行主题检索, 共得到相关文献 1 796 篇。【方法】借助文献计量、社会网络、内 容分析等方法, 结合可视化工具, 对公众科学研究的演化路径、研究热点及国际图书情报学科中公众科学主题的 研究现状进行深入分析。【结果】结果表明, 随着互联网的发展和各类智能移动终端的普及, 群体智慧和开放科 学范式受到高度关注, 基于群体参与及协作的公众科学研究正处于快速发展阶段。目前的研究热点可以归纳为 三个层面, 即项目视角、理论方法视角以及参与者视角。此外, 尽管以往公众科学的研究主力集中在自然科学领 域, 但在国际上图书情报学科对于公众科学方向的探索具有起点高、发力强等特点, 蕴含很大的发展潜力。【局 限】仅使用 WOS 核心数据集作为数据来源, 没有包含领域会议论文, 故而数据存在偏差; 仅根据关键词进行主 题演化分析, 没有以全文数据为分析样本。【结论】图书情报领域作为兼具资源管理优势与数据管理优势的传统 学科, 势必将对公众科学的研究发挥重要作用。

  • 测度技术融合与趋势的数据分析方法研究 进展*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】对技术会聚/融合相关研究进行较系统的梳理, 期望能够展示该领域的研究进展, 为后续研究提 供参考。【文献范围】从 Web of Science(WOS)、CNKI 等数据库中分别以“技术会聚(Technology Convergence)”、 “技术融合(Technology Fusion)”等检索词搜集获得中英文相关文献 73 篇。【方法】针对技术融合相关概念及内 涵、测度技术融合程度与趋势的数据分析方法进行较系统的文献提炼与评析。【结果】近年来有关技术融 合的研究越来越丰富; 基于专利数据的技术融合分析方法主要包括评估技术融合度的指标、专利引文网络 分析方法探索技术融合演化路径、专利共类识别技术融合轨道等。【局限】混合方法的横向对比研究较少。 【结论】已有分析方法尚不完善, 测度技术融合的数据分析方法优化拓展的潜力巨大, 未来具有较大的研究发 展空间。

  • 基于用户间信任关系改进的协同过滤推荐 方法*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】利用用户间信任关系改进协同过滤推荐中用户相似性计算精度, 即在目标用户没有相似用户的前 提下, 从其信任用户中选择信任值高的作为相似用户, 进而提高相似用户聚类效果, 提高推荐质量, 并有效缓解 协同过滤推荐稀疏性和冷启动问题。【方法】筛选信任用户作为相似用户; 根据选择的信任用户和目标用户形成 一个项目的评分集, 并对目标用户未评价过的项目进行评分估算(根据信任用户评分进行简单的评分计算); 将用 户间的信任关系依据方差大小进行量化, 形成一个调节因子。本文的创新点就在于调节因子的计算, 并将调节因 子纳入用户相似性计算, 形成相似性用户聚类簇, 在此基础上在相似用户之间进行交叉推荐。【结果】通过平均 绝对误差指标进行实验评价, 结果表明基于信任关系的协同过滤推荐方法相比传统协同过滤, 在推荐精度上更 加准确, 并同时有效缓解了冷启动和稀疏性问题。【局限】本文提出的方法仅在具有信任关系的一个算例上进行 实验测试, 需在其他数据集和真实应用场景下进一步检验。【结论】用户间信任关系蕴涵非常有价值的信息, 对 用户信任关系进行量化, 并纳入用户相似性计算, 在此基础上实施协同过滤推荐, 对缓解冷启动与稀疏性问题 具有较好的理论和实践意义。

  • 新媒体环境下社会公益网络舆情传播研究 ——以新浪微博“画出生命线”话题为例

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】对新媒体环境下社会公益舆情网络结构特征和信息传播展开研究, 对相关部门加强社会公益网络 舆情监管, 为充分利用新媒体平台开展社会公益服务提供帮助。【方法】基于社会网络分析法, 以新浪微博“画出 生命线”话题数据为样本, 从中心性、聚类和 K-核三个社会网络指标出发, 对新媒体环境下社会公益舆情网络结 构特征和信息传播展开研究。【结果】实证研究结果表明, 新媒体环境下的社会公益舆情网络为无标度网络, 各 子社区具有相似的网络结构, 核心网络虽相对紧密但分布广泛, 社会公益网络舆情已经进入移动时代。【局限】 数据来源不够广泛、未剔除沉睡用户数据可能导致的研究偏差。【结论】在理论层面为社会公益网络舆情提供新 的研究视角, 在实践层面对相关部门加强舆情监控具有指导作用。

  • 基于多权值的 Slope One 协同过滤算法*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】针对 Slope One 算法未考虑项目相似性、项目属性和对目标用户已有评分同等考虑进而导致推荐 准确度降低的问题进行改进。【方法】提出一种基于改进的项目相似性度量、改进的项目属性相似性度量和用户 评分概率函数的多权值的Slope One协同过滤算法, 在项目相似性度量方面将共同评价的两个项目的用户数量和 Pearson 相关系数相融合, 在项目属性相似性度量方面将修正的拉普拉斯平滑与 Jaccard 系数相结合, 同时利用用 户评分概率函数对用户已有评分进行有效区分。【结果】实验结果表明, 本文方法相比于原 Slope One 算法, MAE 值下降了 5.4%, 能够获得更好的推荐准确度。【局限】只关注推荐系统中用户对项目产生的评分, 并没有关注用 户对项目给出的评论, 在一定程度上影响了推荐效果。【结论】本文方法更能适应评分数据稀疏性, 有效提高了 推荐系统的推荐质量。