Current Location:home > Browse

Submitted Date

1. chinaXiv:201712.01374 [pdf]

融合词嵌入表示特征的实体关系抽取方法 研究*

张 琴; 郭红梅; 张智雄
Subjects: Library Science,Information Science >> Information Science

【目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作 用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树 模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算 法的准确率达到0.48, 关系抽取效果最佳, Member-Collection( E2 , E1 )类型关系的 F1 值达到0.70, 特征排序结果表 明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及 方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体 关系抽取问题中可以发挥重要作用。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits1554Downloads653 Comment 0

2. chinaXiv:201711.01937 [pdf]

科技文献检索系统语义丰富化框架的设计与实践

谢靖; 王敬东; 吴振新; 张智雄; 王颖; 叶志飞
Subjects: Library Science,Information Science >> Information Science

【目的】通过采用语义识别、知识关系计算等方法提升科技文献检索系统的服务功能和效果, 使之能够呈现更加丰富的知识化语义信息, 将更多的知识点和知识关系展现给用户。【方法】应用数据挖掘和关系计算工具,深度识别和抽取科技文献中的语义知识, 分析、计算、构建语义关系, 并将得到的语义知识和语义关系建立多维语义索引树, 设计新的数据组织呈现模型。【结果】研发语义丰富化检索示范系统, 在科技文献检索应用过程中充分揭示语义信息, 丰富检索体验。【局限】选取的试验数据集合不够充足, 缺少其他领域应用对比。【结论】本文模型设计给用户带来更多的知识层面的关联、揭示和导航, 提升了检索系统体验。同时分析了设计模型的不足之处, 探索改进方法。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits1166Downloads645 Comment 0

3. chinaXiv:201711.01940 [pdf]

基于关联数据的类簇语义揭示模型研究

崔家旺; 李春旺
Subjects: Library Science,Information Science >> Information Science

【目的】调研基于关联数据揭示类簇内主题词间语义关系的模型和技术方法。【方法】利用Google Scholar、Springer、CNKI 等检索与研究主题相关的文献, 调研分析并梳理当前类簇分析和语义关系揭示相关研究, 构建基于关联数据的类簇语义关系揭示模型, 通过实验验证模型的有效性。【结果】实验结果表明, 利用关联数据可以有效揭示主题词间语义关系, 弥补传统共词聚类分析在语义方面的不足。【局限】受实验数据限制, 目前揭示出的语义关系局限于上下位类关系、类与实例关系和相关关系等类型, 未考虑关联数据质量问题对语义揭示结果造成的影响。【结论】提出的基于关联数据的类簇语义关系揭示模型可以有效揭示主题词间语义关系, 为共词聚类结果的理解和分析提供一种新的方式。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits645Downloads325 Comment 0

4. chinaXiv:201711.01942 [pdf]

结合链路预测和ET机器学习的科研合作推荐方法研究

吕伟民; 王小梅; 韩涛
Subjects: Library Science,Information Science >> Information Science

【目的】结合链路预测与机器学习, 提出推荐未来科研合作的新方法, 以提高单独基于链路预测方法的推荐精确度。【方法】构建加权作者合作网, 以不同的链路预测指标作为特征输入, 运用极端随机树(Extremely Randomized Trees, ET)机器学习算法训练分类, 并利用遍历算法求取分类结果的最优权重组合, 选取TOP 准确度的预测作为合作推荐结果。【结果】选取纳米科技领域2008 年–2010 年SCI 论文数据进行实证。在城市合作推荐中, 改进的ET 方法优于已有方法, 有良好的推荐成功率; 预测方法受网络结构等因素影响较小, 适用范围更广泛。【局限】科研合作受合作动机、地域、语言等诸多因素影响, 加权作者合作网没有反映在一篇论文中同城市、同机构的多个作者, 也没有反映上述因素。【结论】改进算法能够比单个预测指标产生更准确的合作推荐建议, 也为推广到大学等机构、个人等更微观的应用层面提供参考。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits932Downloads556 Comment 0

5. chinaXiv:201711.01946 [pdf]

基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究

王子璇; 乐小虬; 何远标
Subjects: Library Science,Information Science >> Information Science

【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集, 通过训练领域词向量计算句子间WMD 距离得到相应语义相似度, 优化TextRank 算法迭代过程, 利用外部特征对所得权值进行调整, 按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据, 以人工标注的结果为基准对本文的算法和传统的TextRank 算法进行对比实验, 初步结果表明该方法的识别效果(F值)比传统TextRank 算法提升约5%。【局限】句子特征提取有待提高, 词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量, 融合WMD 语义相似度的TextRank 改进算法, 能够较好地甄别科技论文小节内部中心句, 辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits1287Downloads1110 Comment 0

6. chinaXiv:201711.01976 [pdf]

植物物种多样性语义知识抽取研究

刘建华; 王颖; 张智雄; 李传席
Subjects: Library Science,Information Science >> Information Science

【目的】拓展以物种为中心的植物物种多样性抽取框架, 探索实现语义知识抽取方法。【方法】结合当前生物多样性抽取的主流研究, 以物种为中心, 设计包含多种实体及实体间关系的知识抽取框架, 利用已有的众多专业数据库, 设计并实现相应的识别方法。【结果】设计以物种为核心的知识抽取框架, 探索实现多种实体及实体间关系的语义知识抽取方法, 拓展植物物种多样性领域抽取内容和思路。【局限】实体识别的完整性和准确性受底层知识库影响较大, 且实体间关系的类型局限于共现、上下位类、语法关系几类, 还需进一步研究。【结论】本研究拓展了植物物种多样性抽取内容和思路, 可有效支持语义检索、科学计算。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits1025Downloads663 Comment 0

7. chinaXiv:201711.01978 [pdf]

针对科技路线图的文本挖掘研究:集成分析及可视化

谢秀芳; 张晓林
Subjects: Library Science,Information Science >> Information Science

【目的】实现针对科技路线图内容的知识发现研究, 预测未来科技长期发展趋势。【方法】基于采用“抽取–同步–分类”的文本挖掘方法构建的科技路线图信息库, 集成分析全球科技发展需求和趋势, 对比分析各国发展路线和措施, 并以可再生能源领域为案例进行实证研究。【结果】利用开源工具Timeflow、Gephi 等对实证研究结果进行可视化, 按时间序列从多个角度呈现了可再生能源领域到2050 年的发展态势及各国的战略规划。【局限】综合利用了多种方法工具, 自动化程度有待提高, 个性化功能有待完善。【结论】该研究方案能够快速获取科技路线图中的核心信息, 提高情报获取效率。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits573Downloads390 Comment 0

8. chinaXiv:201711.01999 [pdf]

植物物种多样性语义知识抽取研究

刘建华; 王颖; 张智雄; 李传席
Subjects: Library Science,Information Science >> Information Science

【目的】拓展以物种为中心的植物物种多样性抽取框架, 探索实现语义知识抽取方法。【方法】结合当前生物多样性抽取的主流研究, 以物种为中心, 设计包含多种实体及实体间关系的知识抽取框架, 利用已有的众多专业数据库, 设计并实现相应的识别方法。【结果】设计以物种为核心的知识抽取框架, 探索实现多种实体及实体间关系的语义知识抽取方法, 拓展植物物种多样性领域抽取内容和思路。【局限】实体识别的完整性和准确性受底层知识库影响较大, 且实体间关系的类型局限于共现、上下位类、语法关系几类, 还需进一步研究。【结论】本研究拓展了植物物种多样性抽取内容和思路, 可有效支持语义检索、科学计算。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits920Downloads588 Comment 0

9. chinaXiv:201711.02000 [pdf]

针对科技路线图的文本挖掘研究:集成分析及可视化

谢秀芳; 张晓林
Subjects: Library Science,Information Science >> Information Science

【目的】实现针对科技路线图内容的知识发现研究, 预测未来科技长期发展趋势。【方法】基于采用“抽取–同步–分类”的文本挖掘方法构建的科技路线图信息库, 集成分析全球科技发展需求和趋势, 对比分析各国发展路线和措施, 并以可再生能源领域为案例进行实证研究。【结果】利用开源工具Timeflow、Gephi 等对实证研究结果进行可视化, 按时间序列从多个角度呈现了可再生能源领域到2050 年的发展态势及各国的战略规划。【局限】综合利用了多种方法工具, 自动化程度有待提高, 个性化功能有待完善。【结论】该研究方案能够快速获取科技路线图中的核心信息, 提高情报获取效率。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits555Downloads349 Comment 0

10. chinaXiv:201711.02010 [pdf]

数字文献资源长期保存可持续支撑机制研究

郑建程; 张晓林; 赵艳; 吴振新; 尹高磊; 肖曼; 陈秀娟
Subjects: Library Science,Information Science >> Information Science

【目的】分析数字文献资源长期保存的可持续性挑战, 推进长期保存服务的可持续建设。【方法】系统分析国内外相关文献, 梳理长期保存可持续性框架, 分析可信赖认证和经济支持等问题体系, 分析整理可信赖性认证实施机制和长期保存经济投入实施机制。【结果】提出数字文献资源长期保存的可持续支撑机制建设具体建议。【局限】对数字文献资源长期保存经济支持模式和相关研究只做了简要概述, 有待更深入展开论述。【结论】数字文献资源长期保存的可持续性包括格式可持续性、系统可持续性和服务可持续性, 服务可持续性涉及管理、经济和政治可持续性要求, 并提出加强长期保存可持续性建设的具体建议。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits700Downloads444 Comment 0

1234  Last  Go  [4 Pages/ 33 Totals]