词向量聚类加权TextRank 的关键词抽取后印本

作者： 夏天 ¹
作者单位：

1. 中国人民大学数据工程与知识工程教育部重点实验室北京 100872

2. 中国人民大学信息资源管理学院北京 100872
提交时间：2017-11-08 16:22:27

摘要: 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec 模型基于维基百科中文数据, 生成词向量模型, 对TextRank 词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN 个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3 时, F 值取得最大值, 比先前最优结果增量提升了3.374%; TopN＞7 时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。

关键词抽取词向量 TextRank Word2Vec

分类： 图书馆学、情报学 >> 情报学

期刊：

数据分析与知识发现

投稿状态： 已在期刊出版
引用： ChinaXiv:201711.01989 (或此版本 ChinaXiv:201711.01989V1)
DOI:10.12074/201711.01989V1
CSTR:32003.36.ChinaXiv.201711.01989.V1
科创链TXID： ed091a10-3d3c-4cc0-907d-468b67c10711
推荐引用方式： 夏天.词向量聚类加权TextRank 的关键词抽取.数据分析与知识发现:https://chinaxiv.org/abs/201711.01989.[ChinaXiv:201711.01989V1] (点此复制)

版本历史

[V1]

2017-11-08 16:22:27

ChinaXiv:201711.01989V1

下载全文

相关论文推荐

1. 科技期刊面向“十五五”的守正与创新	2025-07-20
2. 科研人员数据伦理失范行为形成过程及影响因素研究	2025-07-18
3. 论四库南三阁公共开放的实践及影响	2025-07-09
4. 国外图书馆 BIBFRAME 格式转换对我国编目工作的影响和思考	2025-07-09
5. 整合式数据素养教育理论与实践研究——基于普渡大学图书馆“影响力:数据科学教育”项目	2025-07-09
6. 文化遗韵与数字新生: 澳大利亚图书馆文化遗产数字化实践及启示	2025-07-09
7. 具身智能赋能智慧图书馆建设的发展机遇、现实困境与疏解策略	2025-07-09
8. 基于用户需求的省级公共图书馆老年用户信息服务研究——以陕西省图书馆为例	2025-07-09
9. 图书馆在治理 AI 信息污染中的作用、策略和未来发展趋势	2025-07-09
10. 威廉·S. 迪克斯对美国大学图书馆事业的历史贡献	2025-07-09


公开评论匿名评论仅发给作者

词向量聚类加权TextRank 的关键词抽取 后印本

版本历史

相关论文推荐

词向量聚类加权TextRank 的关键词抽取后印本