ChinaXiv.org 中国科学院科技论文预发布平台

Reg Login

EN | CN

Submitted Date

2017
1

Subjects

Information Science
1

Authors

刘降珍
1
宁建飞
1

Institution

罗定职业技术学院电子信息系罗定 527200
1

result total 1.

Hide Summary

Hits

Date

1. ChinaXiv:201711.01200
Download

融合Word2vec 与TextRank 的关键词抽取研究

Subjects: Library Science，Information Science >> Information Science submitted time 2017-10-11 Cooperative journals: 《数据分析与知识发现》

宁建飞刘降珍

Abstract：【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征, 并且通过词向量计算词汇之间的相似度, 进而对TextRank 算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配, 并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec 与TextRank 的有效融合, 且当训练文档集词汇分布合理时, 关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练, 获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系, 提升单文档的关键词抽取准确性。

YES

Hits 3510 Downloads 2605 Comment 0

Links : PubScholar 哲学社会科学预印本

Operating Unit: National Science Library，Chinese Academy of Sciences
Production Maintenance: National Science Library，Chinese Academy of Sciences
Mail: eprint@mail.las.ac.cn
Address: 33 Beisihuan Xilu,Zhongguancun,Beijing P.R.China

Recruiting preprint review experts License Information Term & Conditions