分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》
摘要: [目的/意义] 尝试以统计的方法为指导思想,探究基于词向量扩展的语义检索技术来提升学术资源的语义检索能力。[方法/过程] 利用自然语言处理、文本挖掘技术,对采集来的学术资源(主要是学术论文)元数据进行预处理,结合word2vec词向量生成工具和elasticsearch全文检索引擎搭建语义检索系统,对学术资源进行语义检索的探索研究。[结果/结论] 本文提出的方法能够有效提升学术信息的检索效果,一定程度上实现学术资源的语义检索,并为后续语义检索的进一步研究提供借鉴。
分类: 数学 >> 计算数学 提交时间: 2020-10-19
摘要: 在进入推荐系统之前,商品名、人名等实体名字需要嵌入低维向量。word2vec这样的流行嵌入算法的出发点是“相同语法位置上的词具有相似的向量”,而名字序列没有语法结构,导致名字向量的质量不高。 本文从“相邻的名字具有相似的向量”出发,提出一个称为名字嵌入的新方法。名字嵌入使用了一些新技巧:公式比word2vec更简单,向量模长固定为1、用相对权重处理低频名字、优化目标使用简单的均方差。 以名字相似度作为衡量标准,在NBA球队名人造集、球队名微博集和微博点赞集上,名字嵌入均显著优于word2vec。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作 用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树 模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算 法的准确率达到0.48, 关系抽取效果最佳, Member-Collection( E2 , E1 )类型关系的 F1 值达到0.70, 特征排序结果表 明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及 方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体 关系抽取问题中可以发挥重要作用。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec 模型基于维基百科中文数据, 生成词向量模型, 对TextRank 词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN 个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3 时, F 值取得最大值, 比先前最优结果增量提升了3.374%; TopN>7 时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec 模型基于维基百科中文数据, 生成词向量模型, 对TextRank 词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN 个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3 时, F 值取得最大值, 比先前最优结果增量提升了3.374%; TopN>7 时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 以全新视角审视挖掘哥伦比亚大学口述历史中心(CCOH)项目特征,深入解构项目主题,为丰富我国口述历史项目主题提供参考基准。[方法/过程] 选取哥伦比亚大学口述历史中心9 586个口述历史项目为研究对象,利用Python抓取数据,通过Word2Vec和K-means对筛选后的3 589个项目(过滤无简介项目5 997个)聚类分析并进行项目主题解构。[结果/结论] 哥伦比亚大学口述历史中心项目包含4个主题层面:①以人物为主题兼容并包,辐射各行各业群体;②以机构为主题博采众长,发挥自身职能优势;③以地区为主题统筹规划,联动地区体系建设;④以特定时期、具体运动/事件为主题创新范式,观照家国时代主题。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 针对目前自动问答系统在语义扩展方面存在的缺陷,提出一种基于词向量的语义扩展技术,设计并实现一个图书馆的智能咨询系统。[方法/过程] 使用基于Word2vec词向量语义扩展技术结合中文分词、共现词匹配技术设计智能问答引擎,结合协同办公的管理理念,实现图书馆智能咨询系统的构建,并对系统的运行数据进行统计分析。[结果/结论] 该系统在工作时间、咨询效果和后台管理上较好地满足设计需求,为图书馆智能化信息咨询系统建设提供参考。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 构建一种基于Word2Vec和CNN的产品评论细粒度情感分析模型。[方法/过程] 首先使用Word2Vec从产品评论中构建产品特征词列表和噪声词表,其次借助噪声词表来进行产品评论特征词的提取,然后采用CNN对产品评论进行产品特征层面的细粒度情感分类,最后实现基于产品特征的产品评论聚类。[结果/结论] 通过爬取京东商城华为手机评论对该模型进行训练和测试,结果表明,该模型能够有效实现产品评论的细粒度情感分析,可以有效地发现用户对产品特征的关注度和满意度。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征, 并且通过词向量计算词汇之间的相似度, 进而对TextRank 算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配, 并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec 与TextRank 的有效融合, 且当训练文档集词汇分布合理时, 关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练, 获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系, 提升单文档的关键词抽取准确性。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】利用Word2Vec 深度学习技术从面向大众的健康信息中寻找疾病关联, 解决非医学人士通常不了 解多种疾病之间存在的关联, 从而影响到健康信息搜寻中的全面性和有效性的问题。【方法】由专家选取30个常见疾病主题,从高质量医学新闻网站上采集对应疾病的文档, 运用Word2Vec技术对各疾病的相关文档构造词 向量,计算向量距离判断疾病关联。通过与专家评分的相关分析衡量判断结果的准确性。【结果】优情况下,Word2Vec 得到的结果与专家评分相关系数达到0.635。通过对比不同的算法模型、优化方法、数据规模及重要 参数对结果的影响,发现Skip-Gram模型结合负样本数为20的Negative Sampling优化方法在大规模数据集上的 实验结果优。【局限】疾病主题选取宽泛时, 影响Word2Vec 判断准确性, 本文的疾病主题选取粒度有待改善。【结论】利用 Word2Vec 技术在面向大众的健康信息源中也可以探测疾病关联, 其有效性表明该技术可用于改善 大众的健康信息搜寻的个性化服务。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义]共词分析作为主题识别的重要方法,存在一定的局限和不足,将Word2Vec加权向量与共词分析相结合,有利于明确具体文献的主题归属,更好地对主题的发展演化进行分析。[方法/过程]在运用共词分析进行主题聚类的基础上,通过Word2Vec加权向量分别计算文献向量与聚类主题向量,并基于余弦相似度进行文献与主题的语义匹配。[结果/结论]国内外知识共享领域的实证分析表明,该方法能较好地将相关文献匹配至对应主题,并能从文献层面对主题特征及发展演化进行动态分析。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》
摘要: [ 目的 / 意义 ] 对已有的文本表示、分类算法进行组合,遴选一种复杂度低、训练时间少的组合 方式,构建商品评论情感文本分类的优化模型。[ 方法 / 过程 ] 以 Keras API 为应用环境,将 Word2vec 词 向量输入 Embedding 嵌入层,依据句子词索引序列,通过控制 trainable 参数实现 3 种商品评论的文本表示; 将不同的文本表示分别与不同分类算法进行匹配,分析分类效果差异,确立较优算法组合。[ 结果 / 结论 ] Word2vec词向量输入Embedding嵌入层继续训练的文本表示方法,结合TextCNN算法训练获得的分类模型, 在商品评论测试集上分类效果表现较好,准确率和ROC曲线面积AUC值分别为94.02%、0.982 7。应用表明, 分类模型能较好实现商品评论的情感分类,有较好的分类泛化能力。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义]突破性创新对科技发展具有关键作用。大数据环境下,科学技术发展本身所具有的复杂、多维、不断进化等特征越发凸显。以动态视角进行突破性创新主题识别,对于为国家、企业及高校详析突破性创新领域、合理配置创新资源以及提供创新升级解决方案具有重要意义。[方法/过程] 综合运用主题模型、词嵌入算法以及复杂网络分析等方法构建动态主题网络,全面考量主题在时间窗口内的结构特性以及时间窗口间的演化状态,并以其为基础结合突破性创新的新颖性、突变性、影响力和学科交叉性特征识别突破性创新主题。[结果/结论] 面向区块链领域展开实证研究,识别出神经网络(Neural Network)和边缘计算(Edge Computing)两个主题的突破性创新特征最为显著。结合区块链现有研究及美国国家科学技术委员会发布的关键和新兴技术清单,验证了本文方法的可行性和有效性。但有关结果的定量验证,以及融合多源数据的突破性创新主题识别有待进一步研究。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 不同性格的用户所具有的语言表达方式不尽相同,现有的情感分析工作很少考虑到用户的性格,针对此问题,提出一种基于性格的微博情感分析模型PLSTM。该模型首先采用性格识别规则将微博文本分为五个性格集合和一个通用集合,其次针对每种性格文本集合分别训练出一个情感分类器,最后对六个基本情感分类器进行融合,得出最终的情感极性。实验结果显示PLSTM方法的F1值可以达到96.95%,表明PLSTM比起以前常用的基准情感分析模型在准确率、召回率、F1值上都有较大提高。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 针对Word2Vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与Word2Vec模型相结合,提出Word2Vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical Softmax的Word2Vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(Global ACV)和局部平均上下文词向量(Local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵。将Word2Vec-ACV模型和Word2Vec模型分别进行类比任务实验和命名实体识别任务实验,实验结果表明,Word2Vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】针对官方微博数据存在大量不相关信息的问题, 过滤博文进而检测事件。【方法】利用 Word2Vec 机器学习模型训练官方微博记录集, 并将博文影响力、词基础权重以及官微相关性相结合, 提出 官方微博突显词检测方法, 计算突显词博文的相似度, 利用层次聚类算法对突显词博文聚类后选取合适的 突显词描述事件, 从而实现事件检测。【结果】实验结果表明, 与TF-IDF 和TextRank 算法相比较, 本文的 突显词算法在准确率(63.5%)、召回率(85.5%)和F 值(73.0%)方面表现更好。【局限】官方微博历史记录太少, 初始的训练会存在数据冷启动问题。【结论】本文方法可以在官方微博博文中有效检测官方微博事件。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 针对生物信息学中著名的序列比对算法在文本相似度中的应用,改进前人的方法并提高文本相似度计算的准确性。[方法/过程] 首先,对目标文本进行规范化处理,构成中文序列集。随后,利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则。最后,对中文序列两两进行全局比对并获得比对的最优解,回溯得到最优解的比对路径,计算中文序列的相似度。[结果/结论] 实证结果表明,相较于传统方法,本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义]为解决社会化问答社区用户信息需求多样化和答案冗余过载问题,提出面向用户个性化需求的答案有用性排序方法,协助用户高效筛选和获取有用的答案知识。[方法/过程]首先通过文献调研和专家咨询法,从答案特征、回答者特征、答案的时效性3个维度构建答案有用性评价指标体系;然后,从语义层面融合用户个性化需求,设计融合加权灰色关联分析法和Word2vec的答案有用性排序方法,实现面向用户需求的答案排序。[结果/结论]通过实验结果的对比分析发现与基于"点赞数"和"回答时间"等传统的排序方法相比,笔者设计的答案有用性排序方法的用户满意度更高,更能够满足用户的个性化知识需求。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程] 首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵;最后,基于打分矩阵和改进的打分规则,对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解,回溯该最优解,获取最优解的比对路径,计算两中文序列的相似度。[结果/结论] 实验结果表明,相较于目前全局比对算法的相关研究,本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性,同时,应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。