分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】针对网络中海量的Web 服务, 提出一种有效的Web 服务聚类与发现方法。【方法】利用BTM 学习整个Web 服务描述文档集的隐含主题, 通过推理得出每个文档的主题分布, 并进行聚类。在此基础上, 创建一个快速的Web 服务发现机制。【结果】与使用LDA 和外部语料库等方法进行对比实验, 本文方法的查准率和标准折损累计增益果显示该方法可以更准确地发现符合用户需求的服务。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】准确理解文本信息中潜在的知识关联, 丰富文本知识挖掘的方法。【方法】将主题模型和关联规则相结合, 运用LDA 主题模型抽取文本中的主题集合, 在实现文本降维的同时, 实现文本在语义空间的表达;通过关联规则进一步挖掘文本中主题的语义关联。【结果】设置合理的支持度和置信度阈值, 可以有效地挖掘文本中潜在知识的关联, 实现对文本的深入“理解”。【局限】数据预处理过程中, 用户自定义词典的设计会对实验结果产生一定的影响。【结论】提出一种非结构化文本信息潜在语义关联挖掘的新思路, 改善了针对文本信息知识发现的效果。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》
摘要: [ 目的 / 意义 ] 梳理主题模型在公共政策文本中的国内外应用现状有助于学习已有研究成果, 为未来发展提供理论与实践支持。[ 方法 / 过程 ] 采用文献计量分析法从时间趋势、机构分布、期刊分布 等角度进行量化分析,详细归纳阐述应用现状;其次,通过关键词共现识别国内外主要研究方向并展 开对比分析,总结主题模型应用在公共政策文本中存在的问题并提出未来展望。[ 结果 / 结论 ] 公共政 策文本分析中主题模型的应用整体呈增长态势,前景广阔。国内外研究起步时间相当,但国内研究在研 究范围、研究深度、合作方式、研究方法等方面均需提升。此外,未来发展存在主题模型自身方法适用 性问题和研究内容粒度问题,需进一步结合公共政策文本特征改进主题模型并细化研究力度。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》
摘要: [ 目的 / 意义 ] 探究影响电影微博互动效果的隐藏主题能发掘用户关注的热点问题,为企业 提供有效的营销策略。[ 方法 / 过程 ] 从新浪微博上爬取 2017 年上映的 123 部电影的热门微博,采用主 题建模方法挖掘电影微博文本中的隐藏主题,利用回归方法分析隐藏主题对电影微博互动效果的影响。 [ 结果 / 结论 ] 结果发现 6 个可解释主题:电影人物、电影宣传、互动营销、电影内容、电影评价和线下 活动,其中电影宣传、互动营销、电影内容和电影评价 4 个主题正向影响电影微博的互动效果;同时发 现用户粉丝数和话题讨论热度正向影响电影微博的互动效果。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-26 合作期刊: 《图书情报工作》
摘要: [目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-24 合作期刊: 《计算机应用研究》
摘要: 针对学术论文推荐中项目冷启动问题,提出了一种基于频繁主题集偏好的协同主题回归模型。该算法考虑到用户在选择学术论文时对研究热点的偏好,使用频繁主题集代表研究热点,将用户对研究热点的偏好表示成用户对频繁主题集的偏好。首先,通过潜在狄利克雷分布主题模型挖掘得到论文—主题概率分布矩阵,并筛选出论文中概率较高的主题;然后,挖掘出频繁出现的主题集合,并得到论文-频繁主题集矩阵;最后,在预测未知评分时融入用户对频繁主题集的偏好。在CiteULike数据集上的实验表明,相比于矩阵分解模型和协同主题回归模型,该算法在召回率、准确率和RMSE三个指标上都有所提升。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-24 合作期刊: 《计算机应用研究》
摘要: 随着移动通信技术的发展和移动设备的普及,关于人们日常移动行为的轨迹数据记录愈发的丰富起来。海量的轨迹数据背后隐藏着关于人及人类社会的有价值的知识模式。为了使基于轨迹数据产生的知识模式更精准有效服务用户,能够准确、可靠地恢复缺失电信轨迹显得尤为重要。目前大多数方法主要针对GPS轨迹等连续轨迹进行建模,而缺乏对移动通信场景中产生的电信轨迹恢复的研究。因此,针对电信轨迹缺失恢复问题,将电信轨迹恢复问题转化为矩阵补全问题,提出了一种基于LDA主题模型的恢复算法。实验中,与传统矩阵补全算法进行综合比较,并观察了不同参数对轨迹恢复效果的影响。实验结果表明,与传统矩阵补全算法相比,运用LDA主题模型能够显著提高缺失电信轨迹的恢复精度。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》
摘要: [目的/意义] 概率主题模型算法在不断得到改进与扩展,本文对国内外已有的利用引文构建的主题模型进行研究,分析和对比不同模型的生成过程与算法,并探讨利用引文构建的主题模型在科技文本分析中的应用与可扩展的研究方向。[方法/过程] 通过Web of Science数据库和CNKI数据库获取国内外利用引文构建主题模型的相关文献,经人工判读后筛选出具有代表性的文献,对这些文献中利用引文构建的主题模型,从建模思想、生成过程、参数估计与推断算法等方面进行对比与分析。[结果/结论] 目前国内外利用引文构建的主题模型主要包括研究主题与引文分布的主题模型、研究被引与施引主题间关系的主题模型,以及基于引用内容的引用主题模型;主题模型中引入引文信息后,能够获得更完整的主题内容和特定主题下的重要文献,并可识别施引文献和被引文献之间主题间的关系及影响;已有的模型多集中在概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)和潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型基础上进行扩展。未来可扩展研究引入引用内容的主题模型、模型的性能优化和评价方法、模型的应用研究等。
分类: 图书馆学、情报学 >> 文献学 提交时间: 2021-12-02
摘要: 目的/意义 面对世界范围内各种思想文化交流、交融、交锋的新形势,深入挖掘国际传媒研究热点,对促进我国传媒领域的学术发展与学科体系完善具有重要意义。 方法/过程 本文以Web of Science数据库中2015年至2019年传媒类期刊文献数据为基础,结合概率主题模型、文献计量方法以及自然语言处理技术对文档内容和元数据进行联合建模,构建国家-主题分布矩阵,较为全面地挖掘了近五年来国际传媒研究的地理分布与知识结构,最终落脚于国内传媒领域研究的热点主题分析。 结果/结论 研究结果表明,数字技术推动新媒体蓬勃发展,不断刺激传媒领域的产业升级与文化重塑。我国部分主题在理论研究、产学交流、学科融合等方面仍存在探索与提升的空间,需要在重视理论研究与应用研究、基础学科与新兴学科协同发展的基础上,开展符合国内需求、具有国际视野的传媒研究,为传媒领域的持续深入发展添砖加瓦。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》
摘要: [目的/意义] 改善现有LDA专利技术主题分析存在的辨识度低、可解释性弱和界限划分模糊问题,对于把握技术热点、追踪技术前沿具有重要意义。[方法/过程] 将国际分类号IPC引入LDA专利主题分析中,将其作为技术词的语境,以二元组的WI (Word IPC)结构进行训练,构建WI-LDA模型,实现对专利文献主题的识别和分析。[结果/结论] 通过中国石墨烯领域的实证研究及与传统LDA模型的对比研究证明,WI-LDA模型泛化能力较强,在专利技术主题分析上能有效降低主题的辨识难度,增加主题的可解释性,使文本主题划分更加清晰。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-26 合作期刊: 《图书情报工作》
摘要: [目的/意义]学术谱系以知识传承的方式助推科学发展。研究知识传承特征,探索学术谱系传承模式及其学术产出影响效能,为探索人才成长规律及人才政策制定提供参考。[方法/过程]基于LDA主题模型,以遗传学领域谈家桢为核心的学术谱系成员发表的期刊文献为研究对象,对该谱系成员的研究主题进行抽取,借鉴生物学遗传与变异的概念,根据主题相似度将谱系成员划分为遗传学者变异学者和非遗传非变异学者,并对三种学者的学术绩效进行分析。[结果/结论]分析结果表明,谈家桢学术谱系内遗传学者和变异学者的学术绩效相对较高;非遗传非变异学者的数量占比最多,但学术绩效相对较低;遗传学者与变异学者在不同主题下的分布具有明显差异。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】自动抽取微博话题信息, 从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题 模型应用于微博话题中, 结合改进的 TF-IDF 算法, 构建主题特征词向量; 基于特征词向量中特征词之间的相关度, 自动抽取主题词汇链; 引入情感词典, 抽取主题观点, 无监督构建“主题+观点”词条。【结果】使用爬虫工具 抽取2014年6月–2015年6月期间4个特定热门微博话题事件的微博共24 598条, 抽取“主题+观点”词条, 平均 准确率达到 80.3%, 召回率为 76.7%。【局限】数据量依旧较小, 主题模型对于微博短文本的特征抽取效果仍需提高。【结论】本文算法可以准确且有效地描述话题事件内容及其相应观点。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》
摘要: [目的/意义]探测高血压医学文献的主题和演化趋势,对发现高血压领域的研究热点和前沿,理解高血压领域概况和促进专家之间的知识交流具有重要意义。[方法/过程]以PubMed数据库下载的26 717篇与高血压相关的文献题录数据作为研究对象,抽取高频主题词构造共现矩阵,同时采用社会网络分析(SNA)和狄利克雷多项回归(DMR)主题模型从中观、微观层面探测高血压医学文献的主题分布和演化趋势;比较这两种方法的关联和异同点。[结果/结论]研究发现,高血压医学文献主要集中在危险因素、研究方法、基本要素、诊断治疗和动物实验这5个研究主题,主题的相对分布比率随着时间变化而不断改变。利用SNA方法获取的主题词更加具体和明确,而DMR方法获取的主题词更加宽泛,但在探索各个主题的演化趋势方面比较有优势。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】有效确定科技情报分析中 LDA 主题模型的最优主题数目。【方法】利用主题相似度度量潜在主 题之间的差异, 同时结合困惑度提出一种确定 LDA 最优主题数目的方法, 该方法既考虑主题抽取效果同时也考 虑模型对新文档的泛化能力。 【结果】获取国内新能源领域的科技文献作为数据集, 实证结果表明本文提出的最 优 LDA 主题数确定方法与单纯使用困惑度相比, 具有更高的主题抽取查准率(91.67%)、 F 值(86.27%)及科技文献 推荐精度(71.25%)。 【局限】未针对其他类型的数据集进行新方法的验证, 如微博短文本、XML文档等。 【结论】 本文方法能够有效地从科技文献数据集中抽取辨识度较高的主题, 并能够提高科技文献推荐效果。
提交时间: 2024-04-03 合作期刊: 《农业图书情报学报》
摘要: [目的/ 意义]随着国家扶贫政策和乡村振兴战略的提出,留守儿童教育问题引起了学者们的特别关注。然而,留守 儿童教育的研究文献是零星和分散的,需要系统性的探讨。该研究的目的在于揭示留守儿童教育研究成果的主题内容及其演 化规律,以为政策制定和实践提供更深入的理论支持。[方法/ 过程]该研究以2002 年至2023 年期间发表的2 037 篇期刊文 献摘要文本构建语料库,使用了基于结构主题模型方法对语料库进行主题建模,从主题多样性和动态性的角度来研究相关的 现存文献及发展趋势。[结果/ 结论]通过主题建模的分析,最终确定了8 个关键研究主题,分别是心理健康、留守儿童产生 的前因、应对策略渊宏观冤、监护类型、综述类研究、家庭教育、媒介素养、应对策略渊微观冤。最后,在此基础上提出了未 来的研究方向。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》
摘要: [目的/意义]作者主题模型作为近年来计算机领域关注度较高的新型概率模型,在文本挖掘与自然语言处理等方向已有广泛应用。分析国内外作者主题模型及其改进的思路与应用,更好地把握其研究现状,以期为计算机、图书情报等相关领域科研人员提供参考。[方法/过程]本文选取Web of Science核心数据库、DBLP及中国知网(CNKI)数据库作为文献来源,通过制定检索规则、去重及人工判读等操作提炼出关于作者主题模型及其改进方法的文献集,从模型应用过程的视角,结合文献分析法对现有研究进行总结归纳。[结果/结论]通过分析发现,现有相关研究已形成较为完整的分析流程,且模型的改进角度、适用领域也日益多样化。但性能优化、模型评价指标的规范完善以及在图书情报领域的进一步应用等方面仍有待深入探索。
分类: 图书馆学、情报学 >> 情报资料的处理 提交时间: 2024-04-18
摘要: 目的/意义 :本研究旨在系统地分析突发事件微博舆情的主题演化趋势,可视化舆情发展过程中的焦点主题,为后续网络舆情的引导提供实践参考依据。 方法/过程 :采用BERTopic主题提取模型识别舆情发展不同阶段的主题,并采用余弦相似度度量主题间的相似性,可视化主题的演化路径。以新浪微博“东航Mu5735空难事件”为例,进行突发事件网络舆情的主题演化研究。 结果/结论: 实证研究结果表明,基于BERTopic主题模型对舆情事件建模得到高效且可观性较高的主题识别结果,准确把握舆情发展每个阶段中热点主题,揭示了舆情传播过程中主题演变过程。 创新/局限 :本研究提出了一种基于 BERTopic 模型对短文本突发事件微博舆情主题演化分析的总体框架,对主题提取后的结果进行主题内容演化分析并进行可视化展示。本研究的局限性在于当前选用的数据来源仅来源于微博平台,后续可提高数据来源的多样性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-04-07 合作期刊: 《计算机应用研究》
摘要: 为了预测商品描述文案中商品特征对点击的影响,量化分析用户的消费行为特征及缓解冷启动问题,建立了一种基于LDA模型和文本情感分析的点击预测模型。该模型基于LDA主题模型对商品描述词的分类筛选,对构成词进行情感分析,构建特征向量以表示用户对商品各特征的情感倾向,并通过LightGBM算法进行对点击的预测。模型可以将非结构化文本数据转换为结构化数据,量化用户对商品不同特征的兴趣倾向,并利用不同商品的相似特征缓解冷启动问题。实验结果表明模型有效提高了点击预测效果并能缓解冷启动问题。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》
摘要: [目的/意义]明确我国营商环境政策发展态势,揭示政策重点的时序演化规律,为后续政策的制定与完善提供数据支撑。[方法/过程]基于2001-2020年中央及各地方政府发布的营商环境政策文本,以两年为一个时间片,通过动态主题模型得到30个营商环境主题的时序演化分布,然后将主题归纳到市场环境、政务环境、人文环境和法律环境4个维度下,进而研究营商环境政策中各维度的主题强度及重点发展趋向。[结果/结论]营商环境政策主要集中于政务环境和市场环境建设,政策力度分配不均,且各维度强度在不同经济地区下差异显著,由此针对营商环境政策提出的建议包括:强化市场导向,减弱政务干预,引入法制规范,等等。