• 中文社交媒体用户性别预测研究——以新浪微博短文本内容为例

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》

    摘要: [ 目的 / 意义 ] 与互联网的高速发展不同,个人信息安全保护的发展相对滞后,通过预 测社交媒体用户的性别,能够更好地针对不同性别用户提供隐私保护。[ 方法 / 过程 ] 以新浪 微博这一社交媒体中用户发布的短文本为研究对象,从中抽取语言特征和主题特征,为每一个 用户构建基于语言特征、主题特征以及两个特征叠加的特征表达向量,利用 SVM 机器学习算法 构建性别预测的分类器。[ 结果 / 结论 ] 实验表明,从微博短文本中抽取的语言特征和主题特 征能够准确预测用户性别,其效果在主要评价指标中均有大幅提升。

  • 影响电影微博互动效果的隐藏主题探究 方法及应用

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》

    摘要: [ 目的 / 意义 ] 探究影响电影微博互动效果的隐藏主题能发掘用户关注的热点问题,为企业 提供有效的营销策略。[ 方法 / 过程 ] 从新浪微博上爬取 2017 年上映的 123 部电影的热门微博,采用主 题建模方法挖掘电影微博文本中的隐藏主题,利用回归方法分析隐藏主题对电影微博互动效果的影响。 [ 结果 / 结论 ] 结果发现 6 个可解释主题:电影人物、电影宣传、互动营销、电影内容、电影评价和线下 活动,其中电影宣传、互动营销、电影内容和电影评价 4 个主题正向影响电影微博的互动效果;同时发 现用户粉丝数和话题讨论热度正向影响电影微博的互动效果。

  • O2O 平台中消费者在线评价参与意愿影响 因素研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》

    摘要: [ 目的 / 意义 ] 随着 O2O 电子商务模式的发展,在线评价作为其成功运转的一环,日渐显露出 重要性,如何激励消费者提供高质量在线评价也成为影响 O2O 模式成功与否的关键论题。[ 方法 / 过程 ] 基于社会交换理论和公共产品理论,构建 O2O 平台在线评价参与意愿影响因素理论模型。通过问卷调查采 集 386 份有效问卷,采用 AMOS17.0 软件验证结构方程模型中的相关假设。[ 结果 / 结论 ] 帮助他人、自 我提升、归属感和道德责任都能对消费者参与 O2O 平台在线评价的意愿产生显著正面影响;帮助线下商家 和经济回馈对 O2O 平台在线评价参与意愿的正面影响不显著;执行成本对 O2O 平台在线评价参与意愿没 有显著负面影响。研究结果有助于深化理解 O2O 平台消费者的在线评价行为,为企业激励消费者参与在线 评价、改善网站服务质量提供理论参考。

  • 基于行为-内容融合模型的用户画像研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》

    摘要: [目的/意义]为识别并去除非理性投资者的网络评论,提升评论的专业程度与质量,促进理性投资,本文以识别股吧中的用户是否属于噪声投资者为研究任务,进行用户画像。[方法/过程]对股吧的用户发文内容进行深度用户表示学习(deep user representation learning),结合股吧用户的粉丝数量、影响力、关注量、自选股、吧龄、发帖量、评论量、访问量等行为特征,提出一种行为-内容融合模型(behaviour and content combined model,BCCM),并在标注数据集上进行实证与对比研究。[结果/结论]实验结果显示,该模型对噪声投资者识别的F1值为79.47%,优于决策树方法(69.90%)、SVM方法(75.61%)、KNN方法(73.21%)和ANN方法(74.83%)。在噪声投资者识别这一特定用户画像研究任务中,通过利用深度用户表示学习引入文本内容特征,能够显著提升用户画像的各种评价指标。

  • 基于深度循环神经网络的跨领域文本情感分析

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义]通过在标注资源丰富的源领域(Source Domain)中学习,并将目标领域(Target Domain)的文档投影到与源领域相同的特征空间(Feature Space)中去,从而解决目标领域因标注数据量较小而难以获得好的分类模型的问题。[方法/过程]选择亚马逊在书籍、DVD和音乐类目下的中文评论作为实验数据,以跨领域情感分析作为研究任务,提出一种跨领域深度循环神经网络(Cross Domain Deep Recurrent Neural Network,CD-DRNN)模型,实现不同领域环境下的知识迁移。CD-DRNN模型在跨领域环境下的平均分类准确度达到了81.70%,优于传统的栈式长短时记忆网络(Stacked Long Short Term Memory,Stacked-LSTM)模型(79.90%)、双向长短时记忆网络模型(Bidirectional Long Short Term Memory,Bi-LSTM)模型(80.50%)、卷积神经网络长短时记忆网络串联(Convolution Neural Network with Long Short Term Memory,CNN-LSTM)(74.70%)模型以及卷积神经网络长短时记忆网络并联(Merged Convolution Neural Network with Long Short Term Memory,Merged-CNN-LSTM)模型(80.90%)。[结果/结论]源领域和目标领域的知识迁移能够有效解决监督学习在小数据集上难以获得好的分类效果的问题,通过CD-DRNN模型能够从无标注数据中有效地筛选特征,从而大大降低目标领域数据标注相关的工作量。

  • 基于序列到序列模型的抽象式中文文本摘要研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary,OOV),同时避免摘要重复,提高文本摘要的质量,本文以解决OOV问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence,seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attention mechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE (recall-oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。

  • 大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义]以大数据环境下的文本情感分析这一特定任务为目的,对规模适配问题进行研究,为情报学领域研究人员进行大数据环境下数据分析时,实现效率和成本的最优选择提供借鉴。[方法/过程]采用斯坦福大学Sentiment140数据集,在对传统情感分析算法分析的基础上,提出了5种面向大数据的文本情感分析算法,检验各种算法在不同环境和数据规模下的适配效果,从准确性、可扩展性和效率等方面进行实证比较研究。[结果/结论]实验结果显示,本文所搭建的集群具有良好的运行效率、正确性以及可扩展性,Spark集群在处理海量文本情感分析数据时更具有效率优势,且在数据规模越大的情况下,效率优势越明显;在资源利用方面,随着节点数和核数的增加,集群的整体运行效率变化显著,配置5个4核4G内存的从节点,能够实现在高效完成分类任务的同时达到节约资源成本的效果。

  • 突发公共卫生事件中微博谣言的识别

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 在"新冠"疫情这类突发公共卫生事件中,网络社交媒体上迅速产生大量关于疫情的言论,其中包含不少蓄意传播的谣言,不仅危害公众心理健康,而且会影响应对公共卫生事件的方案实施。识别突发公共卫生事件的谣言能够使民众正确面对危机,为社会安定、网络治理起到积极的维护作用。[方法/过程] 首先对采集到的疫情期间已被证实的谣言进行深度分析,提取谣言文本的主要特征,包括上下文特征、话题类别特征、情感程度特征、关键词特征等;然后针对文本分类模型中的文本特征表达较为单一的问题,利用不同的模型对提取的谣言文本特征进行向量化,并对各类文本特征进行加强和融合。其中通过TF-IDF计算的词向量权重在捕获上下文特征的同时,能够加强词粒度的关键词特征信息。最后,使用BiLSTM+DNN模型对融合的特征向量进行分类判别。[结果/结论] 实验结果表明,话题类别、情感程度等特征对谣言识别均有贡献,特别是经过强化后的词向量与其他特征融合后对识别准确率有明显提升,召回率、F1值等指标均达到90%以上,效果超过其他的谣言识别模型,说明笔者所构建的方法能够很好地实现对突发公共卫生事件背景下的谣言识别。

  • 基于多特征融合的金融领域科研合作推荐 研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】科研合作关系是一种重要的社会网络。为了促进科研合作, 提高科研生产率, 对金融领域的科研 合作推荐模型进行研究。【方法】建立金融领域个人、机构和区域三个层面的科研合作网络, 提出一种新的融合 基于邻居节点和基于路径的网络特征的科研合作推荐模型, 并从个人、机构和区域三个层面进行实证检验。【结 果】通过对 2000 年到 2014 年刊载的 68 905 篇金融领域的文章进行分析并构建科研合作网络, 在个人、机构和 区域三个层面上, 基于特征融合的链接预测方法的 AUC 值分别为 84.25%、87.34%和 91.84%, 均高于基于邻居 节点的算法和基于路径的算法的 AUC 值。【局限】在进行训练集和测试集选取的时候只按时间进行切分, 有待 使用更多的切分方式对实验结果进行优化。【结论】本文有助于金融科研领域的个人、机构和区域寻求合作对象, 为进行科研网络的研究以及科研合作推荐的学者提供新的研究方法和思路。

  • 基于深度表示学习的跨领域情感分析

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过在标注资源丰富的源领域中学习, 并将目标领域的文档投影到与源领域相同的特征空间中去, 从而解决目标领域因数据量较小难以获得好的分类模型的问题。【方法】选择亚马逊在线购物网站在书籍、DVD 和音乐类目下的中文、英文和日文评论作为实验数据, 在卷积神经网络和结构对应学习的基础上提出跨领域深 度表示模型(CDDRM), 以实现不同领域环境下的知识迁移, 并将其应用到跨领域情感分析任务之中。【结果】实 验结果表明, CDDRM 在跨领域环境下最优的 F 值达到 0.7368, 证明了该模型的有效性。【局限】CDDRM 针对长 文本的跨领域情感分类 F 值仍然有待提升。【结论】知识迁移能够解决监督学习在小数据集上难以获得好的分类 效果的问题, 与传统监督学习的基本假设相比, 它并不要求训练集和测试集服从相同或相似的数据分布。

  • 基于多特征融合的金融领域科研合作推荐 研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】科研合作关系是一种重要的社会网络。为了促进科研合作, 提高科研生产率, 对金融领域的科研 合作推荐模型进行研究。【方法】建立金融领域个人、机构和区域三个层面的科研合作网络, 提出一种新的融合 基于邻居节点和基于路径的网络特征的科研合作推荐模型, 并从个人、机构和区域三个层面进行实证检验。【结 果】通过对 2000 年到 2014 年刊载的 68 905 篇金融领域的文章进行分析并构建科研合作网络, 在个人、机构和 区域三个层面上, 基于特征融合的链接预测方法的 AUC 值分别为 84.25%、87.34%和 91.84%, 均高于基于邻居 节点的算法和基于路径的算法的 AUC 值。【局限】在进行训练集和测试集选取的时候只按时间进行切分, 有待 使用更多的切分方式对实验结果进行优化。【结论】本文有助于金融科研领域的个人、机构和区域寻求合作对象, 为进行科研网络的研究以及科研合作推荐的学者提供新的研究方法和思路。

  • 基于深度表示学习的跨领域情感分析

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过在标注资源丰富的源领域中学习, 并将目标领域的文档投影到与源领域相同的特征空间中去, 从而解决目标领域因数据量较小难以获得好的分类模型的问题。【方法】选择亚马逊在线购物网站在书籍、DVD 和音乐类目下的中文、英文和日文评论作为实验数据, 在卷积神经网络和结构对应学习的基础上提出跨领域深 度表示模型(CDDRM), 以实现不同领域环境下的知识迁移, 并将其应用到跨领域情感分析任务之中。【结果】实 验结果表明, CDDRM 在跨领域环境下最优的 F 值达到 0.7368, 证明了该模型的有效性。【局限】CDDRM 针对长 文本的跨领域情感分类 F 值仍然有待提升。【结论】知识迁移能够解决监督学习在小数据集上难以获得好的分类 效果的问题, 与传统监督学习的基本假设相比, 它并不要求训练集和测试集服从相同或相似的数据分布。