• 基于BERT 和深度主动学习的农业新闻文本分类方法

    分类: 其他 >> 综合 提交时间: 2023-03-31 合作期刊: 《农业图书情报学报》

    摘要: [目的/ 意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过 高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选 择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/ 过程]将文本分类 常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT 模型结合3 种采样策略进行深度主动学习训练,在共 19 847 条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30 个样本标注的迭代实验进行测试。[结果/ 结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT 模型配合判别性主动学习采样函 数,具有最优的新闻文本分类效果和最低的标注数据需求。