• 基于BERT模型的科技成果中图分类自动标引方法研究

    分类: 计算机科学 >> 计算机应用技术 提交时间: 2024-06-21

    摘要: 随着深度学习预训练语言模型(PLM)的发展,人们很快将其应用于科技文献的领域分类,所能达到的效果远远超过传统自然语言处理技术在相同任务中的表现。科技成果登记数据与科技文献有相似之处,都具有高度凝练的标题,有较为详细的长文本简介,可作为基于PLM分类方法的判断依据。同时科技成果又存在其独特之处,它的简介会介绍项目来源、项目背景、应用情况、获奖情况等多方面内容,而科技文献通常高度聚焦于研究内容。这一特殊性增加了基于PLM分类方法对科技成果中图分类做出正确预测的难度。本研究中,我们以预训练BERT模型(RoBERTa)为基础,构建了科技成果中图分类自动标引系统。受生成式大语言模型解码过程的启发引入了解码策略,将原本的分类问题转化为解码问题。该方法不仅提高了预测的准确率,同时解决了以往分类模型只能局限于单一级别执行预测的问题,从而实现了业务所需的动态预测。还可针对预测链上累积概率及终端概率等设置筛选条件,根据实际业务需求在可靠性和分类细致程度之间进行取舍。