ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2024
1

按主题分类

计算机应用技术
1

按作者

按机构

中国化工信息中心有限公司
1

当前资源共 1条

隐藏摘要

点击量

时间

下载量

您选择的条件: 中国化工信息中心有限公司

1. ChinaXiv:202406.00317
下载全文

基于BERT模型的科技成果中图分类自动标引方法研究

分类：计算机科学 >> 计算机应用技术提交时间： 2024-06-21

薛钊刘千祥吴昌权李亢陈永海

摘要：随着深度学习预训练语言模型（PLM）的发展，人们很快将其应用于科技文献的领域分类，所能达到的效果远远超过传统自然语言处理技术在相同任务中的表现。科技成果登记数据与科技文献有相似之处，都具有高度凝练的标题，有较为详细的长文本简介，可作为基于PLM分类方法的判断依据。同时科技成果又存在其独特之处，它的简介会介绍项目来源、项目背景、应用情况、获奖情况等多方面内容，而科技文献通常高度聚焦于研究内容。这一特殊性增加了基于PLM分类方法对科技成果中图分类做出正确预测的难度。本研究中，我们以预训练BERT模型（RoBERTa）为基础，构建了科技成果中图分类自动标引系统。受生成式大语言模型解码过程的启发引入了解码策略，将原本的分类问题转化为解码问题。该方法不仅提高了预测的准确率，同时解决了以往分类模型只能局限于单一级别执行预测的问题，从而实现了业务所需的动态预测。还可针对预测链上累积概率及终端概率等设置筛选条件，根据实际业务需求在可靠性和分类细致程度之间进行取舍。

同行评议状态:待评议

点击量 150 下载量 46 评论 0

基于BERT模型的科技成果中图分类自动标引方法研究