您当前的位置: > 详细浏览

基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例

请选择邀稿期刊:

Research on automatic extraction of technical and function words extraction method of patent based on large model knowledge distillation: A case study in the field of Vehicle to Everything V2X

摘要: 目的 本文旨在提高专利技术功效自动化提取的准确度。 方法 使用ChatGPT作为教师模型(Teacher-model),ChatGLM3作为学生模型(Student-model),通过知识蒸馏,将ChatGPT生成的训练数据微调ChatGLM3,得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词,并采用功效词抽取模型从技术功效语段中抽取功效词。 结果 微调后的多个技术词抽取模型和功效词抽取模型相较于ChatGPT,在抽取技术词和功效词时呈现准确率高、召回率低的特点,第一权利要求的ChatGLM3微调模型的准确率和F1值最高,分别为0.734和0.724。功效词抽取模型抽取的功效词的准确率为0.649,大于商业工具标注功效词的准确率0.53。 局限 本研究的技术领域和专利语言单一,验证数据量偏小,数据清洗规则还有待于继续优化。 结论 本研究方案通过知识蒸馏操作,提升了大语言模型自动化抽取技术功效的准确性。同时,本研究能够支持从专利文本中挖掘前沿创新技术、热点技术,支撑更高质量的智能化专利分析。

版本历史

[V2] 2024-03-01 16:55:38 ChinaXiv:202402.00235V2 下载全文
[V1] 2024-02-26 11:34:06 ChinaXiv:202402.00235v1 查看此版本 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量403
  •  下载量124
评论
分享