您当前的位置:首页 > 论文浏览

1. chinaXiv:201712.01378 [pdf]

基于多特征多分类器集成的专利自动分类 研究*

贾杉杉; 刘 畅; 孙连英; 刘小安; 彭 涛
分类: 图书馆学、情报学 >> 情报学

【目的】为了准确地给专利申请书分配 IPC 分类号, 本文提出一种基于多特征多分类器集成的专利自动分 类方法。【方法】使用从专利申请书中提取的全词典 TFIDF 特征、信息增益词典 TFIDF 特征、段落向量特征、 主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost 分类器, 以此构建特征–类别矩阵, 并结合 F1 权重矩阵集成, 获得最终 IPC 预测分类号。【结果】对 2014 年–2016 年“发动机或泵”领域的 10 个小类进行分 类, 使用 Top Prediction、All Categories 和 Two Guesses 三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。 【局限】训练仅仅使用了 2014 年–2016 年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文 方法能够有效地提高专利文本分类的准确率。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量257下载量182 评论 0

2. chinaXiv:201712.01597 [pdf]

基于多特征多分类器集成的专利自动分类 研究*

贾杉杉; 刘 畅; 孙连英; 刘小安; 彭 涛
分类: 图书馆学、情报学 >> 情报学

【目的】为了准确地给专利申请书分配 IPC 分类号, 本文提出一种基于多特征多分类器集成的专利自动分 类方法。【方法】使用从专利申请书中提取的全词典 TFIDF 特征、信息增益词典 TFIDF 特征、段落向量特征、 主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost 分类器, 以此构建特征–类别矩阵, 并结合 F1 权重矩阵集成, 获得最终 IPC 预测分类号。【结果】对 2014 年–2016 年“发动机或泵”领域的 10 个小类进行分 类, 使用 Top Prediction、All Categories 和 Two Guesses 三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。 【局限】训练仅仅使用了 2014 年–2016 年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文 方法能够有效地提高专利文本分类的准确率。

提交时间: 2017-11-30 来自合作期刊:《数据分析与知识发现》 点击量248下载量174 评论 0

  [1 页/ 2 条记录]