Current Location:home > Browse

1. chinaXiv:201712.01378 [pdf]

基于多特征多分类器集成的专利自动分类 研究*

贾杉杉; 刘 畅; 孙连英; 刘小安; 彭 涛
Subjects: Library Science,Information Science >> Information Science

【目的】为了准确地给专利申请书分配 IPC 分类号, 本文提出一种基于多特征多分类器集成的专利自动分 类方法。【方法】使用从专利申请书中提取的全词典 TFIDF 特征、信息增益词典 TFIDF 特征、段落向量特征、 主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost 分类器, 以此构建特征–类别矩阵, 并结合 F1 权重矩阵集成, 获得最终 IPC 预测分类号。【结果】对 2014 年–2016 年“发动机或泵”领域的 10 个小类进行分 类, 使用 Top Prediction、All Categories 和 Two Guesses 三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。 【局限】训练仅仅使用了 2014 年–2016 年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文 方法能够有效地提高专利文本分类的准确率。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits1017Downloads655 Comment 0

2. chinaXiv:201712.01597 [pdf]

基于多特征多分类器集成的专利自动分类 研究*

贾杉杉; 刘 畅; 孙连英; 刘小安; 彭 涛
Subjects: Library Science,Information Science >> Information Science

【目的】为了准确地给专利申请书分配 IPC 分类号, 本文提出一种基于多特征多分类器集成的专利自动分 类方法。【方法】使用从专利申请书中提取的全词典 TFIDF 特征、信息增益词典 TFIDF 特征、段落向量特征、 主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost 分类器, 以此构建特征–类别矩阵, 并结合 F1 权重矩阵集成, 获得最终 IPC 预测分类号。【结果】对 2014 年–2016 年“发动机或泵”领域的 10 个小类进行分 类, 使用 Top Prediction、All Categories 和 Two Guesses 三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。 【局限】训练仅仅使用了 2014 年–2016 年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文 方法能够有效地提高专利文本分类的准确率。

submitted time 2017-11-30 From cooperative journals:《数据分析与知识发现》 Hits1052Downloads668 Comment 0

  [1 Pages/ 2 Totals]