您选择的条件: 2018-09-27
  • 基于代价敏感集成极限学习机的文本分类方法

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2018-09-27

    摘要: 加权极限学习机对不同类别的样本赋予不同的权值,在一定程度上提高了分类准确 率,但加权极限学习机只考虑了不同类别样本之间差异,忽视了样本噪声和同类样本之间的 差异。本文提出了一种基于文本类别信息熵的极限学习机集成方法,该方法以Adaboost.M1 为算法框架,通过文本的类内分布熵和类间分布熵生成文本类别信息熵,由文本类别信息熵 构造代价敏感矩阵,把代价敏感极限学习机集成到Adaboost.M1 框架中。实验结果表明,该 方法与其他类型的极限学习机相比较有更好的准确性和泛化性。

  • 科技期刊低被引论文的界定与评价方法探究----以《期刊引用报告》凝聚态物理学65种期刊为例

    分类: 图书馆学、情报学 >> 文献学 提交时间: 2018-09-27

    摘要: 【目的】分析基础学科期刊论文被引的分布特点,探究低被引论文区间的界定和评价方法。【方法】以SCI Expanded为数据源,65种凝聚态物理学期刊(CMJ)为研究对象,用统计学原理和文献计量学方法,比较分析论文被引频次在大于h-index、小于篇均被引Cipp、以及一个期刊的最低被引论文的累计被引频次为期刊总被引频次T的5%、10%和20%区域内论文的被引特性,以此确定CMJ最合理的低被引区。 【结果】第一,CMJ整体零被引率rN0仅为10%,可视为一个高质量的期刊集合。第二,一个期刊的最低被引论文的累计被引达到20%T的区域(Tci20%)和一个期刊中单篇被引在小于平均被引(Cicipp)的区域(Tcicipp)具有被界定为低被引区的统计学依据。第三,零被引率(rN0)、低被引率(RLC,rN x)和低被引密度(DLC,rTcix)与传统评价指标IF、h-index、Cipp以及Np、Tci不存在强相关性,满足作为独立评价指标的充分条件。【结论】第一,由rN0、RLC和DLC构成一个复合指标Evel {rN0,rN x%,rTcix%} 用来描述一个期刊的低被引特性;由h-index和特定区域内的篇均被引构成另一个复合指标Evel {h,Ci20%,Cicipp,Cih },用于期刊的被引结构特征的比较。第二,研究表明期刊被引结构可以被构形分类,而评价参数在不同被引区域有可能存在竞争优势;因此对期刊的低被引的评价要以分析被引结构为前提。期刊的综合评价应该使用多参数多维度指标。