分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-03 合作期刊: 《计算机应用研究》
摘要: 针对特定领域内自动化识别既有概念和发现新概念的问题,提出了一种基于条件随机场和信息熵的抽取方法。通过使用条件随机场对文本中的概念词进行边界预测,与词典中的概念对比,筛选出新概念的候选项并找出其大概位置,然后由互信息和左右熵分别判断概念窗口内的概念内部结合度和概念边界自由度,从而发现新的专业概念。实验表明,使用该方法进行概念发现比单独使用条件随机场的方法有更好的效果,基于字和词的模型概念发现的准确率分别提升了20.06%和46.54%。