分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】建立结合多种特征的条件随机场模型, 探索从大型生物医学文本中同时自动提取化学物质和疾病实体的方法。【方法】结合命名实体识别特征, 包括词法特征、领域知识特征、词典匹配特征和无监督学习特征等, 比较不同特征对命名实体识别的效果, 并优化模型。【结果】CRF 模型纳入词法特征、词典匹配特征、无监督学习特征和部分领域知识特征, 化学物质识别准确率97.33%、召回率80.76%、F 值8.27%, 疾病实体识别准确率为84.20%、召回率为81.96%、F值为83.07%。【局限】同时识别化学物质和疾病实体可能存在互相干扰, 删除的部分领域特征可能含有有用信息。【结论】本研究可为生物医学命名实体识别的特征选择提供参考, 同时仍需优化特征以获得更好的识别效果。