您选择的条件: 田丰收
  • 基于序列比对算法的中文文本相似度计算研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程] 首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵;最后,基于打分矩阵和改进的打分规则,对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解,回溯该最优解,获取最优解的比对路径,计算两中文序列的相似度。[结果/结论] 实验结果表明,相较于目前全局比对算法的相关研究,本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性,同时,应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。

  • 新疆和田地区耕地面源污染生态风险评价

    分类: 环境科学技术及资源科学技术 >> 环境科学技术基础学科 提交时间: 2019-03-07 合作期刊: 《干旱区地理》

    摘要: 随着化肥、农膜等在农业生产中的过量投入,耕地面源污染的程度随之加重。文章选取塔里木河流域上游和田地区为研究区域,依据P-S-R框架理论,构建和田地区耕地面源污染生态风险评价指标体系,加入土壤理化数据,使用生态风险评价模型对和田地区1980 年及2016 年耕地面源污染状况进行生态风险评价,运用耕地生态风险模型、生态风险转移矩阵、Arcgis分析和田地区耕地面源污染时空分异状况。研究结论如下:和田地区1980 年耕地生态风险等级均为II级或III级,呈“中间高,两侧低”分布;2016 年耕地生态风险等级上升至IV级或V级,呈“倒W型”分布,各县耕地面源污染程度较1980 年均有较大幅度的上升,其中墨玉县和于田县在2016 年耕地生态风险等级达到最高的V级,而民丰县因自身生态环境的强脆弱性,同样需要提高关注。根据面源污染“从源头治理”的原则,应切实推进和田地区耕地生态环境保护与治理,提高政府重视程度,增强技术指导,开展试点工作,改善和田地区耕地面源污染现状。