按提交时间
按主题分类
按作者
按机构
  • 基于模型的区域PM2.5污染管控时空识别 ——以关中地区为例

    分类: 地球科学 >> 地理学 提交时间: 2022-09-26 合作期刊: 《干旱区研究》

    摘要: 以关中地区为研究区域,基于时空聚类和决策树模型提出一种简易的PM2.5污染管控时空识别方法。首先 使用时空聚类算法对冬防期PM2.5浓度进行聚类,识别不同的PM2.5污染区域,基于不同区域的气象数据分别构建决 策树模型,识别不同区域影响PM2.5浓度最不利扩散的气象条件,分析最不利气象条件下的PM2.5浓度变化情况,以此 确定各区域需要进行污染管控的时间段。结果表明:( 1)时空聚类方法识别出关中地区PM2.5分布主要呈现出低海 拔平原区域和海拔相对较高的山脉区域。( 2)决策树模型分析结果显示:高海拔区域在Ⅰ-10( 1.57 h日照时数< 7.88 h、最大风速<3.72 ms-1)和Ⅰ-11(日照时数<1.57 h、最大风速<3.72 ms-1)两类气象条件下,区域的PM2.5浓度保 持较高水平;低海拔区域在Ⅱ-10(小型蒸发量0.96 mm、平均相对湿度45.38%、日照时数<8.55 h、平均风速2.43 ms-1)和Ⅱ-11(小型蒸发量<0.96 mm)两类气象条件下,区域的PM2.5浓度保持较高水平。( 3)回归结果显示,关中地 区低海拔区域和高海拔区域在最不利气象条件下,PM2.5浓度平均会持续上升4.76 d,直至最高浓度。

  • 基于Landsat8影像时间序列NDVI的作物种植结构提取

    分类: 环境科学技术及资源科学技术 >> 环境科学技术基础学科 提交时间: 2019-08-02 合作期刊: 《干旱区地理》

    摘要: 为提高内蒙古平原灌区作物种植结构遥感监测精度和效率,提出一种基于时序NDVI曲线的作物种植结构提取方法。以内蒙古土默特右旗平原区为研究区域,以2015年覆盖作物生育期的多时相Landsat影像为数据源,根据不同地物其NDVI值范围不同,将研究区地表分为植被覆盖地表,无植被覆盖地表和水体3类。在植被覆盖区域内,根据林地和荒草地时序NDVI曲线特征,提取林地和荒草地,其余区域即为农田。根据小麦、玉米、葵花和西葫芦的时间序列NDVI曲线特征差异构建分类决策树模型,在农田区域内提取上述作物的空间种植分布信息。研究区各类地物及作物遥感提取面积与实际统计面积接近,土地利用分类总体精度达到85.71%,作物分类总体精度达到82.69%。研究结果表明该方法提取作物种植信息的精度较高,能够实现区域作物种植信息的高效准确监测。

  • 一种面向基因选择的结合Relief-F和的APSO算法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》

    摘要: 由于基因表达数据高维度、高噪声、小样本的特点,基因选择一直是肿瘤分类的一大挑战。为了提高肿瘤分类的精度,同时保证基因选择的效率,提出一种结合Relief-F和CART决策树的自适应粒子群优化(APSO)算法(R-C-APSO)。该方法首先利用Relief-F快速过滤大量无关基因和噪声,缩小基因选择范围;然后以CART决策树为适应度函数,用APSO算法对基因进行最终搜索。通过6个数据集的分析实验,实验结果表明,R-C-APSO拥有较高的分类精度和较快的基因选择速度,且具有良好的稳定性。

  • 基于的多源文献元数据融合研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 构建多源文献元数据融合模型,有助于提升文献元数据整体质量,促进资源发现系统中的元数据管理与利用,优化用户资源发现服务体验。针对笔者此前提出的文献元数据判重策略进行优化,从经验为主向自动化转变,在保障判重和融合效果的前提下,提升整个过程的自动化水平。[方法/过程] 针对不同类型文献的元数据项不一样、同一文献不同来源的元数据项不一样均会使得判重方法有所区别的情况,提出一种自动化的基于决策树的多源文献元数据融合模型,将判重问题转化为分类问题,根据特征相似度选择特征并构造决策树,在此基础上实施元数据判重及融合,并以不同类型的文献资源元数据为例进行实验,对策略进行效果验证。[结果/结论] 结果显示,对于5种文献类型元数据,判重策略的准确率均达到99%以上,召回率均达到98%以上,总体效果较好。对于融合策略的效果判断,专利、学位论文、期刊论文、会议论文、图书的元数据项质量提升比例分别为15.15%、36.80%、15.29%、52.63%、15.38%,均有明显幅度的提升。

  • 基于CART的沙地信息提取方法研究

    分类: 地球科学 >> 地球科学其他学科 提交时间: 2019-09-11 合作期刊: 《干旱区地理》

    摘要: 为研究沙地信息提取的方法,采用基于CART决策树的面向对象方法,提取中卫市沙坡头区的沙地信息。首先对研究区进行多尺度分割和光谱差异分割得到对象层,然后选择合适的提取特征和训练样本点,最后输入选择的提取特征和样本点生成CART规则树,并对地物进行分类,提取出沙地信息。结果表明:采用面向对象的CART决策树方法提取沙地信息具有较高自动化程度和精确度,依此构建的CART决策树总体分类精度可达到77%,是最近邻分类结果的1.12倍,支持向量机分类结果的1.57倍,此外,NDBI(归一化裸露指数)、GSI(粒度指数)和SWIR 2(第七波段)均值可以成功的将沙地、戈壁和裸岩石砾地三个易混地物区分开来,是沙地提取过程中三个重要的特征指数。

  • 基于并行C4.5的铁路零散白货客户流失预测研究

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》

    摘要: 为了提高铁路零散白货客户流失预测的准确性和高效性,根据铁路零散白货客户的流失特征,提出了基于CDL模型的客户流失识别方法,在此基础上,针对数据量大的问题,提出了基于Hadoop并行框架的C4.5决策树客户流失预测模型。通过仿真实验,证明该模型具有较好的准确性和预测能力,并且随着样本数量的增加,Hadoop并行框架的效率得到了明显的提升,且不影响客户流失预测模型的准确性和预测能力。

  • A study of trends in tennis matches

    分类: 统计学 >> 应用统计数学 提交时间: 2024-02-20

    摘要: 本研究旨在通过分析比赛流程,准确预测比赛中的趋势与走向的变化。为了捕捉比赛流程,我们先定义了一个 A 值,并开发了一个决策树模型。此外,我们还建立了一个非线性自回归神经网络来实现预测功能。在模型改进过程中,我们计算了皮尔逊相关系数,以衡量影响程度。结果表明,该模型相对成功地实现了预测功能。Ace数目、双失误和非受迫性失误是关键的影响因素。

  • 基于分段的移动对象轨迹简化算法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-24 合作期刊: 《计算机应用研究》

    摘要: GPS的高采样率使轨迹的数据规模巨大,在实际应用中难以处理,需要依赖轨迹简化算法对原始数据进行压缩。针对此问题,提出了一种新的基于速度分段的轨迹简化算法,即STS算法,在保留速度特征的同时保留了给定轨迹的时空特征。STS算法将速度值分组成若干间隔,将轨迹分割成速度保留段,计算各轨迹段的SED阈值,通过在每个子轨迹段上应用TD-TR算法导出简化的轨迹。通过真实的数据集进行广泛实验,验证所提出的算法比ATS算法具有更好的性能。

  • 干旱区农户灌溉方式选择的影响因素——以河北省张北县为例

    分类: 环境科学技术及资源科学技术 >> 环境科学技术基础学科 提交时间: 2020-04-26 合作期刊: 《干旱区研究》

    摘要: 对于干旱缺水的华北地区,推动节水灌溉被认为是可以有效减少农业用水的措施,近年来我国政府也加大了对该地区农业节水技术的投资力度。但由于缺乏对采用农业节水技术影响因素的深入了解,在很大程度上阻碍了节水技术的大面积推广。本文基于河北省张北县的实际调研数据,从地块特征、农户自身特征以及社会环境因素三个方面,采用多项Logit和决策树两种模型对比研究了干旱区农户选择灌溉方式的影响因素;同时构建了一般线性模型,分析了农户采用现代社区型节水技术程度的影响因素。结果表明:政府扶持是农户选择现代社区型节水技术的关键因素,其次是地块面积和家庭水浇地经营规模,但这三个因素对采用该技术程度的影响并不显著。此外,农户的年龄、受教育程度以及土壤类型对灌溉方式选择及其采用程度都具有重要影响,但农户所感知的水资源供求状况没有显著影响。

  • 基于“全评价”理论的高校图书馆热门TOP图书推荐模型研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义]构建适合大学生阅读的热门TOP图书推荐模型,为高校图书馆阅读推广提供参考。[方法/过程]通过整理、分析和挖掘国内89所高校图书馆的OPAC图书检索的数据信息,运用全评价理论体系,将层次分析法与决策树模型相结合,对高校学生的阅读倾向进行分析和评价。[结果/结论]经过预测与评价分析,证明该模型合理、准确且具有重要的现实意义。

  • 基于3S技术的天山历史云杉林空间分布的提取

    分类: 地球科学 >> 地球科学其他学科 提交时间: 2019-09-11 合作期刊: 《干旱区研究》

    摘要: 运用遥感手段结合历史时期遥感影像数据,以天山云杉 (Picea schrenkiana var. tianschanica)林生境特征为固定因子,结合植被指数分析、地形因子分析、主成分分析及面向对象的决策树分类的方法提取历史时期天山云杉林的空间分布信息,从而为历史资料缺失情境下的天然林资源保护工程实施效益评价提供支持。研究表明:① 将天山云杉林的年龄特征作为固定因子,以现状年高空间分辨率遥感影像及森林资源二类调查数据作为本底资料,在面向对象分类方法支持下可以很好的从历史时期的遥感影像中提取出天山云杉林的历史空间分布信息,提取精度可达93.3%;② 在植被指数因子中, NDVI对天山云杉林指示性最好,并确定用于天山云杉林提取的最佳NDVI值域为[0.35,0.8];③ 地形因子及主成分分析方法可以大大压缩影像的冗余信息,在提升云杉林信息提取的精度的同时提高运行速度。从整体来看,利用历史时期遥感影像并结合天山云杉林的生境特征,可以很好的提取出历史时期云杉林空间分布信息,从而为资料缺失情境下的森林资源管理措施制定及应对气候变化提供数据支持。

  • 广东省老年共病患者就医延迟行为及其影响因素研究

    分类: 医学、药学 >> 预防医学与公共卫生学 提交时间: 2024-01-11 合作期刊: 《中国全科医学》

    摘要: 背景随着我国人口老龄化的加剧,居民疾病谱发生变化,多种慢性病共存成为我国老年群体健康状况的常态。就医延迟是指个体在身体不适后由于各种主观或客观原因未能及时就医的行为,导致治疗效果下降、患者生存质量降低。目前,国内针对老年慢性病共病患者延迟就医行为及其影响因素的研究较少。目的 探讨老年慢性病共病患者延迟就医行为及其影响因素,为进一步改善老年共病患者就医延迟行为提供参考。方法 采用多阶段分层整群随机抽样法,选取2022年912月于广东省27个社区卫生服务中心就诊的符合条件的老年患者作为研究对象。采用自行设计的调查问卷收集患者的一般资料、疾病相关资料和就医延迟情况。采用多因素Logistic回归分析和基于CHAID算法的决策树模型分析老年共病患者就医延迟行为的影响因素。结果 共纳入研究对象998例,其中出现延迟就医行为243例(24.35%)。多因素Logistic回归结果显示,性别(OR=0.701,95%CI=0.504~0.977,P=0.036)、户籍类型(OR=0.590,95%CI=0.358~0.973,P=0.039)、医疗保险类型(OR=2.660,95%CI=1.764~4.010,P<0.001)、疾病相关自我效能(OR=4.378,95%CI=2.079~9.217,P<0.001)、是否签约家庭医生(OR=2.277,95%CI=1.618~3.206,P<0.001)、自评健康状况(OR=1.554,95%CI=1.073~2.250,P=0.020)是老年共病患者就医延迟行为的影响因素。决策树模型共3层,13个节点,共筛选出医疗保险类型、是否签约家庭医生、性别、自评健康状况、年龄5个影响因素。两种模型预测老年共病患者就医延迟行为的结果显示,多因素Logistic回归模型的受试者工作特征曲线下面积(AUC)为72.9%,决策树模型的AUC为72.1%。两种模型对老年共病患者就医延迟行为的预测效果的AUC比较,差异有统计学意义(Z=0.539,P=0.590)。结论 广东省老年共病患者就医延迟发生率为24.35%,医疗保险类型、家庭医生签约率、性别与疾病自评健康状况是老年共患者发生就医延迟行为的主要影响因素。应进一步完善医疗保障制度,提高家庭医生签约率与利用率,进而降低就医延迟行为发生率。

  • 基于GF-1/WFV时间序列的绿洲作物类型提取

    分类: 地球科学 >> 地球科学其他学科 提交时间: 2019-09-10 合作期刊: 《干旱区研究》

    摘要: 当前基于中等空间分辨率时序数据的农作物种植结构提取成为研究热点,但农作物季相节律特征在不同气候背景下存在较大差异,绿洲作为干旱区具有明显小气候效应的生态景观,其农作物种植结构的遥感提取具有较强的典型性和代表性。选取宁夏河套平原绿洲典型区域,通过构建高分一号(GF-1/WFV)时间序列数据,结合不同作物耕作方式及生长物候,分析不同作物在整个生长季内的归一化植被指数(NDVI)和归一化水体指数(NDWI)的时间序列特征,构建不同决策树提取研究区农作物种植结构信息,并验证了不同方法的适用性。结果表明,对具有明显小气候效应的干旱区绿洲,利用时间分辨率和空间分辨率都较优的GF1-WFV时间序列数据,对其农作物种植结构进行遥感提取具有较强的实用性和代表性。

  • 基于的敏感词变形体识别算法研究及应用

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》

    摘要: 针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1% 。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。

  • 面向光伏项目投资风险的大数据监测指标甄选研究——以Solarbao 平台为例

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】在构建光伏项目投资风险监测模型的过程中, 为了甄选面向互联网金融平台的大数据应用监测指标, 尝试提出系统的甄选方案并结合实际案例进行验证。【方法】应用大数据监测模型, 整合Solarbao 平台多源异构数据, 以专家判断为项目投资风险分析依据, 运用CHAID 决策树归纳多维监测指标组合, 并运用R-Q 型因子分析方法提炼识别投资风险的关键指标。【结果】得到8 条监测光伏项目投资风险的指标组合和10 项识别投资风险的关键指标。【局限】R-Q 型因子分析中的专业指标有待进一步细分并形成动态更新机制。【结论】该甄选方案能够满足大数据监测模型对指标采集的要求, 对投资者评估光伏项目风险、平台筛选合适项目以及监管部门排查该领域系统性风险具有借鉴意义。

  • 基于GF-1/WFV 时间序列的葡萄识别模型——以宁夏红寺堡区为例

    分类: 地球科学 >> 地球科学其他学科 提交时间: 2019-09-10 合作期刊: 《干旱区研究》

    摘要: 以宁夏红寺堡区为研究区,基于高分一号(GF-1/WFV)卫星构建葡萄生长季时间序列光谱数据,运用(Jeffreys-Matusita)(J-M)距离分析葡萄地块归一化植被指数(NDVI)时序曲线特征确定了最佳识别时相,将最佳时相的NDVI、相邻时相差值速率和曲线积分训练样本集导入Clementine数据挖掘软件中,利用C5.0决策树分类算法,并结合专家经验法构建葡萄林决策树提取模型。结果表明:构建的识别模型能够满足葡萄的识别需求,但在不同覆盖度的葡萄地块上精度有所差异;基于决策树分类的总体精度为93.71%,Kappa系数为0.91。其中,中低覆盖度葡萄林生产精度为90.82%,用户精度为88.56%;高覆盖度葡萄林生产精度为92.44%,用户精度为91.18%。

  • 基于智能手机传感器的基础行为识别方法研究

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-28 合作期刊: 《计算机应用研究》

    摘要: 为提高人类行为识别准确性的同时降低实现过程的复杂程度,提出基于智能手机加速度传感器与陀螺仪数据对六种日常基础行为进行识别的方法。在分析传感器框架的基础上,对加速度传感器进行数据采集并对原始数据进行数据预处理,然后采用主成分分析方法结合已有知识对数据统计特征进行降低维数处理,再利用机器学习算法实现对行为特征的分类与识别,目的是简化基础行为的识别过程并提高数据的利用率。实验测试结果验证了决策树与支持向量机分类器结合使用的有效性,识别准确率可接近97%。

  • 基于机器学习的冠心病风险预测模型构建与比较

    分类: 医学、药学 >> 临床医学 提交时间: 2024-04-24 合作期刊: 《中国全科医学》

    摘要: 背景 冠状动脉粥样硬化性心脏病(Coronary atherosclerotic heart disease,CHD)(以下简称冠心病)是全球重要的死亡原因之一。目前关于冠心病风险评估的研究在逐年增长。然而,在这些研究中常忽略了数据不平衡的问题,而解决该问题对于提高分类算法中识别冠心病风险的准确性至关重要。目的 探索冠心病的影响因素,通过使用 2 种平衡数据的方法,基于 5 种算法建立冠心病风险相关的预测模型,比较这 5 种模型对冠心病风险的预测价值。方法 基于 2021 年美国国家行为风险因素监测系统(Behavioral Risk Factor Surveillance System,BRFSS)横断面调查数据筛选出 112 606 位研究对象的健康相关风险行为、慢性健康状况等 24 个变量信息,结局指标为自我报告是否患有冠心病并据此分为冠心病组和非冠心病组。通过进行单因素分析和逐步 Logistic 回归分析探索冠心病发生的影响因素并筛选出纳入预测模型的变量。随机抽取 112 606 位受访者的 10%(共计 11 261 名),以 8:2 的比例随机划分为训练与测试的数据集,采用随机过采样(Random oversampling)和合成少数过采样技术(Synthetic Minority Over-samplingTechnique,SMOTE)两种过采样(Over-sampling)的方法处理不平衡数据,基于 k 最邻近算法(K-Nearest Neighbor,KNN)、Logistic 回归、支持向量机(Support Vector Machine,SVM)、决策树和 XGBoost 算法分别建立冠心病预测模型。结果 两组年龄、性别、BMI、种族、婚姻状态、教育水平、收入水平、是否被告知患高血压、是否被告知患处于高血压前期、是否被告知患妊娠高血压、现在是否在服用高血压药物、是否被告知患有高血脂、是否被告知患有糖尿病、抽烟情况、过去 30 d 内是否至少喝过 1 次酒、是否为重度饮酒者、是否为酗酒者、过去 30 d 内是否有体育锻炼、心理健康状况以及自我健康评价比较,差异有统计学意义(P<0.05)。逐步 Logistic 回归分析结果显示:年龄、性别、BMI 水平、种族、教育水平、收入水平、是否被告知患高血压、是否被告知患处于高血压前期、是否被告知患妊娠高血压、现在是否在服用高血压药物、是否被告知患有高血脂、是否被告知患有糖尿病、抽烟情况、过去 30 天内是否至少喝过一次酒、是否为重度饮酒者、是否为酗酒者以及自我健康评价为冠心病的影响因素(P<0.05)。风险模型构建的分析结果显示:k 最邻近算法、Logistic 回归、支持向量机、决策树和 XGBoost 采用合成少数过采样技术处理不平衡数据的总体分类精度分别为 59.2%、67.4%、66.2%、69.2% 和 85.9%;召回率分别为 75.2%、71.4%、70.5%、62.9%和 34.8%;精确度分别为 15.4%、18.2%、17.5%、17.6% 和 28.7%;F 值分别为 0.256、0.290、0.280、0.275 和 0.315;AUC 分别为 0.80、0.78、0.72、0.72 和 0.82;采用随机过采样处理不平衡数据的总体分类精度分别为 62.5%、68.5%、69.0%、60.2% 和 70.1%; 召 回 率 分 别 为 70.0%、69.5%、71.9%、69.0% 和 67.6%; 精 确 度 分 别 为 15.8%、18.4%、19.1%、14.8% 和 19.0%;F值分别为 0.258、0.291、0.302、0.244 和 0.297;受试者工作特征曲线下面积分别为 0.80、0.77、0.72、0.72 和 0.83。结论 本研究不仅确认了已知冠心病的影响因素,还发现了自我健康评价水平、收入水平和教育水平对冠心病具有潜在影响。在使用 2 种数据平衡方法后,5 种算法的性能显著提高。其中 XGBoost 模型表现最佳,可作为未来优化冠心病预测模型的参考。此外,鉴于 XGBoost 模型的优异性能以及逐步 Logistic 回归的操作便捷和可解释性,推荐在冠心病风险预测模型中,结合使用数据平衡后的 XGBoost 和逐步 Logistic 回归分析。

  • 科尔沁沙丘草甸相间地区土地利用与覆被识别

    分类: 地球科学 >> 地理学 提交时间: 2021-04-23 合作期刊: 《干旱区研究》

    摘要: 为了实现基于单独光学遥感数据对科尔沁沙丘草甸相间地区土地利用与覆被(LULC)类型的识别,选用2018年64景Sentinel-2影像,结合影像分割技术,利用植被物候信息和生境特征,建立了基于群落水平的LULC决策树识别规则,总体分类精度为0.91,Kappa系数为0.89。分类结果显示:研究区旱地分布面积最大,占33.79%,灌木群落次之,占25.03%,高多样性半灌木群落和乔木林相近,分别为14.54%和10%,低多样性半灌木群落、草甸地和流动沙地分别占5%左右,剩余类型的总占比小于5%。该方法不仅可以准确反映研究区覆被类型的空间分布情况,还能给出不同覆被类型的生长发育状况,可为该区域物质循环研究提供基础数据,同时为该区域历史LULC识别提供阈值参考。

  • 基于EEMD能量矩与邻域粗糙集的转子故障数据集分类方法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》

    摘要: 针对旋转机械故障辨识准确率偏低的问题,将集合经验模态分解(ensemble empirical mode decomposition,EEMD)与能量矩、邻域粗糙集(neighborhood rough set,NRS)进行结合提出一种转子系统故障模式辨识的方法。首先利用EEMD将采集到的振动故障信号自适应分解成若干个平稳的本征模态函数(intrinsic mode function,IMF)分量并计算其能量矩;以此能量矩作为描述故障状态的条件属性建立故障识别决策表,然后利用邻域粗糙集对决策表进行属性约简消除冗余的属性;最后将约简后的敏感特征子集输入所设计的决策树(decision tree,DT)C4.5 算法中进行模式识别。通过典型转子实验台的故障特征集验证了该方法的有效性。