• 基于机器学习的冠心病风险预测模型构建与比较

    分类: 医学、药学 >> 临床医学 提交时间: 2024-04-24 合作期刊: 《中国全科医学》

    摘要: 背景 冠状动脉粥样硬化性心脏病(Coronary atherosclerotic heart disease,CHD)(以下简称冠心病)是全球重要的死亡原因之一。目前关于冠心病风险评估的研究在逐年增长。然而,在这些研究中常忽略了数据不平衡的问题,而解决该问题对于提高分类算法中识别冠心病风险的准确性至关重要。目的 探索冠心病的影响因素,通过使用 2 种平衡数据的方法,基于 5 种算法建立冠心病风险相关的预测模型,比较这 5 种模型对冠心病风险的预测价值。方法 基于 2021 年美国国家行为风险因素监测系统(Behavioral Risk Factor Surveillance System,BRFSS)横断面调查数据筛选出 112 606 位研究对象的健康相关风险行为、慢性健康状况等 24 个变量信息,结局指标为自我报告是否患有冠心病并据此分为冠心病组和非冠心病组。通过进行单因素分析和逐步 Logistic 回归分析探索冠心病发生的影响因素并筛选出纳入预测模型的变量。随机抽取 112 606 位受访者的 10%(共计 11 261 名),以 8:2 的比例随机划分为训练与测试的数据集,采用随机过采样(Random oversampling)和合成少数过采样技术(Synthetic Minority Over-samplingTechnique,SMOTE)两种过采样(Over-sampling)的方法处理不平衡数据,基于 k 最邻近算法(K-Nearest Neighbor,KNN)、Logistic 回归、支持向量机(Support Vector Machine,SVM)、决策树和 XGBoost 算法分别建立冠心病预测模型。结果 两组年龄、性别、BMI、种族、婚姻状态、教育水平、收入水平、是否被告知患高血压、是否被告知患处于高血压前期、是否被告知患妊娠高血压、现在是否在服用高血压药物、是否被告知患有高血脂、是否被告知患有糖尿病、抽烟情况、过去 30 d 内是否至少喝过 1 次酒、是否为重度饮酒者、是否为酗酒者、过去 30 d 内是否有体育锻炼、心理健康状况以及自我健康评价比较,差异有统计学意义(P<0.05)。逐步 Logistic 回归分析结果显示:年龄、性别、BMI 水平、种族、教育水平、收入水平、是否被告知患高血压、是否被告知患处于高血压前期、是否被告知患妊娠高血压、现在是否在服用高血压药物、是否被告知患有高血脂、是否被告知患有糖尿病、抽烟情况、过去 30 天内是否至少喝过一次酒、是否为重度饮酒者、是否为酗酒者以及自我健康评价为冠心病的影响因素(P<0.05)。风险模型构建的分析结果显示:k 最邻近算法、Logistic 回归、支持向量机、决策树和 XGBoost 采用合成少数过采样技术处理不平衡数据的总体分类精度分别为 59.2%、67.4%、66.2%、69.2% 和 85.9%;召回率分别为 75.2%、71.4%、70.5%、62.9%和 34.8%;精确度分别为 15.4%、18.2%、17.5%、17.6% 和 28.7%;F 值分别为 0.256、0.290、0.280、0.275 和 0.315;AUC 分别为 0.80、0.78、0.72、0.72 和 0.82;采用随机过采样处理不平衡数据的总体分类精度分别为 62.5%、68.5%、69.0%、60.2% 和 70.1%; 召 回 率 分 别 为 70.0%、69.5%、71.9%、69.0% 和 67.6%; 精 确 度 分 别 为 15.8%、18.4%、19.1%、14.8% 和 19.0%;F值分别为 0.258、0.291、0.302、0.244 和 0.297;受试者工作特征曲线下面积分别为 0.80、0.77、0.72、0.72 和 0.83。结论 本研究不仅确认了已知冠心病的影响因素,还发现了自我健康评价水平、收入水平和教育水平对冠心病具有潜在影响。在使用 2 种数据平衡方法后,5 种算法的性能显著提高。其中 XGBoost 模型表现最佳,可作为未来优化冠心病预测模型的参考。此外,鉴于 XGBoost 模型的优异性能以及逐步 Logistic 回归的操作便捷和可解释性,推荐在冠心病风险预测模型中,结合使用数据平衡后的 XGBoost 和逐步 Logistic 回归分析。

  • 刈割对滇西北退化高寒草甸植物化学计量特征的影响

    分类: 生物学 >> 植物学 >> 应用植物学 提交时间: 2024-02-07 合作期刊: 《广西植物》

    摘要: 为探究环境干扰对退化高寒草甸植物化学计量特征的影响,本研究于2018~2020 年对 香格里拉市三个退化程度(轻度退化LD、中度退化MD、重度退化SD)的高寒草甸开展刈 割试验,进而分析退化高寒草甸植物C、N、P 含量、C:N:P 比和N-P 幂函数关系在不同刈 割年限(0、1、2 a)之间的差异。结果表明:(1)除莎草科植物P 含量外,草甸植物群落、 禾本科植物和杂类草的C、N、P 含量在退化梯度间无显著差异(P>0.05)。随刈割年限增 加,退化草甸植物C、N、P 含量呈先增后降的趋势(P<0.05)。(2)草甸植物C:N 比和C:P 比在退化梯度间无差异(P>0.05)。从LD 到SD,植物群落、莎草科植物和杂类草的N:P 比先小幅下降再显著上升(P<0.05),禾本科植物的N:P 比未发生显著变化(P>0.05)。(3) 随刈割年限增加,草甸植物的C:N 比和C:P 比呈先降后增、N:P 呈先增后降的趋势。刈割0 a 时,莎草科植物的C:P 比和N:P 比显著高于杂类草(P<0.05),与群落和禾本科植物无差 异(P>0.05);刈割1 a 和2 a 时,莎草科植物的C:P 比和N:P 比高于群落和其他功能群(P <0.05);在各刈割年限,群落和各功能群植物间的C:N 比无差异(P>0.05)。4)随刈割年 限增加,退化草甸植物的N-P 幂函数关系由弱变强、幂指数趋于稳定。莎草科植物的N-P 幂指数(小于0.1)与植物群落、禾本科和杂类草的幂指数(稳定在0.19~0.22)明显不同。 本研究发现,刈割干扰下退化高寒草甸植物生态化学计量特征在退化梯度间差异不大,但其 随刈割年限增加发生显著变化,这说明滇西北不同退化程度高寒草甸对刈割干扰可能具有相 似的响应过程。