• 基于XGBoost的单脉冲信号识别研究

    分类: 天文学 >> 天文学 提交时间: 2021-06-18 合作期刊: 《天文研究与技术》

    摘要: 脉冲星搜寻是射电天文学领域的重要研究方向,随着大型射电望远镜的不断建设和发展,采集的数据呈指数级增长,如何及时从快速获取的海量数据中准确识别出脉冲星信号成为当前面临的巨大挑战。本文以LOFAR联合阵列巡天项目的观测数据为例,设计了针对单脉冲信号识别的10个特征变量,进一步研究了XGBoost结合包裹式特征选择法在单脉冲信号识别中的应用,并对比分析了GBDT、AdaBoost、随机森林和BP神经网络等模型对单脉冲信号识别的实验效果。实验结果表明,XGBoost结合包裹式特征选择法在单脉冲信号识别方面更具综合优势,其误分类率最低,同时分类结果的精确率、召回率与F1-score值都最高,平均高出其它模型1到2个百分点。从特征选择上来说,有九个特征被选为最优特征。本研究设计的特征变量和识别方法可为我国开展以FAST探测信号为主的脉冲星搜寻提供方法和技术参考。

  • 融合协同过滤的XGBoost推荐算法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》

    摘要: 在推荐系统中,针对用户的冷启动问题,提出一种融合协同过滤的XGBoost推荐算法。根据基于用户相似度的协同过滤推荐算法进行粗粒度召回,得到部分用户的召回集,使用XGBoost算法对召回集中的项目进行预测。对于存在冷启动问题的用户,直接使用XGBoost算法对候选集中的项目进行预测。该算法采用CCIR2018个性化推荐评测的在线评测数据集,并将推荐结果投放到知乎提供的线上平台进行评测。评测结果表明,该算法可以地解决用户的冷启动问题,具有很高的执行效率,准确度高,在线上评测中取得显著的推荐效果,并获得三等奖。

  • 融合协同过滤和XGBoost的推荐算法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》

    摘要: 协同过滤是信息过滤和推荐系统中应用最广泛的技术,但是在数据处理中存在数据稀疏问题,影响推荐算法的准确性。提出融合协同过滤和XGBoost的推荐算法,根据用户对项目的评价以及项目本身所具备的自身特点,挖掘项目和用户的潜在关系,提高算法的推荐准确性。采用百度深度学习框架PaddlePaddle在Book-Crossings数据集上进行实验,实验结果表明,提出的算法和文献中两种算法相比,准确性有显著提升。

  • 基于SSA-XGBoost模型的高精度密度预测方法研究

    分类: 核科学技术 >> 核科学技术其他学科 提交时间: 2024-04-25

    摘要: 复杂岩性井段对密度测井数据精度要求很高,传统的计算模型不能很好的满足此时的高精度要求。为此提出利用机器学习回归预测模型提高密度测井曲线的精度,考虑到XGBoost模型的过拟合问题,基于SSA算法改进XGBoost进而提出了SSA-XGBoost密度预测模型。采用蒙特卡罗模拟双探测器密度测井仪器,获取不同密度地层数据以验证该模型的预测效果。利用SSA算法优化SVR、RFR和LSTM参数,构建SSA-SVR、SSA-RFR和SSA-LSTM模型预测模拟地层密度,并使用量化评价指标和泰勒图模型对比分析各个模型的预测性能。此外,还分析了不同预测模型对实际密度测井数据的预测效果。结果表明SSA-XGBoost模型的预测精度高于传统脊-肋图模型,在实际密度测井数据处理中具有广阔的应用前景。

  • 基于XGBoost模型的湟水流域耕地土壤养分遥感反演

    分类: 地球科学 >> 地理学 提交时间: 2023-11-13 合作期刊: 《干旱区地理》

    摘要: 湟水流域是河湟谷地重要的组成部分,协同环境因素预测土壤养分空间分布对农业土壤养分管理尤为重要。土壤养分反演研究中对于参数对模型结果的影响和模型适用性的研究较少。选取研究区地形因子、土壤pH及光谱反射率共28个因子,结合贝叶斯优化算法构建人工神经网络(ANN)、支持向量机(SVM)和极端梯度提升(XGBoost)3种机器学习模型预测耕地土壤养分空间分布,计算决定系数(R2)、均方根误差(RMSE)和相对分析误差(RPD)评价3种模型的精度。结果表明:(1) 基于贝叶斯优化超参数的XGBoost模型对全氮(TN)含量预测精度优于其他模型(R2=0.893,RMSE=0.359,RPD=2.470),预测土壤有机质(SOM)、速效磷(AP)和速效钾(AK)含量时,XGBoost模型验证集R2分别为0.801、0.509、0.442。(2) 对比3种模型的寻优次数和误差发现,BOA-XGBoost模型参数优化次数少、效率高,具有更好的鲁棒性。对于不同的养分,ANN和SVM模型预测精度存在差异,SVM模型预测SOM含量时精度更高(RPD=1.580),而ANN模型预测TN时精度最佳(RPD=2.460)。基于贝叶斯算法进行超参数优化构建的XGBoost模型预测精度高,可以达到良好的预测效果,可为湟水流域精准农业施肥提供参考。

  • 基于GAN+XGBoost+LR的个性化推荐方法

    分类: 计算机科学 >> 计算机应用技术 提交时间: 2023-05-16

    摘要: 目的 解决长尾商品的推荐中存在的样本数据偏少,现有协同过滤法计算量大,性能难以满足需求的问题 方法 出了基于GAN+XGBoost+LR的解决方案,通过协同过滤寻找初始样本数据,利用GAN生成更多样本数据训练XGBoost+LR模型,并针对不同模型的特点指定针对性的训练策略。 结果 该方案在兼顾性能和精确度要求下,可以提高推荐模型的鲁棒性。 局限 XGBoost模型承担自动化特征工程能力有限。 结论 基于GAN+XGBoost+LR的个性化推荐方法可以提高长尾商品的推荐的有鲁棒性。

  • 基于组合模型的交通事故严重程度预测方法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-07-23 合作期刊: 《计算机应用研究》

    摘要: 由于各个单一分类模型对道路交通事故严重程度预测的局限性,为提升模型预测性能,致力于建立一种组合模型。结合卷积神经网络提取时空维度中的特征信息,采用stacking方式将CNN与XGBoost组合,最终生成道路交通事故严重性的分类模型(多层提升算法)。实验结果表明,此模型在测试集上预测精度为91.51%,组合模型比单一分类模型具有更好的分类结果。基于组合模型的分类结果,对交通事故特征进行重要性排序,开展特征相关性分析,为减少道路交通事故及减轻道路交通事故严重等级的管理措施提供参考依据。

  • 基于XGBoost方法的社交网络异常用户检测技术

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-03 合作期刊: 《计算机应用研究》

    摘要: 针对传统的社交网络异常用户检测算法应用于现实中非平衡数据集时存在召回率低、运行效率低等问题,对社交网络数据集提取用户内容、行为、属性、关系特征,应用梯度增强集成分类器XGBoost算法进行特征选择,建立分类模型,构造非平衡数据集并识别三类垃圾广告发送账号。实验结果表明,该方法与随机森林等传统分类方法相比,对平衡及非平衡数据集进行异常用户检测均实现召回率和F1值的有效提升;选取少量特征同样可达到较高检测水平,证明了方法的有效性。

  • 基于机器学习的冠心病风险预测模型构建与比较

    分类: 医学、药学 >> 临床医学 提交时间: 2024-04-24 合作期刊: 《中国全科医学》

    摘要: 背景 冠状动脉粥样硬化性心脏病(Coronary atherosclerotic heart disease,CHD)(以下简称冠心病)是全球重要的死亡原因之一。目前关于冠心病风险评估的研究在逐年增长。然而,在这些研究中常忽略了数据不平衡的问题,而解决该问题对于提高分类算法中识别冠心病风险的准确性至关重要。目的 探索冠心病的影响因素,通过使用 2 种平衡数据的方法,基于 5 种算法建立冠心病风险相关的预测模型,比较这 5 种模型对冠心病风险的预测价值。方法 基于 2021 年美国国家行为风险因素监测系统(Behavioral Risk Factor Surveillance System,BRFSS)横断面调查数据筛选出 112 606 位研究对象的健康相关风险行为、慢性健康状况等 24 个变量信息,结局指标为自我报告是否患有冠心病并据此分为冠心病组和非冠心病组。通过进行单因素分析和逐步 Logistic 回归分析探索冠心病发生的影响因素并筛选出纳入预测模型的变量。随机抽取 112 606 位受访者的 10%(共计 11 261 名),以 8:2 的比例随机划分为训练与测试的数据集,采用随机过采样(Random oversampling)和合成少数过采样技术(Synthetic Minority Over-samplingTechnique,SMOTE)两种过采样(Over-sampling)的方法处理不平衡数据,基于 k 最邻近算法(K-Nearest Neighbor,KNN)、Logistic 回归、支持向量机(Support Vector Machine,SVM)、决策树和 XGBoost 算法分别建立冠心病预测模型。结果 两组年龄、性别、BMI、种族、婚姻状态、教育水平、收入水平、是否被告知患高血压、是否被告知患处于高血压前期、是否被告知患妊娠高血压、现在是否在服用高血压药物、是否被告知患有高血脂、是否被告知患有糖尿病、抽烟情况、过去 30 d 内是否至少喝过 1 次酒、是否为重度饮酒者、是否为酗酒者、过去 30 d 内是否有体育锻炼、心理健康状况以及自我健康评价比较,差异有统计学意义(P<0.05)。逐步 Logistic 回归分析结果显示:年龄、性别、BMI 水平、种族、教育水平、收入水平、是否被告知患高血压、是否被告知患处于高血压前期、是否被告知患妊娠高血压、现在是否在服用高血压药物、是否被告知患有高血脂、是否被告知患有糖尿病、抽烟情况、过去 30 天内是否至少喝过一次酒、是否为重度饮酒者、是否为酗酒者以及自我健康评价为冠心病的影响因素(P<0.05)。风险模型构建的分析结果显示:k 最邻近算法、Logistic 回归、支持向量机、决策树和 XGBoost 采用合成少数过采样技术处理不平衡数据的总体分类精度分别为 59.2%、67.4%、66.2%、69.2% 和 85.9%;召回率分别为 75.2%、71.4%、70.5%、62.9%和 34.8%;精确度分别为 15.4%、18.2%、17.5%、17.6% 和 28.7%;F 值分别为 0.256、0.290、0.280、0.275 和 0.315;AUC 分别为 0.80、0.78、0.72、0.72 和 0.82;采用随机过采样处理不平衡数据的总体分类精度分别为 62.5%、68.5%、69.0%、60.2% 和 70.1%; 召 回 率 分 别 为 70.0%、69.5%、71.9%、69.0% 和 67.6%; 精 确 度 分 别 为 15.8%、18.4%、19.1%、14.8% 和 19.0%;F值分别为 0.258、0.291、0.302、0.244 和 0.297;受试者工作特征曲线下面积分别为 0.80、0.77、0.72、0.72 和 0.83。结论 本研究不仅确认了已知冠心病的影响因素,还发现了自我健康评价水平、收入水平和教育水平对冠心病具有潜在影响。在使用 2 种数据平衡方法后,5 种算法的性能显著提高。其中 XGBoost 模型表现最佳,可作为未来优化冠心病预测模型的参考。此外,鉴于 XGBoost 模型的优异性能以及逐步 Logistic 回归的操作便捷和可解释性,推荐在冠心病风险预测模型中,结合使用数据平衡后的 XGBoost 和逐步 Logistic 回归分析。