分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2020-09-28 合作期刊: 《计算机应用研究》
摘要: 类别不平衡数据是指不同类别的样本数目差异很大,AUC (Area Under the ROC Curve) 是衡量不平衡数据分类器性能的一个重要指标,由于AUC不可微,研究者提出了众多替代成对损失函数优化AUC。成对损失的样本对数目为正负样本数目的乘积,大量成对损失较小的正负样本对影响了分类器的性能。针对这一问题,提出了一种加权的成对损失函数WPLoss,通过赋予成对损失较大的正负样本对更高的损失权重,减少大量成对损失较小的正负样本对的影响,进而提升分类器的性能。在20newsgroup和Reuters-21578数据集上的实验结果验证了WPLoss的有效性,表明WPLoss能够提升面向不平衡数据的分类器的性能。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: 针对航迹探测领域中探测器获得的目标地理位置通常是同一帧下无法区分的多目标场景,需要利用目标位置信息还原各航迹并区分各目标的问题进行研究,提出采用深度强化学习方法复原目标航迹的方法。依据目标航迹的物理特点,提取数学模型,结合目标航迹的方向、曲率等提出轨迹曲率圆(trajectory osculating circle,TOC)奖励函数,使深度强化学习能够有效复原多目标航迹并区分各目标。首先描述多目标航迹复原问题,并将问题建模成深度强化学习能够处理的模型;结合TOC奖励函数对多目标航迹复原问题进行实验;最后给出该奖励函数的数学推导和物理解释。实验结果表明,TOC奖励函数驱动下的深度强化网络能够有效还原目标的航迹,在航向和航速方面切合实际目标航迹。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》
摘要: 非数值化特征经常出现在数据中,对其有效编码是采用机器学习模型解决问题的关键。针对目前被广泛使用的one-hot编码方法的编码结果具有较大的稀疏性,并且编码出的数值仍然没有明确的物理意义等问题,提出一种基于条件概率的区域划分编码算法CZT(conditional-probability-based zone transformation coding)。该方法首先对特征进行条件概率计算,并依据条件概率划分特征区域,按照区域内的联合条件概率进行编码;然后将CZT编码算法与one-hot算法进行对比分析,从理论上推导并证明CZT编码对特征的压缩率至少为每个特征取值空间的平均大小,同时证明经过CZT编码后的问题具有更简单的优化目标形式,利于设计后续机器学习算法;最后通过采用相同结构的神经网络进行分类,在titanic数据集下对比CZT算法和one-hot算法编码数据后对分类器性能的影响,结果表明CZT编码的数据在分类准确率和稳定性均有提升。