分类: 计算机科学 >> 计算机科学技术其他学科 提交时间: 2023-01-17
摘要: 云计算可解决移动设备计算资源不足的问题,但无法满足低时延的服务需求,边缘计算作为云计算技术的延伸,可通过增强边缘网络计算能力从而为用户提供低时延高质量服务。边缘计算中,需要将服务部署于资源受限的边缘服务器,并根据需求合理分配计算资源,以提高边缘服务器资源利用率,为此,本文提出了一种基于深度强化学习的服务资源分配方法,利用反正切函数两次映射建立计算资源分配函数,并实现分配比例的动态调整,最后基于真实数据集进行仿真实验,实验结果表明,本文提出的方法能够在保证低时延的情况下,合理分配计算资源。 云计算可解决移动设备计算资源不足的问题,但无法满足低时延的服务需求,边缘计算作为云计算技术的延伸,可通过增强边缘网络计算能力从而为用户提供低时延高质量服务。边缘计算中,需要将服务部署于资源受限的边缘服务器,并根据需求合理分配计算资源,以提高边缘服务器资源利用率,为此,本文提出了一种基于深度强化学习的服务资源分配方法,利用反正切函数两次映射建立计算资源分配函数,并实现分配比例的动态调整,最后基于真实数据集进行仿真实验,实验结果表明,本文提出的方法能够在保证低时延的情况下,合理分配计算资源。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: 针对航迹探测领域中探测器获得的目标地理位置通常是同一帧下无法区分的多目标场景,需要利用目标位置信息还原各航迹并区分各目标的问题进行研究,提出采用深度强化学习方法复原目标航迹的方法。依据目标航迹的物理特点,提取数学模型,结合目标航迹的方向、曲率等提出轨迹曲率圆(trajectory osculating circle,TOC)奖励函数,使深度强化学习能够有效复原多目标航迹并区分各目标。首先描述多目标航迹复原问题,并将问题建模成深度强化学习能够处理的模型;结合TOC奖励函数对多目标航迹复原问题进行实验;最后给出该奖励函数的数学推导和物理解释。实验结果表明,TOC奖励函数驱动下的深度强化网络能够有效还原目标的航迹,在航向和航速方面切合实际目标航迹。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-10 合作期刊: 《计算机应用研究》
摘要: 目前对于随机工期的分布式资源受限多项目调度(SDRCMPSP)问题的研究较少且大多数为静态调度方案,无法针对环境的变化实时地对策略进行调整优化,及时响应频繁发生的动态因素。为此建立了最小化总拖期成本为目标的随机资源受限多项目动态调度DRL模型,设计了相应的智能体交互环境,采用强化学习中的DDDQN算法对模型进行求解。实验首先对算法的超参数进行灵敏度分析,其次将最优组合在活动工期可变和到达时间不确定两种不同条件下对模型进行训练及测试,结果表明深度强化学习算法能够得到优于任意单一规则的调度结果,有效减少随机资源受限多项目期望总拖期成本,多项目调度决策优化提供良好的依据。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-10 合作期刊: 《计算机应用研究》
摘要: 在第五代移动通信中,网络切片被用来为各种业务提供一个最佳的网络。针对多基站下的RAN切片场景,以往的资源分配方法在切片的数量发生变化时无法满足切片的需求而且只适用于特定的场景,针对这个问题,提出了一种实现最佳资源分配且与切片数无关的方法。该方法先利用Ape-X方法(一种DRL方法)将资源分配给切片,再经过切片到基站的资源映射和用户资源分配来满足用户的需求。仿真结果表明,所提出的方法能够根据切片的状态和需求分配资源,分配了必要数量的RB以满足切片的需求而且不受切片数量变化的影响。同时,该方法也具有很高的通用性能和扩展性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-10 合作期刊: 《计算机应用研究》
摘要: 针对由于生鲜产品的易逝性特征以及复杂多变的现实环境导致生鲜产品的最优订货和定价策略难以获得问题,提出了基于深度强化学习方法的生鲜产品联合库存控制与动态定价方法,结合生鲜产品特性对问题进行建模并定义为马尔可夫决策过程,然后基于深度强化学习设计了生鲜品联合库存控制和动态定价算法。实验结果表明,基于深度强化学习的联合库存控制和动态定价策略收益表现最佳,因此,基于深度强化学习的联合库存控制和动态定价研究能够提高企业收益,有效促进强化学习在收益管理领域的落地,具有实际应用价值。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-04-07 合作期刊: 《计算机应用研究》
摘要: 新起的智能交通系统在改善交通流量,优化燃油效率,减少延误和提高整体驾驶经验方面有望发挥重要作用。现今,交通拥堵是困扰人类的的一个极其严重的问题,特别是一些城市交通密集的十字路口处可能会更加的严重。对信号控制系统的奖励机制进行了改进,将所有路口共享奖励的机制改进为每个交叉口共享唯一的奖励,并且通过密集采样策略与多路口信号控制相结合的方式,运用时下热门的深度强化学习来解决交通信号灯配时问题。仿真实验都是基于现在国际主流的交通模拟软件(SUMO)完成,从实验结果表明,改进后的深度强化学习多路口信号控制方法相较于传统强化学习方法控制效果更佳。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》
摘要: 利用出租车司机经验,提出约束深度强化学习算法(CDRL)在线计算不同时间段内OD间最快路线。首先,描述了路段经验数据库(ERSD)的提取。然后,介绍了CDRL方法,该方法主要包括两个阶段:可选择约束路段生成和深度Q-learning算法,在第一阶段,生成OD(起终点)间可选择约束路段;在第二阶段,设计深度Q-learning算法学习出租车司机的经验,并根据他们的出发时间计算给定OD间的最快路线。最后,在广州CBD进行了应用实验。结果表明,CDRL方法计算在旅行时间上,优于最短路径(SR)方法,且与最快路径(FR)方法计算路径差别不大。此外,CDRL方法在计算效率方面明显优于FR和SR方法,因此更适合OD间最快路径在线计算。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-18 合作期刊: 《计算机应用研究》
摘要: 为提高多车场车辆路径问题(Multi-Depot Vehicle Routing Problem,MDVRP)的求解效率,提出了端到端的深度强化学习框架。首先,将MDVRP建模为马尔可夫决策过程(Markov Decision Process,MDP),包括对其状态、动作、收益的定义。同时,提出了改进图注意力网络(Graph Attention Network,GAT)作为编码器对MDVRP的图表示进行特征嵌入编码,设计了基于Transformer的解码器。并采用改进REINFORCE算法来训练该模型。该模型不受图的大小约束,即其一旦完成训练,就可用于求解任意车场和客户数量的算例问题。最后,通过随机生成的算例和公开的标准算例验证了所提出框架的可行性和有效性。即使在求解客户节点数为100的MDVRP上,经训练的模型平均仅需2毫秒即可得到与现有方法相比更具优势的解。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-04-07 合作期刊: 《计算机应用研究》
摘要: 深度强化学习(Deep Reinforcement Learning,DRL)可广泛应用于城市交通信号控制领域,但在现有研究中,绝大多数的DRL智能体仅使用当前的交通状态进行决策,在交通流变化较大的情况下控制效果有限。文中提出一种结合状态预测的DRL信号控制算法。首先,利用独热编码设计简洁且高效的交通状态;然后,使用长短期记忆网络(Long Short-Term Memory,LSTM)预测未来的交通状态;最后,智能体根据当前状态和预测状态进行最优决策。在SUMO(Simulation of Urban Mobility)仿真平台上的实验结果表明,在单交叉口、多交叉口的多种交通流量条件下,与三种典型的信号控制算法相比,所提算法在平均等待时间、行驶时间、燃油消耗、CO2排放等指标上都具有最好的性能。