规划

Relative Entropy Pathwise Policy Optimization

2026-04-14arxiv.org

提出相对熵路径策略优化算法,显著提升强化学习在智能体决策中的稳定性。

值得记下

突破传统策略优化瓶颈,以路径级熵约束大幅提升智能体复杂决策的稳定性。

阅读原文

内容来源:arxiv.org,版权归原作者所有