多轮长轨交互任务的agentic RL训练框架(3)
RAGEN:Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning(preprint 查不到发哪了)
https://github.com/mll-lab-nu/RAGEN
提出StarPO&RAGEN,针对多轮长轨交互任务的agentic RL训练框架
Partial Rollout(3)
APRIL: ACTIVE PARTIAL ROLLOUTS IN REINFORCEMENT LEARNING TO TAME LONG-TAIL GENERATION
大规模Agent训练框架– Agent Lightning(1)
关注其中的Agent Layer概念,即如何通过一个中间层实现训练引擎与环境执行解耦;了解其支持128块GPU规模并行的架构设计,包括远程环境执行服务、统一轨迹格式、容器化沙盒管理等。特别留意该框架如何做到训练器与代理实现解耦,从而无需为每种agent重写训练代码。这部分阅读将帮助理解分布式调度的系统实现,例如任务如何在多节点间负载均衡、故障如何容错等,对我们搭建高性能训练基架非常有益。
https://github.com/microsoft/agent-lightning
https://arxiv.org/pdf/2508.03680
大规模Agent训练框架– skyrl
https://arxiv.org/pdf/2511.16108
verl
https://github.com/volcengine/verl
论文:HybridFlow: A Flexible and Efficient RLHF Framework(EuroSys 2025)
verl是HybridFlow的开源版本
https://arxiv.org/pdf/2409.19256
Step-wise reward 对局部奖励的设计(2)
Free Process Rewards Without Process Labels(ICML 2025)
https://arxiv.org/pdf/2412.01981
AGENTIC REINFORCEMENT LEARNING WITH IMPLICIT STEP REWARDS(ICLR 2026在投)
https://arxiv.org/pdf/2509.19199
kimi K2技术报告:3.2.2节
Kimi K2在RL阶段引入了自评打分(rubric)作为奖励的一部分
https://ar5iv.labs.arxiv.org/html/2507.20534
工具使用策略优化(2)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(COLM 2025在投)
https://arxiv.org/pdf/2503.09516
https://github.com/PeterGriffinJin/Search-R1