Agentic RL - Ran's blog

多轮长轨交互任务的agentic RL训练框架（3）

RAGEN:Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning（preprint 查不到发哪了）

https://github.com/mll-lab-nu/RAGEN
提出StarPO&RAGEN，针对多轮长轨交互任务的agentic RL训练框架

Partial Rollout（3）

APRIL: ACTIVE PARTIAL ROLLOUTS IN REINFORCEMENT LEARNING TO TAME LONG-TAIL GENERATION

大规模Agent训练框架– Agent Lightning（1）

关注其中的Agent Layer概念，即如何通过一个中间层实现训练引擎与环境执行解耦；了解其支持128块GPU规模并行的架构设计，包括远程环境执行服务、统一轨迹格式、容器化沙盒管理等。特别留意该框架如何做到训练器与代理实现解耦，从而无需为每种agent重写训练代码。这部分阅读将帮助理解分布式调度的系统实现，例如任务如何在多节点间负载均衡、故障如何容错等，对我们搭建高性能训练基架非常有益。

https://github.com/microsoft/agent-lightning

https://arxiv.org/pdf/2508.03680

大规模Agent训练框架– skyrl

https://arxiv.org/pdf/2511.16108

verl

https://github.com/volcengine/verl

论文：HybridFlow: A Flexible and Efficient RLHF Framework（EuroSys 2025）

verl是HybridFlow的开源版本

https://arxiv.org/pdf/2409.19256

Step-wise reward 对局部奖励的设计（2）

Free Process Rewards Without Process Labels（ICML 2025）

https://arxiv.org/pdf/2412.01981

AGENTIC REINFORCEMENT LEARNING WITH IMPLICIT STEP REWARDS（ICLR 2026在投）

https://arxiv.org/pdf/2509.19199

kimi K2技术报告：3.2.2节

Kimi K2在RL阶段引入了自评打分（rubric）作为奖励的一部分

https://ar5iv.labs.arxiv.org/html/2507.20534

工具使用策略优化（2）

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning（COLM 2025在投）
https://arxiv.org/pdf/2503.09516

https://github.com/PeterGriffinJin/Search-R1