网站Logo Ran's blog

Agentic RL

ranranranqaq
3
2025-12-18

多轮长轨交互任务的agentic RL训练框架(3)

RAGEN:Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning(preprint 查不到发哪了)

https://github.com/mll-lab-nu/RAGEN
提出StarPO&RAGEN,针对多轮长轨交互任务的agentic RL训练框架

Partial Rollout(3)

APRIL: ACTIVE PARTIAL ROLLOUTS IN REINFORCEMENT LEARNING TO TAME LONG-TAIL GENERATION

大规模Agent训练框架– Agent Lightning(1)

关注其中的Agent Layer概念,即如何通过一个中间层实现训练引擎与环境执行解耦;了解其支持128块GPU规模并行的架构设计,包括远程环境执行服务、统一轨迹格式、容器化沙盒管理等。特别留意该框架如何做到训练器与代理实现解耦,从而无需为每种agent重写训练代码。这部分阅读将帮助理解分布式调度的系统实现,例如任务如何在多节点间负载均衡、故障如何容错等,对我们搭建高性能训练基架非常有益。

https://github.com/microsoft/agent-lightning

https://arxiv.org/pdf/2508.03680

大规模Agent训练框架– skyrl

https://arxiv.org/pdf/2511.16108

verl

https://github.com/volcengine/verl

论文:HybridFlow: A Flexible and Efficient RLHF Framework(EuroSys 2025)

verl是HybridFlow的开源版本

https://arxiv.org/pdf/2409.19256

Step-wise reward 对局部奖励的设计(2)

Free Process Rewards Without Process Labels(ICML 2025)

https://arxiv.org/pdf/2412.01981

AGENTIC REINFORCEMENT LEARNING WITH IMPLICIT STEP REWARDS(ICLR 2026在投)

https://arxiv.org/pdf/2509.19199

kimi K2技术报告:3.2.2节

Kimi K2在RL阶段引入了自评打分(rubric)作为奖励的一部分

https://ar5iv.labs.arxiv.org/html/2507.20534

工具使用策略优化(2)

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(COLM 2025在投)
https://arxiv.org/pdf/2503.09516

https://github.com/PeterGriffinJin/Search-R1