Junrui Shen

Cite

Notes

Only stored in your browser.

Attribution

1papers

Authored papers

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

arXiv 2025

No known affiliations.

from 1 papers

Enyu Zhou

Guoteng Wang

Hang Yan

Honglin Guo

Jiaqi Liu

Jixuan Huang

Miao Zheng

Peng Sun

Qi Zhang

Rui Zheng