Xun Deng

Cite

Notes

Only stored in your browser.

Attribution

2papers

Authored papers

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

arXiv 2025

Less is More: Improving LLM Alignment via Preference Data Selection

arXiv 2025

No known affiliations.

from 2 papers

Enyu Zhou

Fuli Feng

Guoteng Wang

Han Zhong

Hang Yan

Honglin Guo

Jiaqi Liu

Jixuan Huang

Junrui Shen

Miao Zheng