Qin Lu

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

arXiv 2026

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

arXiv 2025

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

arXiv 2025

No known affiliations.

from 3 papers

Changlong Yu

Chao Zhang

Liang Qiu

Tuo Zhao

Zhenghao Xu

Bing Yin

Haoming Jiang

Hyokun Yun

Ilgee Hong

Lihong Li