Zhenghao Xu

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

arXiv 2026

COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs

arXiv 2025

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

arXiv 2025

No known affiliations.

from 3 papers

Tuo Zhao

Changlong Yu

Qin Lu

Chao Zhang

Chen Liang

Hao Kang

Haoming Jiang

Ilgee Hong

Liang Qiu

LiMing Liu