Songjun Tu

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

arXiv 2025

Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation

arXiv 2025

In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning

arXiv 2024

No known affiliations.

from 3 papers

Dongbin Zhao

Qichao Zhang

Jiahao Lin

Linjing Li

Xiangyu Tian

Xiangyuan Lan

Dongmei Jiang

Jia Liu

Jingbo Sun

Ke Chen