Dongqi Han

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

arXiv 2025

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

CVPR 2025 1

Habitizing Diffusion Planning for Efficient and Effective Decision Making

arXiv 2025

No known affiliations.

from 3 papers

Dongsheng Li

Xufang Luo

Yunjian Xu

Zhihe Yang

Haofei Lu

Junliang Xing

Yifei Shen

Zhiyuan He

Zilong Wang