Qingpeng Cai

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

arXiv 2025

Sequential Recommendation for Optimizing Both Immediate Feedback and Long-term Retention

arXiv 2024

Multi-Task Recommendations with Reinforcement Learning

arXiv 2023

Two-Stage Constrained Actor-Critic for Short Video Recommendation

arXiv 2023

No known affiliations.

from 4 papers

Kun Gai

Peng Jiang

Shuchang Liu

Dong Zheng

Xiangyu Zhao

Ziru Liu

Binxing Jiao

Chen Hu

Chi Zhang

researcher

Daxin Jiang

founder