Zichen Liu

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

arXiv 2026

Rethinking the Trust Region in LLM Reinforcement Learning

arXiv 2026

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

arXiv 2026

Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library

arXiv 2025

Understanding R1-Zero-Like Training: A Critical Perspective

arXiv 2025

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

arXiv 2025

Token Coordinated Prompt Attention is Needed for Visual Prompting

arXiv 2025

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

arXiv 2025

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

arXiv 2025

Defeating the Training-Inference Mismatch via FP16

arXiv 2025

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

arXiv 2025

Reinforcing General Reasoning without Verifiers

arXiv 2025

Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning

arXiv 2025

Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs

arXiv 2025

Variational Reasoning for Language Models

arXiv 2025

Calligrapher: Freestyle Text Image Customization

arXiv 2025

Efficient Process Reward Model Training via Active Learning

arXiv 2025

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

arXiv 2025

GEM: A Gym for Agentic LLMs

arXiv 2025

MagicQuill: An Intelligent Interactive Image Editing System

CVPR 2025 1

Sample-Efficient Alignment for LLMs

arXiv 2024

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

ICCV 2025

Bootstrapping Language Models with DPO Implicit Rewards

arXiv 2024