Jing Tang

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

arXiv 2026

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

arXiv 2026

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

arXiv 2026

Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation

arXiv 2025

Learning Few-Step Diffusion Models by Trajectory Distribution Matching

ICCV 2025

Reinforcing Diffusion Models by Direct Group Preference Optimization

arXiv 2025

Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls

arXiv 2025

UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning

arXiv 2025

TreeRPO: Tree Relative Policy Optimization

arXiv 2025

You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs

arXiv 2024

LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs

arXiv 2024

Process-Driven Autoformalization in Lean 4

arXiv 2024

OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling

arXiv 2024

KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models

arXiv 2024

AnyTaskTune: Advanced Domain-Specific Solutions through Task-Fine-Tuning

arXiv 2024

A Survey on Mixture of Experts

arXiv 2024