Jun Zhu

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

arXiv 2026

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

arXiv 2026

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

arXiv 2026

Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

arXiv 2026

SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

arXiv 2025

SageAttention2++: A More Efficient Implementation of SageAttention2

arXiv 2025

ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding

arXiv 2025

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

arXiv 2025

Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

direct-discriminative-optimization-your

Scaling Diffusion Transformers Efficiently via $μ$P

arXiv 2025

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

arXiv 2025

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

arXiv 2025

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

arXiv 2025

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

arXiv 2025

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

arXiv 2025

STAIR: Improving Safety Alignment with Introspective Reasoning

arXiv 2025

Visual Generation Without Guidance

arXiv 2025

SpargeAttention: Accurate and Training-free Sparse Attention Accelerating Any Model Inference

arXiv 2025

DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning

ICCV 2025

Robust Representation Consistency Model via Contrastive Denoising

arXiv 2025

MeshAnything V2: Artist-Created Mesh Generation With Adjacent Mesh Tokenization

ICCV 2025

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

arXiv 2024

MicroDreamer: Efficient 3D Generation in $\sim$20 Seconds by Score-based Iterative Reconstruction

arXiv 2024

ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

arXiv 2024

Diffusion Bridge Implicit Models

arXiv 2024

FlexiDreamer: Single Image-to-3D Generation with FlexiCubes

arXiv 2024

DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training

arXiv 2024

Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

arXiv 2024

Noise Contrastive Alignment of Language Models with Explicit Rewards

arXiv 2024

Towards Efficient Exact Optimization of Language Model Alignment

arXiv 2024

Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

arXiv 2024

Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control

arXiv 2024

CodeS: Towards Building Open-source Language Models for Text-to-SQL

arXiv 2024

Efficient Backpropagation with Variance-Controlled Adaptive Sampling

arXiv 2024

On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability

arXiv 2024

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

arXiv 2023

Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels

diffusion-models-and-semi-supervised-learners

PINNacle: A Comprehensive Benchmark of Physics-Informed Neural Networks for Solving PDEs

arXiv 2023

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

arXiv 2023

Detection Transformer with Stable Matching

ICCV 2023 1

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

arXiv 2023

DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics

dpm-solver-v3-improved-diffusion-ode-solver

A Comprehensive Survey of Continual Learning: Theory, Method and Application

arXiv 2023

GNOT: A General Neural Operator Transformer for Operator Learning

arXiv 2023

Score Regularized Policy Optimization through Diffusion Behavior

arXiv 2023

Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning

arXiv 2023

NUNO: A General Framework for Learning Parametric PDEs with Non-Uniform Data

arXiv 2023

InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image

arXiv 2023

Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs

arXiv 2023

Revisiting Discriminative vs. Generative Classifiers: Theory and Implications

arXiv 2023

ControlVideo: Conditional Control for One-shot Text-driven Video Editing and Beyond

arXiv 2023

Training Transformers with 4-bit Integers

training-transformers-with-4-bit-integers

Overcoming Recency Bias of Normalization Statistics in Continual Learning: Balance and Adaptation

overcoming-recency-bias-of-normalization

Rethinking Model Ensemble in Transfer-based Adversarial Attacks

arXiv 2023

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

dino-detr-with-improved-denoising-anchor

DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models

arXiv 2022

Robustness and Accuracy Could Be Reconcilable by (Proper) Definition

arXiv 2022

DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR

dab-detr-dynamic-anchor-boxes-are-better