Gongfan Fang

Q-ARVD: Quantizing Autoregressive Video Diffusion Models

arXiv 2026

DMax: Aggressive Parallel Decoding for dLLMs

arXiv 2026

dVoting: Fast Voting for dLLMs

arXiv 2026

Efficient Reasoning Models: A Survey

arXiv 2025

dKV-Cache: The Cache for Diffusion Language Models

arXiv 2025

Thinkless: LLM Learns When to Think

arXiv 2025

VeriThinker: Learning to Verify Makes Reasoning Model Efficient

arXiv 2025

dParallel: Learnable Parallel Decoding for dLLMs

arXiv 2025

SparseD: Sparse Attention for Diffusion Language Models

arXiv 2025

CoT-Valve: Length-Compressible Chain-of-Thought Tuning

arXiv 2025

In-Video Instructions: Visual Signals as Generative Control

arXiv 2025

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

arXiv 2025

AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

arXiv 2024

MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

arXiv 2024

Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

CVPR 2025 1

TinyFusion: Diffusion Transformers Learned Shallow

CVPR 2025 1

LLM-Pruner: On the Structural Pruning of Large Language Models

llm-pruner-on-the-structural-pruning-of-large

SlimSAM: 0.1% Data Makes Segment Anything Slim

arXiv 2023

DepGraph: Towards Any Structural Pruning

CVPR 2023 1

DeepCache: Accelerating Diffusion Models for Free

CVPR 2024 1