Xiaokang Yang

Low-bit Model Quantization for Deep Neural Networks: A Survey

arXiv 2025

A Token-level Text Image Foundation Model for Document Understanding

ICCV 2025

MM-ACT: Learn from Multimodal Parallel Generation to Act

arXiv 2025

Dens3R: A Foundation Model for 3D Geometry Prediction

arXiv 2025

Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding

CVPR 2025 1

One-Step Diffusion Model for Image Motion-Deblurring

arXiv 2025

Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography

ICCV 2025

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

arXiv 2025

HDR-GS: Efficient High Dynamic Range Novel View Synthesis at 1000x Speed via Gaussian Splatting

arXiv 2024

OSDFace: One-Step Diffusion Model for Face Restoration

CVPR 2025 1

Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark

arXiv 2024

Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis

arXiv 2024

PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer

arXiv 2024

FLoRA: Low-Rank Core Space for N-dimension

arXiv 2024

UAlign: Pushing the Limit of Template-free Retrosynthesis Prediction with Unsupervised SMILES Alignment

arXiv 2024

MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations

arXiv 2024

PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing

arXiv 2024

VidToMe: Video Token Merging for Zero-Shot Video Editing

CVPR 2024 1

Dual Aggregation Transformer for Image Super-Resolution

ICCV 2023 1

Image Super-Resolution with Text Prompt Diffusion

arXiv 2023

Model-Based Reinforcement Learning with Multi-Task Offline Pretraining

arXiv 2023

Recursive Generalization Transformer for Image Super-Resolution

arXiv 2023