Enze Xie

Magic 1-For-1: Generating One Minute Video Clips within One Minute

arXiv 2025

Fast-dLLM v2: Efficient Block-Diffusion LLM

arXiv 2025

ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

arXiv 2025

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

arXiv 2025

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

arXiv 2025

SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

arXiv 2024

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

arXiv 2024

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

arXiv 2024

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

arXiv 2024

PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

arXiv 2024

VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

arXiv 2024

Editing Massive Concepts in Text-to-Image Diffusion Models

arXiv 2024

A Survey of Reasoning with Foundation Models

arXiv 2023

DDP: Diffusion Model for Dense Visual Prediction

ICCV 2023 1

Progressive-Hint Prompting Improves Reasoning in Large Language Models

https-arxiv-org-abs-2304-09797

Beyond One-to-One: Rethinking the Referring Image Segmentation

ICCV 2023 1

MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation

arXiv 2023

Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts

arXiv 2023

Lyra: Orchestrating Dual Correction in Automated Theorem Proving

arXiv 2023

DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning

arXiv 2023

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

NeurIPS 2021 12

Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers

CVPR 2022 1

FAST: Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation

arXiv 2021

PVT v2: Improved Baselines with Pyramid Vision Transformer

arXiv 2021