Zehuan Yuan

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

arXiv 2025

Waver: Wave Your Way to Lifelike Video Generation

arXiv 2025

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

arXiv 2025

HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling

arXiv 2024

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

CVPR 2025 1

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

CVPR 2025 1

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

arXiv 2024

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

arXiv 2024

Liquid: Language Models are Scalable Multi-modal Generators

arXiv 2024

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

arXiv 2024

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

arXiv 2023

General Object Foundation Model for Images and Videos at Scale

CVPR 2024 1

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

arXiv 2023

Recognize Any Regions

arXiv 2023

EGC: Image Generation and Classification via a Diffusion Energy-Based Model

ICCV 2023 1