Yi Jiang

NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

arXiv 2026

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

arXiv 2026

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

arXiv 2026

UniTok: A Unified Tokenizer for Visual Generation and Understanding

arXiv 2025

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

arXiv 2025

Unified Continuous Generative Models

arXiv 2025

Waver: Wave Your Way to Lifelike Video Generation

arXiv 2025

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

arXiv 2025

SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World

arXiv 2025

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

CVPR 2025 1

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

CVPR 2025 1

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

arXiv 2024

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

arXiv 2024

Liquid: Language Models are Scalable Multi-modal Generators

arXiv 2024

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

arXiv 2024

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

arXiv 2023

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

arXiv 2023

Recognize Any Regions

arXiv 2023

General Object Foundation Model for Images and Videos at Scale

CVPR 2024 1

EGC: Image Generation and Classification via a Diffusion Energy-Based Model

ICCV 2023 1