Ziqi Huang

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

arXiv 2026

BabyVision: Visual Reasoning Beyond Language

arXiv 2026

Demystifying Video Reasoning

arXiv 2026

Simulating the Visual World with Artificial Intelligence: A Roadmap

arXiv 2025

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

arXiv 2025

CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

arXiv 2025

Cut2Next: Generating Next Shot via In-Context Tuning

arXiv 2025

The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

arXiv 2025

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

arXiv 2025

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

arXiv 2025

VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

arXiv 2025

Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

arXiv 2025

Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

arXiv 2024

2024

FreeInit: Bridging Initialization Gap in Video Diffusion Models

arXiv 2023

ReVersion: Diffusion-Based Relation Inversion from Images

arXiv 2023

FreeU: Free Lunch in Diffusion U-Net

CVPR 2024 1

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

arXiv 2023

Collaborative Diffusion for Multi-Modal Face Generation and Editing

CVPR 2023 1