Chong Luo

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

arXiv 2026

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

arXiv 2026

BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

arXiv 2026

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

arXiv 2026

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

arXiv 2026

From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

arXiv 2026

StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

arXiv 2025

Subject-driven Video Generation via Disentangled Identity and Motion

arXiv 2025

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

arXiv 2025

FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

arXiv 2025

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

ICCV 2025

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

arXiv 2025

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

arXiv 2025

StableAnimator: High-Quality Identity-Preserving Human Image Animation

CVPR 2025 1

REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents

ICCV 2025

OmniVid: A Generative Framework for Universal Video Understanding

CVPR 2024 1

LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation

arXiv 2024

Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild

arXiv 2024