Chen Change Loy

4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

arXiv 2026

HippoCamp: Benchmarking Contextual Agents on Personal Computers

arXiv 2026

FileGram: Grounding Agent Personalization in File-System Behavioral Traces

arXiv 2026

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

arXiv 2025

MatAnyone: Stable Video Matting with Consistent Memory Propagation

CVPR 2025 1

EdgeTAM: On-Device Track Anything Model

CVPR 2025 1

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

arXiv 2025

Next Visual Granularity Generation

arXiv 2025

STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

arXiv 2025

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

CVPR 2025 1

MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention

CVPR 2025 1

SA-LUT: Spatial Adaptive 4D Look-Up Table for Photorealistic Style Transfer

arXiv 2025

SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation

arXiv 2025

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

ICCV 2025

OMG-Seg: Is One Model Good Enough For All Segmentation?

CVPR 2024 1

Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model

arXiv 2024

3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement

CVPR 2025 1

Arbitrary-steps Image Super-resolution via Diffusion Inversion

CVPR 2025 1

Efficient Diffusion Model for Image Restoration by Residual Shifting

arXiv 2024

F-LMM: Grounding Frozen Large Multimodal Models

CVPR 2025 1

Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

ICCV 2025

Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

arXiv 2024

GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation

arXiv 2024

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

CVPR 2024 1

Paint Bucket Colorization Using Anime Character Color Design Sheets

arXiv 2024

AITTI: Learning Adaptive Inclusive Token for Text-to-Image Generation

arXiv 2024

Eliminating Feature Ambiguity for Few-Shot Segmentation

arXiv 2024

LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

arXiv 2024

Exploiting Diffusion Prior for Real-World Image Super-Resolution

arXiv 2023

EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM

arXiv 2023

Panoptic Video Scene Graph Generation

panoptic-video-scene-graph-generation

DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering

ICCV 2023 1

StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces

ICCV 2023 1

ProPainter: Improving Propagation and Transformer for Video Inpainting

ICCV 2023 1

Correlational Image Modeling for Self-Supervised Visual Pre-Training

CVPR 2023 1

DeformToon3D: Deformable 3D Toonification from Neural Radiance Fields

arXiv 2023

Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation

ICCV 2023 1

MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions

ICCV 2023 1

SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

smpler-x-scaling-up-expressive-human-pose-and

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

arXiv 2023

CelebV-Text: A Large-Scale Facial Text-Video Dataset

CVPR 2023 1

Deep Geometrized Cartoon Line Inbetweening

deep-geometrized-cartoon-line-inbetweening

Text2Performer: Text-Driven Human Video Generation

ICCV 2023 1

SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis

ICCV 2023 1

Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image Translation

ICCV 2023 1

Contextual Object Detection with Multimodal Large Language Models

arXiv 2023

PERF: Panoramic Neural Radiance Field from a Single Panorama

arXiv 2023

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

arXiv 2023

When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for Personalized Image Generation

arXiv 2023

MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation

arXiv 2023

CLIM: Contrastive Language-Image Mosaic for Region Representation

arXiv 2023

StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation

ICCV 2023 1

Conditional Prompt Learning for Vision-Language Models

CVPR 2022 1

Exploring CLIP for Assessing the Look and Feel of Images

arXiv 2022

Masked Frequency Modeling for Self-Supervised Visual Pre-Training

arXiv 2022

Towards Robust Blind Face Restoration with Codebook Lookup Transformer

arXiv 2022

VToonify: Controllable High-Resolution Portrait Video Style Transfer

arXiv 2022

Unified Vision and Language Prompt Learning

arXiv 2022

Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer

CVPR 2022 1

StyleGAN-Human: A Data-Centric Odyssey of Human Generation

arXiv 2022

DifFace: Blind Face Restoration with Diffused Error Contraction

arXiv 2022

Text2Human: Text-Driven Controllable Human Image Generation

arXiv 2022

TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable Facial Editing

CVPR 2022 1

AnimeRun: 2D Animation Visual Correspondence from Open Source 3D Movies

arXiv 2022

Investigating Tradeoffs in Real-World Video Super-Resolution

CVPR 2022 1

NTIRE 2021 Challenge on Quality Enhancement of Compressed Video: Methods and Results

arXiv 2021

Unsupervised Object-Level Representation Learning from Scene Images

NeurIPS 2021 12

Talk-to-Edit: Fine-Grained Facial Editing via Dialog

ICCV 2021 10

Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement

zero-reference-deep-curve-estimation-for-low-1

DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection

deeperforensics-1-0-a-large-scale-dataset-for

Delving into Inter-Image Invariance for Unsupervised Visual Representations

arXiv 2020

TSIT: A Simple and Versatile Framework for Image-to-Image Translation

ECCV 2020 8