Yanwei Fu

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation

arXiv 2025

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

arXiv 2025

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

arXiv 2025

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

arXiv 2025

StrandDesigner: Towards Practical Strand Generation with Sketch Guidance

arXiv 2025

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

arXiv 2025

Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

arXiv 2025

MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model

CVPR 2025 1

MinD-3D++: Advancing fMRI-Based 3D Reconstruction with High-Quality Textured Mesh Generation and a Comprehensive Dataset

arXiv 2024

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

arXiv 2024

Unified Lexical Representation for Interpretable Visual-Language Alignment

arXiv 2024

FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on

arXiv 2024

MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View Stereo

arXiv 2024

3D StreetUnveiler with Semantic-Aware 2DGS

arXiv 2024

CustAny: Customizing Anything from A Single Example

CVPR 2025 1

Repositioning the Subject within Image

arXiv 2024

Coarse-to-Fine Amodal Segmentation with Shape Prior

ICCV 2023 1

Unsupervised Open-Vocabulary Object Localization in Videos

ICCV 2023 1

Rethinking Amodal Video Segmentation from Learning Supervised Signals with Object-centric Representation

ICCV 2023 1

Doubly Robust Proximal Causal Learning for Continuous Treatments

arXiv 2023

Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency

CVPR 2025 1

Improving Transformer-based Image Matching by Cascaded Capturing Spatially Informative Keypoints

ICCV 2023 1

Object-Centric Multiple Object Tracking

ICCV 2023 1