Chun Yuan

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging

arXiv 2025

Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

arXiv 2025

OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

arXiv 2025

Visual Generation Tuning

arXiv 2025

UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

arXiv 2025

SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling

ICCV 2025

Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent

arXiv 2025

Cobra: Efficient Line Art COlorization with BRoAder References

arXiv 2025

Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models

ICCV 2025

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

arXiv 2025

Towards Implicit Aggregation: Robust Image Representation for Place Recognition in the Transformer Era

arXiv 2025

Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model

arXiv 2024

ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding

arXiv 2024

TextureDiffusion: Target Prompt Disentangled Editing for Various Texture Transfer

arXiv 2024

ColorFlow: Retrieval-Augmented Image Sequence Colorization

arXiv 2024

FlatQuant: Flatness Matters for LLM Quantization

arXiv 2024

Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition

arXiv 2024

CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition

arXiv 2024

IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact

arXiv 2024

Supervised Fine-tuning in turn Improves Visual Foundation Models

arXiv 2024

Effective Whole-body Pose Estimation with Two-stages Distillation

arXiv 2023

A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting

arXiv 2023

Learning to Learn from APIs: Black-Box Data-Free Meta-Learning

arXiv 2023

DreamDiffusion: Generating High-Quality Images from Brain EEG Signals

arXiv 2023

CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models

arXiv 2023

From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft Labels

ICCV 2023 1

UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers

arXiv 2023