Min-Hung Chen

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

arXiv 2025

CorrFill: Enhancing Faithfulness in Reference-based Inpainting with Correspondence Guidance in Diffusion Models

arXiv 2025

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

arXiv 2025

LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

ICCV 2025

MovieCORE: COgnitive REasoning in Movies

arXiv 2025

BlurDM: A Blur Diffusion Model for Image Deblurring

arXiv 2025

DoRA: Weight-Decomposed Low-Rank Adaptation

arXiv 2024

HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics

ICCV 2025

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

CVPR 2024 1

Hymba: A Hybrid-head Architecture for Small Language Models

arXiv 2024

ORFormer: Occlusion-Robust Transformer for Accurate Facial Landmark Detection

arXiv 2024

EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

arXiv 2024

Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation

arXiv 2024

Spatio-Temporal Context Prompting for Zero-Shot Action Detection

arXiv 2024

2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision

2d-3d-interlaced-transformer-for-point-cloud

PartDistill: 3D Shape Part Segmentation by Vision-Language Model Distillation

CVPR 2024 1

QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me Challenge

arXiv 2023

Kinship Representation Learning with Face Componential Relation

arXiv 2023

Probabilistic 3D Multi-Object Cooperative Tracking for Autonomous Driving via Differentiable Multi-Sensor Kalman Filter

arXiv 2023

Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection

arXiv 2023