Liang Lin

3DAffordSplat: Efficient Affordance Reasoning with 3D Gaussians

arXiv 2025

MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models

arXiv 2025

Cross-modal Causal Relation Alignment for Video Question Grounding

cross-modal-causal-relation-alignment-for

Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers

arXiv 2025

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

arXiv 2025

DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Transformer and Mamba

arXiv 2025

DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering

CVPR 2025 1

SR-FoT: A Syllogistic-Reasoning Framework of Thought for Large Language Models Tackling Knowledge-based Reasoning Tasks

arXiv 2025

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

arXiv 2024

WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models

arXiv 2024

MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments

arXiv 2024

MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection

arXiv 2024

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation

CVPR 2024 1

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

arXiv 2023

SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence Pre-training

ICCV 2023 1

ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network Long Skip Connection

scalelong-towards-more-stable-training-of

Identity-Preserving Talking Face Generation with Landmark and Appearance Priors

CVPR 2023 1

Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning

arXiv 2023

Masked Images Are Counterfactual Samples for Robust Fine-tuning

CVPR 2023 1