Xiaoyu Shen

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention

arXiv 2026

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

arXiv 2026

Speak While Watching: Unleashing TRUE Real-Time Video Understanding Capability of Multimodal Large Language Models

arXiv 2026

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning

arXiv 2025

Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices

CVPR 2025 1

LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding

arXiv 2025

LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

arXiv 2025

MultiConIR: Towards multi-condition Information Retrieval

arXiv 2025

Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

arXiv 2025

Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning

arXiv 2025

MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration

arXiv 2024

InternLM-Law: An Open Source Chinese Legal Large Language Model

arXiv 2024

Fine-Grained and Multi-Dimensional Metrics for Document-Level Machine Translation

arXiv 2024

The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models

arXiv 2024