Jiaqi Li

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

arXiv 2026

The AI Hippocampus: How Far are We From Human Memory?

arXiv 2026

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

arXiv 2026

Scaling Spatial Intelligence with Multimodal Foundation Models

arXiv 2025

TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

arXiv 2025

On Path to Multimodal Historical Reasoning: HistBench and HistAgent

arXiv 2025

RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling

arXiv 2025

Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation

arXiv 2024

UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

arXiv 2024

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

arXiv 2024

In-Context Editing: Learning Knowledge from Self-Induced Distributions

arXiv 2024

Stochastic Layer-Wise Shuffle: A Good Practice to Improve Vision Mamba Training

arXiv 2024

Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning

arXiv 2024