Jun Chen

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

arXiv 2026

TrajLoom: Dense Future Trajectory Generation from Video

arXiv 2026

Small Vision-Language Models are Smart Compressors for Long Video Understanding

arXiv 2026

Kimi K2.5: Visual Agentic Intelligence

arXiv 2026

Kimi-Audio Technical Report

arXiv 2025

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

arXiv 2025

LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement

arXiv 2025

WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

ICCV 2025

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

arXiv 2025

Boolean Satisfiability via Imitation Learning

arXiv 2025

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

arXiv 2025

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

arXiv 2024

MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis

arXiv 2024

SCNet: Sparse Compression Network for Music Source Separation

arXiv 2024

SPAR: Personalized Content-Based Recommendation via Long Engagement Attention

arXiv 2024

Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents

document-haystacks-vision-language-reasoning-1