Chao Wang

FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

arXiv 2026

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

arXiv 2026

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

arXiv 2026

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for Optical-SAR Fusion Object Detection

arXiv 2025

X-Dyna: Expressive Dynamic Human Image Animation

CVPR 2025 1

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

arXiv 2025

AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding

arXiv 2025

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

arXiv 2025

Technical Report of TeleChat2, TeleChat2.5 and T1

arXiv 2025

I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking

arXiv 2025

StarFlow: Generating Structured Workflow Outputs From Sketch Images

arXiv 2025

TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection

arXiv 2024

Yuan 2.0-M32: Mixture of Experts with Attention Router

arXiv 2024

QQQ: Quality Quattuor-Bit Quantization for Large Language Models

arXiv 2024

Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking

arXiv 2024

MambaEVT: Event Stream based Visual Object Tracking using State Space Model

arXiv 2024