Wei Huang

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

arXiv 2026

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

arXiv 2026

LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

arXiv 2026

Scaling RL to Long Videos

arXiv 2025

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

arXiv 2025

Scaling Diffusion Transformers Efficiently via $μ$P

arXiv 2025

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

arXiv 2025

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

arXiv 2025

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

arXiv 2025

The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation

arXiv 2025

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

arXiv 2025

Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization

arXiv 2025

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

CVPR 2025 1

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

arXiv 2024

MapSAM: Adapting Segment Anything Model for Automated Feature Detection in Historical Maps

arXiv 2024

On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability

arXiv 2024

Breaking the Stage Barrier: A Novel Single-Stage Approach to Long Context Extension for Large Language Models

arXiv 2024

An empirical study of LLaMA3 quantization: from LLMs to MLLMs

arXiv 2024

MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More

arXiv 2024

SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models

arXiv 2024

SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining

arXiv 2024