Xu Han

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

arXiv 2026

Data Science and Technology Towards AGI Part I: Tiered Data Management

arXiv 2026

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

arXiv 2026

Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench

arXiv 2026

AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs

arXiv 2025

MiniCPM4: Ultra-Efficient LLMs on End Devices

arXiv 2025

Process Reinforcement through Implicit Rewards

arXiv 2025

FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling

arXiv 2025

AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage

arXiv 2025

MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe

arXiv 2025

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

arXiv 2025

StateX: Enhancing RNN Recall via Post-training State Expansion

arXiv 2025

NOSA: Native and Offloadable Sparse Attention

arXiv 2025

Cost-Optimal Grouped-Query Attention for Long-Context Modeling

arXiv 2025

TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators

arXiv 2025

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

arXiv 2025

Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

arXiv 2025

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

arXiv 2024

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

arXiv 2024

$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens

arXiv 2024

UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset

arXiv 2024

InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory

arXiv 2024

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

arXiv 2024

MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors

arXiv 2024

Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation

CVPR 2025 1

PointDreamer: Zero-shot 3D Textured Mesh Reconstruction from Colored Point Cloud

arXiv 2024

Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models

arXiv 2024

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

arXiv 2024

BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences

arXiv 2024

OneBit: Towards Extremely Low-bit Large Language Models

arXiv 2024

Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model

arXiv 2024

Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding

arXiv 2024

MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization

arXiv 2024

Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models

arXiv 2024

Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation

arXiv 2024

Progressive Compositionality In Text-to-Image Generative Models

arXiv 2024

Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

arXiv 2024

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding

arXiv 2024

Robust and Scalable Model Editing for Large Language Models

arXiv 2024

Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads on Consumer-Grade Devices

arXiv 2024

Efficient and Degree-Guided Graph Generation via Discrete Diffusion Modeling

arXiv 2023

ConPET: Continual Parameter-Efficient Tuning for Large Language Models

arXiv 2023

MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation

arXiv 2023

Tool Learning with Foundation Models

arXiv 2023

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

arXiv 2023

Plug-and-Play Knowledge Injection for Pre-trained Language Models

arXiv 2023

Plug-and-Play Document Modules for Pre-trained Models

arXiv 2023