Pan Zhou

Large Language Models Post-training: Surveying Techniques from Alignment to Reasoning

arXiv 2025

Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

arXiv 2025

MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

arXiv 2025

MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

arXiv 2025

Towards Scalable and Consistent 3D Editing

arXiv 2025

CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

arXiv 2025

Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment

arXiv 2024

GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding

arXiv 2024

LOVA3: Learning to Visual Question Answering, Asking and Assessment

arXiv 2024

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

arXiv 2024

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior

CVPR 2024 1

MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

arXiv 2024

The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023

arXiv 2024

MoExtend: Tuning New Experts for Modality and Task Extension

arXiv 2024

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

arXiv 2024

Towards Natural Image Matting in the Wild via Real-Scenario Prior

arXiv 2024

4-bit Shampoo for Memory-Efficient Network Training

arXiv 2024

Two are better than one: Context window extension with multi-grained self-injection

arXiv 2024

CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation

arXiv 2024

MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer

ICCV 2023 1

Instant3D: Instant Text-to-3D Generation

arXiv 2023

Fast Diffusion Model

arXiv 2023

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation

CVPR 2024 1

MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use

arXiv 2023

ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network Long Skip Connection

scalelong-towards-more-stable-training-of

Inception Transformer

arXiv 2022

Mugs: A Multi-Granular Self-Supervised Learning Framework

arXiv 2022

Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

arXiv 2022

Position-guided Text Prompt for Vision-Language Pre-training

CVPR 2023 1