Lei Huang

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

arXiv 2026

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

arXiv 2026

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

arXiv 2026

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

arXiv 2026

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

arXiv 2025

EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity

arXiv 2025

VoQA: Visual-only Question Answering

arXiv 2025

TinyLLaVA-Video: A Simple Framework of Small-scale Large Multimodal Models for Video Understanding

arXiv 2025

TinyLLaVA: A Framework of Small-scale Large Multimodal Models

arXiv 2024

Learning Fine-Grained Grounded Citations for Attributed Large Language Models

arXiv 2024

TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models

arXiv 2024

Bench-CoE: a Framework for Collaboration of Experts from Benchmark

arXiv 2024

Ex3: Automatic Novel Writing by Extracting, Excelsior and Expanding

arXiv 2024