Lifeng Shang

Rethinking Expert Trajectory Utilization in LLM Post-training

arXiv 2025

Safe: Enhancing Mathematical Reasoning in Large Language Models via Retrospective Step-aware Formal Verification

arXiv 2025

The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs

arXiv 2025

Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction

arXiv 2025

How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study

arXiv 2025

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

arXiv 2025

Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

arXiv 2025

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

arXiv 2025

QFFT, Question-Free Fine-Tuning for Adaptive Reasoning

arXiv 2025

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios

arXiv 2024

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models

arXiv 2024

Learning to Edit: Aligning LLMs with Knowledge Editing

arXiv 2024

PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models

arXiv 2024

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

arXiv 2024

More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression

arXiv 2024

Preparing Lessons for Progressive Training on Language Models

arXiv 2024

Aligning Large Language Models with Human: A Survey

arXiv 2023

FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

arXiv 2023

M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models

arXiv 2023

Data Management For Training Large Language Models: A Survey

arXiv 2023