Yelong Shen

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

arXiv 2025

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

arXiv 2025

ThetaEvolve: Test-time Learning on Open Problems

arXiv 2025

Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions

arXiv 2025

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

arXiv 2025

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

arXiv 2025

OmniParser for Pure Vision Based GUI Agent

arXiv 2024

Rho-1: Not All Tokens Are What You Need

arXiv 2024

MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning

arXiv 2024

Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models

arXiv 2024

An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models

arXiv 2023

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

arXiv 2023

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

arXiv 2023

In-Context Learning Unlocked for Diffusion Models

in-context-learning-unlocked-for-diffusion

Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models

arXiv 2023