Yeyun Gong

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

arXiv 2025

Sigma-Moe-Tiny Technical Report

arXiv 2025

Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions

arXiv 2025

TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression

arXiv 2025

SIGMA: An AI-Empowered Training Stack on Early-Life Hardware

arXiv 2025

Behind RoPE: How Does Causal Mask Encode Positional Information?

arXiv 2025

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

arXiv 2025

Process-based Self-Rewarding Language Models

arXiv 2025

Rho-1: Not All Tokens Are What You Need

arXiv 2024

Integrative Decoding: Improve Factuality via Implicit Self-consistency

arXiv 2024

Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models

arXiv 2024

MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

arXiv 2024

Alchemy: Amplifying Theorem-Proving Capability through Symbolic Mutation

arXiv 2024

Generative Prompt Internalization

arXiv 2024

Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph

arXiv 2023

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

arXiv 2023

CMMLU: Measuring massive multitask language understanding in Chinese

arXiv 2023

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

arXiv 2023

Allies: Prompting Large Language Model with Beam Search

arXiv 2023

Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models

arXiv 2023

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

arXiv 2023