Sean Welleck

Scaling Evaluation-time Compute with Reasoning Models as Evaluators

arXiv 2025

Propose, Solve, Verify: Self-Play Through Formal Verification

arXiv 2025

Agentic-R1: Distilled Dual-Strategy Reasoning

arXiv 2025

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

arXiv 2024

Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

arXiv 2024

miniCTX: Neural Theorem Proving with (Long-)Contexts

arXiv 2024

Evaluating Language Models as Synthetic Data Generators

arXiv 2024

Faith and Fate: Limits of Transformers on Compositionality

faith-and-fate-limits-of-transformers-on

2023

Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning

arXiv 2023

2023

STEER: Unified Style Transfer with Expert Reinforcement

arXiv 2023

2023

A Survey of Deep Learning for Mathematical Reasoning

arXiv 2022

COLD Decoding: Energy-based Constrained Text Generation with Langevin Dynamics

arXiv 2022

Quark: Controllable Text Generation with Reinforced Unlearning

arXiv 2022

NaturalProver: Grounded Mathematical Proof Generation with Language Models

arXiv 2022

Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs

arXiv 2022

Lila: A Unified Benchmark for Mathematical Reasoning

arXiv 2022

Rainier: Reinforced Knowledge Introspector for Commonsense Question Answering

arXiv 2022

Symbolic Knowledge Distillation: from General Language Models to Commonsense Models

NAACL 2022 7

Generated Knowledge Prompting for Commonsense Reasoning

ACL 2022 5

NeuroLogic A*esque Decoding: Constrained Text Generation with Lookahead Heuristics

NAACL 2022 7

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

mauve-measuring-the-gap-between-neural-text

NaturalProofs: Mathematical Theorem Proving in Natural Language

arXiv 2021

Prompt Waywardness: The Curious Case of Discretized Interpretation of Continuous Prompts

NAACL 2022 7