Sewon Min

EMO: Pretraining Mixture of Experts for Emergent Modularity

arXiv 2026

Residual Context Diffusion Language Models

arXiv 2026

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

arXiv 2026

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

arXiv 2025

Constantly Improving Image Models Need Constantly Improving Benchmarks

arXiv 2025

FlexOlmo: Open Language Models for Flexible Data Use

arXiv 2025

ReasonIR: Training Retrievers for Reasoning Tasks

arXiv 2025

FrontierCS: Evolving Challenges for Evolving Intelligence

arXiv 2025

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

arXiv 2025

Spurious Rewards: Rethinking Training Signals in RLVR

arXiv 2025

OLMoE: Open Mixture-of-Experts Language Models

arXiv 2024

Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

arXiv 2024

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

arXiv 2024

Do Membership Inference Attacks Work on Large Language Models?

arXiv 2024

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

arXiv 2023

SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore

arXiv 2023

In-context Pretraining: Language Modeling Beyond Document Boundaries

arXiv 2023

BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models

arXiv 2023

Measuring and Narrowing the Compositionality Gap in Language Models

arXiv 2022

Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

arXiv 2022

Nonparametric Masked Language Modeling

arXiv 2022

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters

arXiv 2022

CREPE: Open-Domain Question Answering with False Presuppositions

arXiv 2022