Tatsunori Hashimoto

Assistant professor at Stanford CS; co-author of HELM, AlpacaEval, and many influential papers on LLM evaluation, alignment, and generalization.

Role: professor
Currently at: Stanford University
Twitter: twitter.com/tatsu_hashimoto
GitHub: github.com/tatsu-lab
Scholar: scholar.google.com/citations
Papers: 31

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: scholar.google.com/citations

Attribution policy →

31papers·1tool contribs

Authored papers

31

Towards Execution-Grounded Automated AI Research

arXiv 2026

s1: Simple Test-Time Scaling

preprint

OpenThoughts: Data Recipes for Reasoning Models

arXiv 2025

One-Minute Video Generation with Test-Time Training

CVPR 2025 1

End-to-End Test-Time Training for Long Context

arXiv 2025

Auditing Prompt Caching in Language Model APIs

arXiv 2025

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

arXiv 2025

The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas

arXiv 2025

Reasoning to Learn from Latent Thoughts

arXiv 2025

Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators

COLM

A Survey on Data Selection for Language Models

arXiv 2024

Observational Scaling Laws and the Predictability of Language Model Performance

arXiv 2024

AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models

arXiv 2024

Improving Pretraining Data Using Perplexity Correlations

arXiv 2024

Linguistic Calibration of Long-Form Generations

arXiv 2024

Evaluating Self-Supervised Learning via Risk Decomposition

arXiv 2023

Benchmarking Distributional Alignment of Large Language Models

arXiv 2024

Learning to (Learn at Test Time): RNNs with Expressive Hidden States

arXiv 2024

Synthetic continued pretraining

arXiv 2024

Identifying the Risks of LM Agents with an LM-Emulated Sandbox

arXiv 2023

On the Learnability of Watermarks for Language Models

arXiv 2023

Out-of-Domain Robustness via Targeted Augmentations

arXiv 2023

On the Fairness ROAD: Robust Optimization for Adversarial Debiasing

arXiv 2023

Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions

arXiv 2023

Learning to (Learn at Test Time)

arXiv 2023

Whose Opinions Do Language Models Reflect?

arXiv 2023

Robust Distortion-free Watermarks for Language Models

arXiv 2023

Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at Large Scale

arXiv 2022

Contrastive Decoding: Open-ended Text Generation as Optimization

arXiv 2022

Language modeling via stochastic processes

language-modeling-via-stochastic-processes

Large Language Models Can Be Strong Differentially Private Learners

large-language-models-can-be-strong

Tool contributions

1

s1K

Stanford Center for Research on Foundation Models (CRFM)

Stanford's hand-curated 1,000-problem reasoning dataset that, paired with budget forcing at inference, produced o1-competitive results for ~$50 of compute.

SFT DatasetMathScientific Reasoning

Affiliations

Currently at

Stanford University

professor · university lab

Previously

Massachusetts Institute of Technologyuniversity lab

Frequent co-authors

10

from 31 papers

Percy Liang

professor

11 shared papers

Carlos Guestrin

5 shared papers

Xiang Lisa Li

researcher

5 shared papers

Karan Dalal

4 shared papers

Sanmi Koyejo

professor

4 shared papers

Xiaolong Wang

4 shared papers

Yann Dubois

researcher

4 shared papers

Yejin Choi

professor

4 shared papers

Yu Sun

4 shared papers

Chris J. Maddison

3 shared papers