Joshua Vendrow

Cite

Notes

Only stored in your browser.

Attribution

2papers

Authored papers

Do Large Language Model Benchmarks Test Reliability?

arXiv 2025

Dataset Interfaces: Diagnosing Model Failures Using Controllable Counterfactual Generation

arXiv 2023

No known affiliations.

from 2 papers

Aleksander Mądry

Edward Vendrow

Logan Engstrom

Saachi Jain

Sara Beery