Benjamin Wright

Cite

Notes

Only stored in your browser.

Attribution

2papers

Authored papers

Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models

arXiv 2024

Alignment faking in large language models

arXiv 2024

No known affiliations.

from 2 papers

Adam Karvonen

Akbir Khan

Buck Shlegeris

Can Rager

Carson Denison

Claudio Mayrink Verdun

David Bau

David Duvenaud

Ethan Perez

Evan Hubinger