Sam Marks

Cite

Notes

Only stored in your browser.

Attribution

1papers

Authored papers

Alignment faking in large language models

arXiv 2024

No known affiliations.

from 1 papers

Akbir Khan

Benjamin Wright

Buck Shlegeris

Carson Denison

David Duvenaud

Ethan Perez

Evan Hubinger

Fabien Roger

Jack Chen

Jared Kaplan

co-founder / Chief Science Officer