Johannes Treutlein

Cite

Notes

Only stored in your browser.

Attribution

2papers

Authored papers

Alignment faking in large language models

arXiv 2024

Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data

arXiv 2024

No known affiliations.

from 2 papers

Akbir Khan

Benjamin Wright

Buck Shlegeris

Carson Denison

Cem Anil

Dami Choi

David Duvenaud

Ethan Perez

Evan Hubinger

Fabien Roger