Mikita Balesni

Cite

Notes

Only stored in your browser.

Attribution

2papers

Authored papers

Large Language Models can Strategically Deceive their Users when Put Under Pressure

arXiv 2023

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"

arXiv 2023

No known affiliations.

from 2 papers

Asa Cooper Stickland

researcher

Jérémy Scheurer

Lukas Berglund

Marius Hobbhahn

Max Kaufmann

Meg Tong

Owain Evans

founder

Tomasz Korbak