Geoffrey Irving

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

arXiv 2025

Scalable AI Safety via Doubly-Efficient Debate

arXiv 2023

Fine-Tuning Language Models via Epistemic Neural Networks

arXiv 2022

Fine-Tuning Language Models from Human Preferences

arXiv 2019

No known affiliations.

from 4 papers

Alec Radford

researcher

Benjamin Van Roy

Daniel M. Ziegler

Dario Amodei

CEO

Georgios Piliouras

Ian Osband

Ishan Mishra

Jeffrey Wu

John Aslanides

Jonah Brown-Cohen