Nina Panickssery

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs

arXiv 2025

Refusal in Language Models Is Mediated by a Single Direction

arXiv 2024

Steering Llama 2 via Contrastive Activation Addition

arXiv 2023

No known affiliations.

from 3 papers

Aaquib Syed

Alex Cloud

Alexander Matt Turner

Andy Arditi

Aryo Pradipta Gema

Cem Anil

Daniel Paleka

Erik Jones

Evan Hubinger

Henry Sleight