Filip Sondej

Cite

Notes

Only stored in your browser.

Attribution

2papers

Authored papers

Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization

arXiv 2025

Beyond Toxic Neurons: A Mechanistic Analysis of DPO for Toxicity Reduction

arXiv 2024

No known affiliations.

from 2 papers

Yushi Yang

Adam Mahdi

Harry Mayne

Marcel Windys

Mikołaj Kniejski