Yushi Yang

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization

arXiv 2025

Evaluating Fine-Tuning Efficiency of Human-Inspired Learning Strategies in Medical Question Answering

arXiv 2024

Beyond Toxic Neurons: A Mechanistic Analysis of DPO for Toxicity Reduction

arXiv 2024

Can sparse autoencoders be used to decompose and interpret steering vectors?

arXiv 2024

No known affiliations.

from 4 papers

Adam Mahdi

Filip Sondej

Harry Mayne

Andrew M. Bean

Marcel Windys

Mikołaj Kniejski

Robert McCraith