Zhengxuan Wu

Papers: 8

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: Semantic Scholar

Attribution policy →

8papers

Authored papers

HyperSteer: Activation Steering at Scale with Hypernetworks

arXiv 2025

2025

RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations

arXiv 2024

2024

ReFT: Representation Finetuning for Language Models

arXiv 2024

2024

pyvene: A Library for Understanding and Improving PyTorch Models via Interventions

arXiv 2024

2024

A Reply to Makelov et al. (2023)'s "Interpretability Illusion" Arguments

arXiv 2024

2024

MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions

arXiv 2023

2023

Causal Proxy Models for Concept-Based Model Explanations

arXiv 2022

2022

DynaSent: A Dynamic Benchmark for Sentiment Analysis

ACL 2021 5

2020

Affiliations

No known affiliations.

Frequent co-authors

from 8 papers

Christopher Potts

8 shared papers

Atticus Geiger

7 shared papers

Aryaman Arora

3 shared papers

Christopher D. Manning

Jing Huang

Noah D. Goodman

Zheng Wang

Amir Zur

Dan Jurafsky

Danqi Chen

professor

1 shared paper