Peter Hase

Papers: 11

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: Semantic Scholar

Attribution policy →

11papers

Authored papers

The Truthfulness Spectrum Hypothesis

arXiv 2026

2026

Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation

arXiv 2025

2025

Teaching Models to Balance Resisting and Accepting Persuasion

arXiv 2024

2024

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

arXiv 2024

2024

LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models

arXiv 2024

2024

Can Language Models Teach Weaker Agents? Teacher Explanations Improve Students via Personalization

arXiv 2023

2023

Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models

does-localization-inform-editing-surprising

2023

Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks

arXiv 2023

2023

Are Hard Examples also Harder to Explain? A Study with Human and Model-Generated Explanations

arXiv 2022

2022

When Can Models Learn From Explanations? A Formal Framework for Understanding the Roles of Explanation Data

LNLS (ACL) 2022 5

2021

Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?

evaluating-explainable-ai-which-algorithmic-1

2020

Affiliations

No known affiliations.

Frequent co-authors

from 11 papers

Mohit Bansal

Elias Stengel-Eskin

Swarnadeep Saha

Vaidehi Patil

Asma Ghandeharioun

Been Kim

Jie Peng

Nazneen Rajani

Nikolaus Kriegeskorte

1 shared paper

Peter Clark

1 shared paper