Tinghao Xie

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

arXiv 2024

On Evaluating the Durability of Safeguards for Open-Weight LLMs

arXiv 2024

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

arXiv 2023

Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks

CVPR 2022 1

No known affiliations.

from 4 papers

Xiangyu Qi

Peter Henderson

Prateek Mittal

Boyi Wei

Luxi He

Ruoxi Jia

Yangsibo Huang

Yi Zeng

Bo Li

Dacheng Li

grad-student