Neil Gong

Cite

Notes

Only stored in your browser.

Attribution

5papers

Authored papers

Safety at Scale: A Comprehensive Survey of Large Model Safety

arXiv 2025

PLeak: Prompt Leaking Attacks against Large Language Model Applications

arXiv 2024

GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis

arXiv 2024

AI-generated Image Detection: Passive or Watermark?

arXiv 2024

SneakyPrompt: Jailbreaking Text-to-image Generative Models

arXiv 2023

No known affiliations.

from 5 papers

Bo Hui

Haolin Yuan

Yinzhi Cao

Amir Sadovnik

Arka Daw

Baoyuan Wu

Bo Li

Chaowei Xiao

Cihang Xie

Cong Wang