Liwei Jiang

A Roadmap to Pluralistic Alignment

arXiv 2024

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

arXiv 2024

AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text

arXiv 2024

Faith and Fate: Limits of Transformers on Compositionality

faith-and-fate-limits-of-transformers-on

Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement

arXiv 2023

Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning

arXiv 2023

Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties

arXiv 2023

SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization

arXiv 2022

ClarifyDelphi: Reinforced Clarification Questions with Defeasibility Rewards for Social and Moral Situations

arXiv 2022

Quark: Controllable Text Generation with Reinforced Unlearning

arXiv 2022

ProsocialDialog: A Prosocial Backbone for Conversational Agents

arXiv 2022