Yaodong Yang

PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

arXiv 2025

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

arXiv 2025

Risk-aware Direct Preference Optimization under Nested Risk Measure

arXiv 2025

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

arXiv 2025

Re:Form -- Reducing Human Annotations in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

arXiv 2025

Align Anything: Training All-Modality Models to Follow Instructions with Language Feedback

arXiv 2024

Language Models Resist Alignment: Evidence From Data Compression

arXiv 2024

CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents

arXiv 2024

In-Context Editing: Learning Knowledge from Self-Induced Distributions

arXiv 2024

ProgressGym: Alignment with a Millennium of Moral Progress

arXiv 2024

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

NeurIPS

SafeDreamer: Safe Reinforcement Learning with World Models

arXiv 2023

Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence

arXiv 2023

Safe RLHF: Safe Reinforcement Learning from Human Feedback

arXiv 2023

Byzantine Robust Cooperative Multi-Agent Reinforcement Learning as a Bayesian Game

arXiv 2023

Regret-Minimizing Double Oracle for Extensive-Form Games

arXiv 2023