Dongrui Liu

A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook

arXiv 2026

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

arXiv 2026

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

arXiv 2026

A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

arXiv 2026

DeepSight: An All-in-One LM Safety Toolkit

arXiv 2026

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

arXiv 2026

TradeTrap: Are LLM-based Trading Agents Truly Reliable and Faithful?

arXiv 2025

RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents

arXiv 2025

Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

arXiv 2025

Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning

arXiv 2025

Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models

arXiv 2025

LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

arXiv 2025

X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability

arXiv 2025

Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Deliberation

arXiv 2025

A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence

arXiv 2025

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

arXiv 2025

ExGRPO: Learning to Reason from Experience

arXiv 2025

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

arXiv 2025

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

arXiv 2025

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

arXiv 2025

Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues

arXiv 2024

MLP Can Be A Good Transformer Learner

CVPR 2024 1

Decouple-Then-Merge: Towards Better Training for Diffusion Models

arXiv 2024

REEF: Representation Encoding Fingerprints for Large Language Models

arXiv 2024

VLSBench: Unveiling Visual Leakage in Multimodal Safety

arXiv 2024