Wenxuan Zhang

Language of Thought Shapes Output Diversity in Large Language Models

arXiv 2026

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

arXiv 2026

Process Rewards with Learned Reliability

arXiv 2026

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

arXiv 2025

PEAR: Phase Entropy Aware Reward for Efficient Reasoning

arXiv 2025

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

arXiv 2025

FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models

arXiv 2025

Large Language Models Do NOT Really Know What They Don't Know

arXiv 2025

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

arXiv 2025

How do Large Language Models Handle Multilingualism?

arXiv 2024

On the Multi-turn Instruction Following for Conversational Web Agents

arXiv 2024

Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions

arXiv 2024

Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models

arXiv 2024

SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

arXiv 2024

Multilingual Jailbreak Challenges in Large Language Models

arXiv 2023

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents

arXiv 2023

Overcoming Generic Knowledge Loss with Selective Parameter Update

CVPR 2024 1

Easy-to-Hard Learning for Information Extraction

arXiv 2023

Knowledge-enhanced Mixed-initiative Dialogue System for Emotional Support Conversations

arXiv 2023

Continual Zero-Shot Learning through Semantically Guided Generative Random Walks

ICCV 2023 1

SOUL: Towards Sentiment and Opinion Understanding of Language

arXiv 2023

SeaLLMs -- Large Language Models for Southeast Asia

arXiv 2023

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models

NeurIPS 2023 11

Zero-Shot Text Classification via Self-Supervised Tuning

arXiv 2023

AQE: Argument Quadruplet Extraction via a Quad-Tagging Augmented Generative Approach

arXiv 2023

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

CVPR 2023 1

From Cloze to Comprehension: Retrofitting Pre-trained Masked Language Model to Pre-trained Machine Reader

arXiv 2022

User Satisfaction Estimation with Sequential Dialogue Act Modeling in Goal-oriented Conversational Systems

arXiv 2022

A Simple Baseline that Questions the Use of Pretrained-Models in Continual Learning

arXiv 2022