Yuxiao Dong

AndroidGen: Building an Android Language Agent under Data Scarcity

arXiv 2025

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

arXiv 2025

TreeRL: LLM Reinforcement Learning with On-Policy Tree Search

arXiv 2025

Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

arXiv 2025

Parameter-Efficient Fine-Tuning for Foundation Models

arXiv 2025

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

ICCV 2025

LongSafety: Evaluating Long-Context Safety of Large Language Models

arXiv 2025

LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering

arXiv 2024

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

arXiv 2024

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

arXiv 2024

CogVLM2: Visual Language Models for Image and Video Understanding

arXiv 2024

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

arXiv 2024

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

arXiv 2024

Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

arXiv 2024

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

arXiv 2024

GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

arXiv 2024

LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

arXiv 2024

AutoWebGLM: A Large Language Model-based Web Navigating Agent

arXiv 2024

ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search

arXiv 2024

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

arXiv 2024

LongReward: Improving Long-context Large Language Models with AI Feedback

arXiv 2024

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

arXiv 2024

Middleware for LLMs: Tools Are Instrumental for Language Agents in Complex Environments

arXiv 2024

AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

arXiv 2024

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

arXiv 2024

LongAlign: A Recipe for Long Context Alignment of Large Language Models

arXiv 2024

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

arXiv 2024

LVBench: An Extreme Long Video Understanding Benchmark

ICCV 2025

SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models

arXiv 2024

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

arXiv 2024

AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

arXiv 2024

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models

arXiv 2024

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

arXiv 2024

CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X

arXiv 2023

CogAgent: A Visual Language Model for GUI Agents

CVPR 2024 1

CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models

arXiv 2023

AgentBench: Evaluating LLMs as Agents

arXiv 2023

AgentTuning: Enabling Generalized Agent Abilities for LLMs

arXiv 2023

WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

arXiv 2023

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

imagereward-learning-and-evaluating-human

AlignBench: Benchmarking Chinese Alignment of Large Language Models

arXiv 2023

Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

arXiv 2023

CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation

arXiv 2023

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation

arXiv 2023