Yuxuan Zhang

ClawBench: Can AI Agents Complete Everyday Online Tasks?

arXiv 2026

RewardHarness: Self-Evolving Agentic Post-Training

arXiv 2026

Watch Before You Answer: Learning from Visually Grounded Post-Training

arXiv 2026

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

arXiv 2025

lmgame-Bench: How Good are LLMs at Playing Games?

arXiv 2025

EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

ICCV 2025

Cosmos World Foundation Model Platform for Physical AI

arXiv 2025

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

ICCV 2025

Distillation-Supervised Convolutional Low-Rank Adaptation for Efficient Image Super-Resolution

arXiv 2025

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

arXiv 2025

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

arXiv 2025

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

arXiv 2025

PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

arXiv 2025

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

arXiv 2025

CineTechBench: A Benchmark for Cinematographic Technique Understanding and Generation

arXiv 2025

StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs

arXiv 2025

Enhanced Semantic Extraction and Guidance for UGC Image Super Resolution

arXiv 2025

EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

arXiv 2024

Stable-Hair: Real-World Hair Transfer via Diffusion Model

arXiv 2024

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

arXiv 2024

Stable-Makeup: When Real-World Makeup Transfer Meets Diffusion Model

arXiv 2024

DLP-LoRA: Efficient Task-Specific LoRA Fusion with a Dynamic, Lightweight Plugin for Large Language Models

arXiv 2024