Xiao Liu

Optimizing Large Language Model Training Using FP4 Quantization

arXiv 2025

EpiCoder: Encompassing Diversity and Complexity in Code Generation

arXiv 2025

AndroidGen: Building an Android Language Agent under Data Scarcity

arXiv 2025

Sigma-Moe-Tiny Technical Report

arXiv 2025

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

ICCV 2025

TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression

arXiv 2025

AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark

arXiv 2025

Process-based Self-Rewarding Language Models

arXiv 2025

SIGMA: An AI-Empowered Training Stack on Early-Life Hardware

arXiv 2025

Behind RoPE: How Does Causal Mask Encode Positional Information?

arXiv 2025

GATE: Graph-based Adaptive Tool Evolution Across Diverse Tasks

arXiv 2025

AC-Reason: Towards Theory-Guided Actual Causality Reasoning with Large Language Models

arXiv 2025

Rho-1: Not All Tokens Are What You Need

arXiv 2024

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

arXiv 2024

Attack-Resilient Image Watermarking Using Stable Diffusion

arXiv 2024

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

arXiv 2024

AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

arXiv 2024

Middleware for LLMs: Tools Are Instrumental for Language Agents in Complex Environments

arXiv 2024

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models

arXiv 2024

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

arXiv 2024

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

arXiv 2024

AutoWebGLM: A Large Language Model-based Web Navigating Agent

arXiv 2024

DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

arXiv 2024

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

arXiv 2024

AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

arXiv 2024

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

arXiv 2024

CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation

arXiv 2023

Allies: Prompting Large Language Model with Beam Search

arXiv 2023

DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture Propagation

arXiv 2023

Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation

arXiv 2023

Random Sub-Samples Generation for Self-Supervised Real Image Denoising

ICCV 2023 1

Unsupervised Image Denoising in Real-World Scenarios via Self-Collaboration Parallel Generative Adversarial Branches

ICCV 2023 1

Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer

ICCV 2023 1

The Magic of IF: Investigating Causal Reasoning Abilities in Large Language Models of Code

arXiv 2023

AlignBench: Benchmarking Chinese Alignment of Large Language Models

arXiv 2023

AgentBench: Evaluating LLMs as Agents

arXiv 2023

AgentTuning: Enabling Generalized Agent Abilities for LLMs

arXiv 2023

WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

arXiv 2023

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

imagereward-learning-and-evaluating-human

Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

arXiv 2023

SafetyBench: Evaluating the Safety of Large Language Models

arXiv 2023

SummIt: Iterative Text Summarization via ChatGPT

arXiv 2023

Syntax-Aware Network for Handwritten Mathematical Expression Recognition

CVPR 2022 1

GLM-130B: An Open Bilingual Pre-trained Model

arXiv 2022

GraphMAE: Self-Supervised Masked Graph Autoencoders

arXiv 2022

When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition

arXiv 2022