Juanzi Li

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

arXiv 2026

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

arXiv 2026

MAIC-UI: Making Interactive Courseware with Generative UI

arXiv 2026

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

arXiv 2026

WildReward: Learning Reward Models from In-the-Wild Human Interactions

arXiv 2026

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

arXiv 2025

AdaptThink: Reasoning Models Can Learn When to Think

arXiv 2025

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

arXiv 2025

AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

arXiv 2025

Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

arXiv 2025

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

arXiv 2025

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

arXiv 2025

Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

arXiv 2025

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

arXiv 2025

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

arXiv 2025

Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models

arXiv 2025

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

arXiv 2025

SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models

arXiv 2025

DeepPrune: Parallel Scaling without Inter-trace Redundancy

arXiv 2025

ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

arXiv 2025

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

arXiv 2025

EmoBench: Evaluating the Emotional Intelligence of Large Language Models

arXiv 2024

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

arXiv 2024

CogVLM2: Visual Language Models for Image and Video Understanding

arXiv 2024

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

arXiv 2024

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

arXiv 2024

LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

arXiv 2024

RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style

arXiv 2024

LongReward: Improving Long-context Large Language Models with AI Feedback

arXiv 2024

ADELIE: Aligning Large Language Models on Information Extraction

arXiv 2024

SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

arXiv 2024

Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models

arXiv 2024

LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking

arXiv 2024

AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning

arXiv 2024

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios

arXiv 2024

LongAlign: A Recipe for Long Context Alignment of Large Language Models

arXiv 2024

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

arXiv 2024

A Solution-based LLM API-using Methodology for Academic Information Seeking

arXiv 2024

Constraint Back-translation Improves Complex Instruction Following of Large Language Models

arXiv 2024

CogAgent: A Visual Language Model for GUI Agents

CVPR 2024 1

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

arXiv 2023

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation

arXiv 2023

MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation

arXiv 2023

ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time

arXiv 2023

GLM-Dialog: Noise-tolerant Pre-training for Knowledge-grounded Dialogue Generation

arXiv 2023

WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

arXiv 2023

Probabilistic Tree-of-thought Reasoning for Answering Knowledge-intensive Complex Questions

arXiv 2023