Bin Xu

BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models

arXiv 2025

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

arXiv 2025

EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios

arXiv 2025

AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

arXiv 2025

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

arXiv 2025

WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

arXiv 2025

LoSiA: Efficient High-Rank Fine-Tuning via Subnet Localization and Optimization

arXiv 2025

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

arXiv 2025

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

arXiv 2025

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

arXiv 2025

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

arXiv 2024

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

arXiv 2024

CogVLM2: Visual Language Models for Image and Video Understanding

arXiv 2024

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

arXiv 2024

LVBench: An Extreme Long Video Understanding Benchmark

ICCV 2025

ADELIE: Aligning Large Language Models on Information Extraction

arXiv 2024

Constraint Back-translation Improves Complex Instruction Following of Large Language Models

arXiv 2024

SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation

arXiv 2024

CogAgent: A Visual Language Model for GUI Agents

CVPR 2024 1

Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction Network for Tone Mapping

arXiv 2023

Towards General Low-Light Raw Noise Synthesis and Modeling

ICCV 2023 1

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

arXiv 2023

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation

arXiv 2023