Liang Chen

BabyVision: Visual Reasoning Beyond Language

arXiv 2026

UI-Venus-1.5 Technical Report

arXiv 2026

Kimi K2.5: Visual Agentic Intelligence

arXiv 2026

Kimi-VL Technical Report

arXiv 2025

UI-Venus Technical Report: Building High-performance UI Agents with RFT

arXiv 2025

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

arXiv 2025

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

arXiv 2025

Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning

arXiv 2025

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

arXiv 2024

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

arXiv 2024

PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain

arXiv 2024

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

arXiv 2024

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

arXiv 2024

Consecutive Batch Model Editing with HooK Layers

arXiv 2024

Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

arXiv 2024

Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

arXiv 2024

Towards a Unified View of Preference Learning for Large Language Models: A Survey

arXiv 2024

PID: Physics-Informed Diffusion Model for Infrared Image Generation

arXiv 2024

UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

arXiv 2024

ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code

arXiv 2023

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning

arXiv 2023

Improved Test-Time Adaptation for Domain Generalization

CVPR 2023 1

Domain Generalization via Rationale Invariance

ICCV 2023 1

Towards Hybrid-grained Feature Interaction Selection for Deep Sparse Network

towards-hybrid-grained-feature-interaction

Large Language Models are not Fair Evaluators

arXiv 2023

Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration

arXiv 2023

Optimizing Feature Set for Click-Through Rate Prediction

arXiv 2023

On the Off-Target Problem of Zero-Shot Multilingual Neural Machine Translation

arXiv 2023