Hongxia Yang

InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents

arXiv 2026

Geometry Conflict: Explaining and Controlling Forgetting in LLM Continual Post-Training

arXiv 2026

FeatCal: Feature Calibration for Post-Merging Models

arXiv 2026

E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

arXiv 2026

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

arXiv 2025

Model Merging Scaling Laws in Large Language Models

arXiv 2026

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

arXiv 2025

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

arXiv 2025

InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models

arXiv 2025

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

arXiv 2025

InfiGFusion: Graph-on-Logits Distillation via Efficient Gromov-Wasserstein for Model Fusion

arXiv 2025

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

arXiv 2025

FullStack Bench: Evaluating LLMs as Full Stack Coders

arXiv 2024

Autoregressive Models in Vision: A Survey

arXiv 2024

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

arXiv 2024

Empowering Large Language Model Agents through Action Learning

arXiv 2024

Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation

arXiv 2024

InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models

arXiv 2024

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

arXiv 2024

Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model

arXiv 2024

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

arXiv 2024

Law of Vision Representation in MLLMs

arXiv 2024

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens

CVPR 2023 1

Self-Infilling Code Generation

arXiv 2023

LEMON: Lossless model expansion

arXiv 2023

Learning Stackable and Skippable LEGO Bricks for Efficient, Reconfigurable, and Variable-Resolution Diffusion Modeling

arXiv 2023

Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction

arXiv 2023