Fei Huang

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

arXiv 2026

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

arXiv 2026

Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding

arXiv 2026

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

arXiv 2026

Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation

arXiv 2025

Qwen3 Technical Report

preprint

Qwen3-VL Technical Report

arXiv 2025

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

arXiv 2025

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

arXiv 2025

OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction

arXiv 2025

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

arXiv 2025

VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

arXiv 2025

WritingBench: A Comprehensive Benchmark for Generative Writing

arXiv 2025

OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

arXiv 2025

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

arXiv 2025

WorldPM: Scaling Human Preference Modeling

arXiv 2025

MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding

arXiv 2025

Scaling External Knowledge Input Beyond Context Windows of LLMs via Multi-Agent Collaboration

arXiv 2025

MASKSEARCH: A Universal Pre-Training Framework to Enhance Agentic Search Capability

arXiv 2025

EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

arXiv 2025

Mobile-Agent-v3: Fundamental Agents for GUI Automation

arXiv 2025

Qwen3Guard Technical Report

arXiv 2025

WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization

arXiv 2025

WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

arXiv 2025

Scaling Agents via Continual Pre-training

arXiv 2025

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

arXiv 2025

WebSailor: Navigating Super-human Reasoning for Web Agent

arXiv 2025

ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

arXiv 2025

WebDancer: Towards Autonomous Information Seeking Agency

arXiv 2025

WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

arXiv 2025

UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

arXiv 2025

Perception-Aware Policy Optimization for Multimodal Reasoning

arXiv 2025

Scaling Generalist Data-Analytic Agents

arXiv 2025

Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute

arXiv 2025

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

arXiv 2025

AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

CVPR 2025 1

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

arXiv 2025

Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics

arXiv 2025

ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

arXiv 2025

AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

arXiv 2025

OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

arXiv 2025

Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization

arXiv 2025

Agentic Knowledgeable Self-awareness

arXiv 2025

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

arXiv 2025

DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

arXiv 2025

Adaptive Thinking via Mode Policy Optimization for Social Language Agents

arXiv 2025

Enhancing Language Multi-Agent Learning with Multi-Agent Credit Re-Assignment for Interactive Environment Generalization

arXiv 2025

LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing

arXiv 2025

TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

arXiv 2025

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

arXiv 2025

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

arXiv 2025

Qwen2.5 Technical Report

arXiv 2024

Qwen2 Technical Report

arXiv 2024

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

arXiv 2024

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

arXiv 2024

Training-Free Long-Context Scaling of Large Language Models

arXiv 2024

Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent

arXiv 2024

DISC: Plug-and-Play Decoding Intervention with Similarity of Characters for Chinese Spelling Check

arXiv 2024

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

CVPR 2025 1

DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling

arXiv 2024

Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion

arXiv 2024

Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment

arXiv 2024

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

arXiv 2024

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

arXiv 2024

Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration

arXiv 2024

Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement

arXiv 2024

Small LLMs Are Weak Tool Learners: A Multi-LLM Agent

arXiv 2024

Agent Planning with World Knowledge Model

arXiv 2024

Benchmarking Agentic Workflow Generation

arXiv 2024

Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment

arXiv 2024

Model Composition for Multimodal Large Language Models

arXiv 2024

On the Role of Attention Heads in Large Language Model Safety

arXiv 2024

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

arXiv 2024

Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion?

arXiv 2024

Self-Retrieval: End-to-End Information Retrieval with One Large Language Model

arXiv 2024

DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

arXiv 2024

Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement

arXiv 2024

mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

arXiv 2024

Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model

arXiv 2024

Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts

arXiv 2024

AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator

arXiv 2024

Qwen Technical Report

arXiv 2023

PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts

arXiv 2023

SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents

spokenwoz-a-large-scale-speech-text-benchmark

Preference Ranking Optimization for Human Alignment

arXiv 2023

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

arXiv 2023

CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility

arXiv 2023

Improving Question Generation with Multi-level Content Planning

arXiv 2023

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

CVPR 2024 1

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

arXiv 2023

NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from Native Speaker Texts

arXiv 2023

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

arXiv 2023

SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence Understanding

arXiv 2023

Directed Acyclic Transformer Pre-training for High-quality Non-autoregressive Text Generation

arXiv 2023

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

arXiv 2023

FactCHD: Benchmarking Fact-Conflicting Hallucination Detection

arXiv 2023

One-Shot Learning as Instruction Data Prospector for Large Language Models

arXiv 2023

Iterative Forward Tuning Boosts In-Context Learning in Language Models

arXiv 2023

Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use

arXiv 2023

RRHF: Rank Responses to Align Language Models with Human Feedback without tears

arXiv 2023

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections

arXiv 2022

AISHELL-NER: Named Entity Recognition from Chinese Speech

arXiv 2022

Reasoning with Language Model Prompting: A Survey

arXiv 2022

SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

arXiv 2022