Jingren Zhou

Qwen3-ASR Technical Report

arXiv 2026

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

arXiv 2026

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

arXiv 2026

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

arXiv 2026

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

arXiv 2026

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

arXiv 2026

AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

arXiv 2025

Qwen-Image Technical Report

arXiv 2025

Qwen3-Omni Technical Report

arXiv 2025

Qwen3 Technical Report

preprint

Qwen3-VL Technical Report

arXiv 2025

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

arXiv 2025

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

arXiv 2025

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

arXiv 2025

Fun-Audio-Chat Technical Report

arXiv 2025

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

arXiv 2025

WorldPM: Scaling Human Preference Modeling

arXiv 2025

MASKSEARCH: A Universal Pre-Training Framework to Enhance Agentic Search Capability

arXiv 2025

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

arXiv 2025

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

arXiv 2025

Mobile-Agent-v3: Fundamental Agents for GUI Automation

arXiv 2025

Soft Adaptive Policy Optimization

arXiv 2025

Qwen3Guard Technical Report

arXiv 2025

WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization

arXiv 2025

WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

arXiv 2025

Scaling Agents via Continual Pre-training

arXiv 2025

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

arXiv 2025

WebSailor: Navigating Super-human Reasoning for Web Agent

arXiv 2025

ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

arXiv 2025

WebDancer: Towards Autonomous Information Seeking Agency

arXiv 2025

WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

arXiv 2025

HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context

arXiv 2025

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

arXiv 2025

Wan: Open and Advanced Large-Scale Video Generative Models

arXiv 2025

AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

arXiv 2025

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

arXiv 2025

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

arXiv 2025

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

arXiv 2025

Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics

arXiv 2025

Very Large-Scale Multi-Agent Simulation in AgentScope

arXiv 2024

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

arXiv 2024

Qwen2.5 Technical Report

arXiv 2024

Qwen2 Technical Report

arXiv 2024

Qwen2-Audio Technical Report

arXiv 2024

In-Context LoRA for Diffusion Transformers

arXiv 2024

Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent

arXiv 2024

ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

arXiv 2024

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

arXiv 2024

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

arXiv 2024

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

arXiv 2024

AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator

arXiv 2024

EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

arXiv 2024

Language Models can Self-Lengthen to Generate Long Texts

arXiv 2024

Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment

arXiv 2024

ProcessBench: Identifying Process Errors in Mathematical Reasoning

arXiv 2024

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

arXiv 2024

Aligning Large Language Models via Self-Steering Optimization

arXiv 2024

Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model

arXiv 2024

Qwen Technical Report

arXiv 2023

Data-Juicer: A One-Stop Data Processing System for Large Language Models

arXiv 2023

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

arXiv 2023

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

arXiv 2023

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

arXiv 2023

Composer: Creative and Controllable Image Synthesis with Composable Conditions

arXiv 2023

CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility

arXiv 2023

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

CVPR 2024 1

#InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models

arXiv 2023

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

arXiv 2023

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

arXiv 2023

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

arXiv 2023

TouchStone: Evaluating Vision-Language Models by Language Models

arXiv 2023