Bowen Yu

Qwen3-Omni Technical Report

arXiv 2025

Qwen3 Technical Report

preprint

Qwen3-VL Technical Report

arXiv 2025

WorldPM: Scaling Human Preference Modeling

arXiv 2025

Soft Adaptive Policy Optimization

arXiv 2025

Qwen3Guard Technical Report

arXiv 2025

START: Self-taught Reasoner with Tools

arXiv 2025

MARGE: Improving Math Reasoning for LLMs with Guided Exploration

arXiv 2025

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

arXiv 2025

Qwen2.5 Technical Report

arXiv 2024

Qwen2 Technical Report

arXiv 2024

Towards a Unified View of Preference Learning for Large Language Models: A Survey

arXiv 2024

ProcessBench: Identifying Process Errors in Mathematical Reasoning

arXiv 2024

Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment

arXiv 2024

Self-Retrieval: End-to-End Information Retrieval with One Large Language Model

arXiv 2024

Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement

arXiv 2024

Rethinking Data Selection at Scale: Random Selection is Almost All You Need

arXiv 2024

Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model

arXiv 2024

SoFA: Shielded On-the-fly Alignment via Priority Rule Following

arXiv 2024

Transferable Post-training via Inverse Value Learning

arXiv 2024

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

arXiv 2024

Language Models can Self-Lengthen to Generate Long Texts

arXiv 2024

Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment

arXiv 2024

Aligning Large Language Models via Self-Steering Optimization

arXiv 2024

Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment

arXiv 2024

Qwen Technical Report

arXiv 2023

Preference Ranking Optimization for Human Alignment

arXiv 2023

GAMMA: Revisiting Template-based Automated Program Repair via Mask Prediction

arXiv 2023

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

arXiv 2023

Improving Question Generation with Multi-level Content Planning

arXiv 2023