Qipeng Guo

daVinci-LLM:Towards the Science of Pretraining

arXiv 2026

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

arXiv 2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

arXiv 2026

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

arXiv 2026

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

arXiv 2026

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment

arXiv 2026

VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search

arXiv 2025

Thus Spake Long-Context Large Language Model

arXiv 2025

CritiQ: Mining Data Quality Criteria from Human Preferences

arXiv 2025

FastMCTS: A Simple Sampling Strategy for Data Synthesis

arXiv 2025

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

arXiv 2025

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

arXiv 2025

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

arXiv 2025

Pre-Trained Policy Discriminators are General Reward Models

arXiv 2025

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

arXiv 2025

IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

arXiv 2025

GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization

arXiv 2025

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

arXiv 2025

Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs

arXiv 2025

DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

arXiv 2025

What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices

arXiv 2024

LongWanjuan: Towards Systematic Measurement for Long Text Quality

arXiv 2024

AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data

arXiv 2024

OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection

arXiv 2024

NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens

arXiv 2024

Can Language Models Learn to Skip Steps?

arXiv 2024

A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond

arXiv 2024

Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders

arXiv 2024

Case2Code: Learning Inductive Reasoning with Synthetic Data

arXiv 2024

ReAttention: Training-Free Infinite Context with Finite Attention Scope

arXiv 2024

Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models

arXiv 2024

F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods

arXiv 2024

CoLLiE: Collaborative Training of Large Language Models in an Efficient Way

arXiv 2023

Do Large Language Models Know What They Don't Know?

arXiv 2023

Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication

arXiv 2023

StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding

arXiv 2023

AdaLomo: Low-memory Optimization with Adaptive Learning Rate

arXiv 2023