Yang Wang

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

arXiv 2026

AcademiClaw: When Students Set Challenges for AI Agents

arXiv 2026

Progressive Residual Warmup for Language Model Pretraining

arXiv 2026

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

arXiv 2026

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

arXiv 2026

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

arXiv 2026

GigaWorld-Policy: An Efficient Action-Centered World--Action Model

arXiv 2026

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

arXiv 2026

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

arXiv 2025

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

arXiv 2025

WideSearch: Benchmarking Agentic Broad Info-Seeking

arXiv 2025

Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

arXiv 2025

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

arXiv 2025

GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling

arXiv 2025

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

arXiv 2025

Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning

arXiv 2025

On Path to Multimodal Historical Reasoning: HistBench and HistAgent

arXiv 2025

Lanpaint: Training-Free Diffusion Inpainting with Exact and Fast Conditional Inference

arXiv 2025

Tougher Text, Smarter Models: Raising the Bar for Adversarial Defence Benchmarks

arXiv 2025

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

arXiv 2025

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

arXiv 2025

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

arXiv 2025

UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models

arXiv 2025

LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

arXiv 2025

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

arXiv 2024

BitMoD: Bit-serial Mixture-of-Datatype LLM Acceleration

arXiv 2024

Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM Generation

arXiv 2024

Can We Verify Step by Step for Incorrect Answer Detection?

arXiv 2024

Can LLMs Solve longer Math Word Problems Better?

arXiv 2024

LAN: Learning Adaptive Neighbors for Real-Time Insider Threat Detection

arXiv 2024