Mengdi Wang

RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

arXiv 2026

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

arXiv 2026

SWE-Milestone: Evaluating AI Agents on Continuous Software Evolution

arXiv 2026

Deep Delta Learning

arXiv 2026

FlashSampling: Fast and Memory-Efficient Exact Sampling

arXiv 2026

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

arXiv 2026

Interactive Benchmarks

arXiv 2026

MMaDA: Multimodal Large Diffusion Language Models

arXiv 2025

Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

arXiv 2025

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

arXiv 2025

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

arXiv 2025

PoseX: AI Defeats Physics Approaches on Protein-Ligand Cross Docking

arXiv 2025

EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety

arXiv 2025

Monadic Context Engineering

arXiv 2025

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

arXiv 2025

Web World Models

arXiv 2025

Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models

arXiv 2025

Pretraining Large Language Models with NVFP4

arXiv 2025

From Word to World: Can Large Language Models be Implicit Text-based World Models?

arXiv 2025

A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence

arXiv 2025

On Path to Multimodal Historical Reasoning: HistBench and HistAgent

arXiv 2025

NoWag: A Unified Framework for Shape Preserving Compression of Large Language Models

arXiv 2025

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

arXiv 2025

Latent Collaboration in Multi-Agent Systems

arXiv 2025

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

arXiv 2025

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

arXiv 2025

Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models

arXiv 2025

Temporal Consistency for LLM Reasoning Process Error Identification

arXiv 2025

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment

CVPR 2025 1

Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

arXiv 2024

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

arXiv 2024

Fast Best-of-N Decoding via Speculative Rejection

arXiv 2024

SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths

arXiv 2024

A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

arXiv 2024