Bo Liu

LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

arXiv 2025

TextArena

arXiv 2025

MAGREF: Masked Guidance for Any-Reference Video Generation

arXiv 2025

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

arXiv 2025

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

arXiv 2025

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

arXiv 2025

Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis

arXiv 2025

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

arXiv 2025

ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

arXiv 2025

Mobius: Text to Seamless Looping Video Generation via Latent Shift

arXiv 2025

SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

arXiv 2025

GEM: A Gym for Agentic LLMs

arXiv 2025

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

arXiv 2025

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

arXiv 2024

DeepSeek-VL: Towards Real-World Vision-Language Understanding

arXiv 2024

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

arXiv 2024

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

arXiv 2024

Cautious Optimizers: Improving Training with One Line of Code

arXiv 2024

AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies

arXiv 2024

Asynchronous Local-SGD Training for Language Modeling

arXiv 2024

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

arXiv 2024

Longhorn: State Space Models are Amortized Online Learners

arXiv 2024

CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training

arXiv 2024

Natural Language Reinforcement Learning

arXiv 2024

Memory-Efficient LLM Training with Online Subspace Descent

arXiv 2024

AMO Sampler: Enhancing Text Rendering with Overshooting

CVPR 2025 1

Learning Memory Mechanisms for Decision Making through Demonstrations

arXiv 2024

Positive Text Reframing under Multi-strategy Optimization

arXiv 2024

Feature Re-Embedding: Towards Foundation Model-Level Performance in Computational Pathology

CVPR 2024 1

LLM+P: Empowering Large Language Models with Optimal Planning Proficiency

arXiv 2023

UGG: Unified Generative Grasping

arXiv 2023

Hierarchical Spatio-Temporal Representation Learning for Gait Recognition

ICCV 2023 1

DMCVR: Morphology-Guided Diffusion Model for 3D Cardiac Volume Reconstruction

arXiv 2023

EasyGen: Easing Multimodal Generation with BiDiffuser and LLMs

arXiv 2023

HiH: A Multi-modal Hierarchy in Hierarchy Network for Unconstrained Gait Recognition

arXiv 2023