Bolin Ding

CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL

arXiv 2025

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

arXiv 2025

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

arXiv 2025

RePO: ReLU-based Preference Optimization

arXiv 2025

AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

arXiv 2025

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

arXiv 2025

Incentivizing Reasoning from Weak Supervision

arXiv 2025

EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

arXiv 2024

$β$-DPO: Direct Preference Optimization with Dynamic $β$

arXiv 2024

Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization

arXiv 2024

Very Large-Scale Multi-Agent Simulation in AgentScope

arXiv 2024

Exploring Selective Layer Fine-Tuning in Federated Learning

arXiv 2024

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

arXiv 2023

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes

arXiv 2023

Data-Juicer: A One-Stop Data Processing System for Large Language Models

arXiv 2023

CARD: Channel Aligned Robust Blend Transformer for Time Series Forecasting

arXiv 2023