Jie Fu

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

arXiv 2025

Generating Symbolic World Models via Test-time Scaling of Large Language Models

arXiv 2025

Learning from Failures in Multi-Attempt Reinforcement Learning

arXiv 2025

ChatMusician: Understanding and Generating Music Intrinsically with LLM

arXiv 2024

GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory

arXiv 2024

MEIT: Multi-Modal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation

arXiv 2024

m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers

arXiv 2024

VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text

arXiv 2024

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

arXiv 2024

Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation

arXiv 2024

Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction

arXiv 2024

ComposerX: Multi-Agent Symbolic Music Composition with LLMs

arXiv 2024

MIO: A Foundation Model on Multimodal Tokens

arXiv 2024

Layerwise Recurrent Router for Mixture-of-Experts

arXiv 2024

Unlocking Continual Learning Abilities in Language Models

arXiv 2024

LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters

arXiv 2024

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

arXiv 2024

Pixel Sentence Representation Learning

arXiv 2024

MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation

arXiv 2024

LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing

arXiv 2024

ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

arXiv 2023

Huatuo-26M, a Large-scale Chinese Medical QA Dataset

arXiv 2023

A Survey of Reasoning with Foundation Models

arXiv 2023

Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs

arXiv 2023

AutoAgents: A Framework for Automatic Agent Generation

arXiv 2023

Chinese Open Instruction Generalist: A Preliminary Release

arXiv 2023

RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models

arXiv 2023

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

arXiv 2023

TACO: Topics in Algorithmic COde generation dataset

arXiv 2023

Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning

arXiv 2023

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

arXiv 2023

Align on the Fly: Adapting Chatbot Behavior to Established Norms

arXiv 2023

Unlocking Emergent Modularity in Large Language Models

arXiv 2023

Massive Editing for Large Language Models via Meta Learning

arXiv 2023

SynFundus-1M: A High-quality Million-scale Synthetic fundus images Dataset with Fifteen Types of Annotation

arXiv 2023

Think Before You Act: Decision Transformers with Working Memory

arXiv 2023