Hao Sun

Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

arXiv 2025

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning

arXiv 2025

FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis

arXiv 2025

A Token-level Text Image Foundation Model for Document Understanding

ICCV 2025

Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs

arXiv 2025

Benchmarking LLMs' Swarm intelligence

arXiv 2025

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

arXiv 2025

DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion

arXiv 2025

Rethinking Diverse Human Preference Learning through Principal Component Analysis

arXiv 2025

Discovering symbolic expressions with parallelized tree search

arXiv 2024

ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors

arXiv 2024

Dense Reward for Free in Reinforcement Learning from Human Feedback

arXiv 2024

Beyond Uncertainty: Evidential Deep Learning for Robust Video Temporal Grounding

arXiv 2024

PA-RAG: RAG Alignment via Multi-Perspective Preference Optimization

arXiv 2024

LiveIdeaBench: Evaluating LLMs' Scientific Creativity and Idea Generation with Minimal Context

arXiv 2024

MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning

arXiv 2024

When Graph meets Multimodal: Benchmarking on Multimodal Attributed Graphs Learning

arXiv 2024

Cross-model Control: Improving Multiple Large Language Models in One-time Training

arXiv 2024

Reasoning-Enhanced Object-Centric Learning for Videos

arXiv 2024

Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL

arXiv 2023

Safety Assessment of Chinese Large Language Models

arXiv 2023

IRGen: Generative Modeling for Image Retrieval

arXiv 2023

Unveiling the Implicit Toxicity in Large Language Models

arXiv 2023

Allies: Prompting Large Language Model with Beam Search

arXiv 2023

PAL: Persona-Augmented Emotional Support Conversation Generation

arXiv 2022

COLD: A Benchmark for Chinese Offensive Language Detection

arXiv 2022

Distill-VQ: Learning Retrieval Oriented Vector Quantization By Distilling Knowledge from Dense Embeddings

arXiv 2022

Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping

arXiv 2022

Progressively Optimized Bi-Granular Document Representation for Scalable Embedding Based Retrieval

arXiv 2022

MoralDial: A Framework to Train and Evaluate Moral Dialogue Systems via Moral Discussions

arXiv 2022

EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training

arXiv 2022