Yidong Wang

Masked Autoencoders Are Effective Tokenizers for Diffusion Models

arXiv 2025

TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

arXiv 2025

RewardAnything: Generalizable Principle-Following Reward Models

arXiv 2025

AutoSurvey: Large Language Models Can Automatically Write Surveys

arXiv 2024

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

arXiv 2024

Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People

arXiv 2024

FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models

arXiv 2024

CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios

arXiv 2024

Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation

arXiv 2024

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

arXiv 2023

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity

arXiv 2023

A Survey on Evaluation of Large Language Models

arXiv 2023

Supervised Knowledge Makes Large Language Models Better In-context Learners

arXiv 2023