Lei Hou

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

arXiv 2025

AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

arXiv 2025

Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

arXiv 2025

DeepPrune: Parallel Scaling without Inter-trace Redundancy

arXiv 2025

ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

arXiv 2025

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

arXiv 2025

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

arXiv 2025

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

arXiv 2025

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

arXiv 2025

Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models

arXiv 2025

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

arXiv 2024

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

arXiv 2024

LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

arXiv 2024

RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style

arXiv 2024

LongReward: Improving Long-context Large Language Models with AI Feedback

arXiv 2024

ADELIE: Aligning Large Language Models on Information Extraction

arXiv 2024

SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

arXiv 2024

A Solution-based LLM API-using Methodology for Academic Information Seeking

arXiv 2024

LongAlign: A Recipe for Long Context Alignment of Large Language Models

arXiv 2024

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

arXiv 2024

Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models

arXiv 2024

Constraint Back-translation Improves Complex Instruction Following of Large Language Models

arXiv 2024

LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking

arXiv 2024

AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning

arXiv 2024

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

arXiv 2023

WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

arXiv 2023

Probabilistic Tree-of-thought Reasoning for Answering Knowledge-intensive Complex Questions

arXiv 2023

ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time

arXiv 2023

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation

arXiv 2023

MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation

arXiv 2023