Hao Liang

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

arXiv 2026

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

arXiv 2026

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

arXiv 2026

VABench: A Comprehensive Benchmark for Audio-Video Generation

arXiv 2025

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

arXiv 2025

MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification

arXiv 2025

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

arXiv 2025

LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts

arXiv 2025

Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling

arXiv 2025

MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

arXiv 2025

Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

arXiv 2025

Baichuan-Omni-1.5 Technical Report

arXiv 2025

VCU-Bridge: Hierarchical Visual Connotation Understanding via Semantic Bridging

arXiv 2025

Let's Verify Math Questions Step by Step

arXiv 2025

FlipVQA-Miner: Cross-Page Visual Question-Answer Mining from Textbooks

arXiv 2025

CFBench: A Comprehensive Constraints-Following Benchmark for LLMs

arXiv 2024

QAEncoder: Towards Aligned Representation Learning in Question Answering System

arXiv 2024

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

arXiv 2024

SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models

arXiv 2024

Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction Tuning

arXiv 2024

Synth-Empathy: Towards High-Quality Synthetic Empathy Data

arXiv 2024

BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search

arXiv 2024

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

arXiv 2024

Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models

arXiv 2024