Hao Zhou

SpaceR: Reinforcing MLLMs in Video Spatial Reasoning

arXiv 2025

AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning

arXiv 2025

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

arXiv 2025

FLEX: Continuous Agent Evolution via Forward Learning from Experience

arXiv 2025

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

arXiv 2025

A Periodic Bayesian Flow for Material Generation

arXiv 2025

Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

arXiv 2025

Enabling Versatile Controls for Video Diffusion Models

arXiv 2025

MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment

arXiv 2025

Image Diffusion Preview with Consistency Solver

arXiv 2025

Vision-Language Models Can Self-Improve Reasoning via Reflection

arXiv 2024

On Prompt-Driven Safeguarding for Large Language Models

arXiv 2024

MiniPLM: Knowledge Distillation for Pre-Training Language Models

arXiv 2024

PruneVid: Visual Token Pruning for Efficient Video Large Language Models

arXiv 2024

Unified Generative Modeling of 3D Molecules via Bayesian Flow Networks

arXiv 2024

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

arXiv 2024

HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

arXiv 2024

MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation

arXiv 2024

VideoPrism: A Foundational Visual Encoder for Video Understanding

arXiv 2024

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

arXiv 2024

VideoGLUE: Video General Understanding Evaluation of Foundation Models

arXiv 2023

HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception

hap-structure-aware-masked-image-modeling-for

Large Language Models Are Not Robust Multiple Choice Selectors

arXiv 2023

Towards Codable Watermarking for Injecting Multi-bits Information to LLMs

arXiv 2023

Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning

arXiv 2023

Re$^3$Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for Long-Turn Open-Domain Dialogue Pre-training

arXiv 2023

$\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text Generation

arXiv 2022

2022

On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark

Findings (ACL) 2022 5

2021

Glancing Transformer for Non-Autoregressive Neural Machine Translation

ACL 2021 5

LOREN: Logic-Regularized Reasoning for Interpretable Fact Verification

arXiv 2020

KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation

kdconv-a-chinese-multi-domain-dialogue-1

CPM: A Large-scale Generative Chinese Pre-trained Language Model

arXiv 2020