Kun Zhou

DVD: Deterministic Video Depth Estimation with Generative Priors

arXiv 2026

BOOKMARKS: Efficient Active Storyline Memory for Role-playing

arXiv 2026

FIRE-Bench: Evaluating AI Agents on the Rediscovery of Scientific Insights

arXiv 2026

Deriving Character Logic from Storyline as Codified Decision Trees

arXiv 2026

Causal-Copilot: An Autonomous Causal Analysis Agent

arXiv 2025

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

arXiv 2025

Learning Plug-and-play Memory for Guiding Video Diffusion Models

arXiv 2025

DeliveryBench: Can Agents Earn Profit in Real World?

arXiv 2025

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

arXiv 2025

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

arXiv 2025

InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation

arXiv 2025

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

arXiv 2025

VIPER: Process-aware Evaluation for Generative Video Reasoning

arXiv 2025

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint

arXiv 2024

Towards Effective and Efficient Continual Pre-training of Large Language Models

arXiv 2024

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

arXiv 2024

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

arXiv 2024

Towards Event-oriented Long Video Understanding

arXiv 2024

Interactive Rendering of Relightable and Animatable Gaussian Avatars

arXiv 2024

YuLan: An Open-source Large Language Model

arXiv 2024

LLMBox: A Comprehensive Library for Large Language Models

arXiv 2024

MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

arXiv 2024

YuLan-Mini: An Open Data-efficient Language Model

arXiv 2024

GS^3: Efficient Relighting with Triple Gaussian Splatting

arXiv 2024

ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models

arXiv 2023

Text-Guided 3D Face Synthesis -- From Generation to Editing

arXiv 2023

Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning

evaluating-and-improving-tool-augmented

Improving Conversational Recommendation Systems via Counterfactual Data Simulation

arXiv 2023

A Survey of Large Language Models

arXiv 2023

Evaluating Object Hallucination in Large Vision-Language Models

arXiv 2023

StructGPT: A General Framework for Large Language Model to Reason over Structured Data

arXiv 2023

MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation

arXiv 2023

NeRFLiX: High-Quality Neural View Synthesis by Learning a Degradation-Driven Inter-viewpoint MiXer

CVPR 2023 1

MAT: Mask-Aware Transformer for Large Hole Image Inpainting

CVPR 2022 1

Debiased Contrastive Learning of Unsupervised Sentence Representations

ACL 2022 5

C2-CRS: Coarse-to-Fine Contrastive Learning for Conversational Recommender System

arXiv 2022

Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning

arXiv 2022

Filter-enhanced MLP is All You Need for Sequential Recommendation

arXiv 2022

Image Inpainting via Iteratively Decoupled Probabilistic Modeling

arXiv 2022