Jun Zhou

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

arXiv 2026

KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

arXiv 2026

SkillNet: Create, Evaluate, and Connect AI Skills

arXiv 2026

LLaDA2.1: Speeding Up Text Diffusion via Token Editing

arXiv 2026

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

arXiv 2026

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

arXiv 2025

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

ICCV 2025

Ming-Omni: A Unified Multimodal Model for Perception and Generation

arXiv 2025

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

ICCV 2025

Effective and Efficient Masked Image Generation Models

arXiv 2025

MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

arXiv 2025

Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

arXiv 2025

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

arXiv 2025

Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer

arXiv 2025

M2-Reasoning: Empowering MLLMs with Unified General and Spatial Reasoning

arXiv 2025

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

arXiv 2025

M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance

arXiv 2025

Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models

arXiv 2025

Robust Preference Optimization via Dynamic Target Margins

arXiv 2025

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

arXiv 2025

MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds

arXiv 2025

LLaDA2.0: Scaling Up Diffusion Language Models to 100B

arXiv 2025

LookAhead Tuning: Safer Language Models via Partial Answer Previews

arXiv 2025

Every Sample Matters: Leveraging Mixture-of-Experts and High-Quality Data for Efficient and Accurate Code LLM

arXiv 2025

KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation

arXiv 2024

TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting

timemixer-decomposable-multiscale-mixing-for

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

arXiv 2024

LLMOPT: Learning to Define and Solve General Optimization Problems from Scratch

arXiv 2024

OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

arXiv 2024

OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

arXiv 2024

From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

arXiv 2024

TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting

arXiv 2024

Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs

arXiv 2024

CMNER: A Chinese Multimodal NER Dataset based on Social Media

arXiv 2024

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

arXiv 2023

Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis

ICCV 2023 1

EasyTPP: Towards Open Benchmarking Temporal Point Processes

arXiv 2023

Towards Anytime Fine-tuning: Continually Pre-trained Language Models with Hypernetwork Prompt

arXiv 2023

Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints Voting for Robust 6D Object Pose Estimation

ICCV 2023 1