Fan Yang

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

arXiv 2026

DeFM: Learning Foundation Representations from Depth for Robotics

arXiv 2026

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

arXiv 2026

Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making

arXiv 2026

Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation

arXiv 2025

Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details

arXiv 2025

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

arXiv 2025

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

arXiv 2025

SeerAttention-R: Sparse Attention Adaptation for Long Reasoning

arXiv 2025

RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

arXiv 2025

SwapAnyone: Consistent and Realistic Video Synthesis for Swapping Any Person into Any Video

arXiv 2025

Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models

arXiv 2025

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

arXiv 2025

MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification

arXiv 2025

SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science

arXiv 2025

Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

arXiv 2025

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

arXiv 2025

Thyme: Think Beyond Images

arXiv 2025

Puppeteer: Rig and Animate Your 3D Models

arXiv 2025

Kwai Keye-VL 1.5 Technical Report

arXiv 2025

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

arXiv 2025

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

arXiv 2025

rStar2-Agent: Agentic Reasoning Technical Report

arXiv 2025

LongRoPE2: Near-Lossless LLM Context Window Scaling

arXiv 2025

Baichuan-Omni-1.5 Technical Report

arXiv 2025

LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

arXiv 2025

SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding

arXiv 2025

Metis: Training Large Language Models with Advanced Low-Bit Quantization

arXiv 2025

MobileNetV4 -- Universal Models for the Mobile Ecosystem

arXiv 2024

CFBench: A Comprehensive Constraints-Following Benchmark for LLMs

arXiv 2024

Simple Policy Optimization

arXiv 2024

Baichuan-Omni Technical Report

arXiv 2024

Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion

arXiv 2024

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

arXiv 2024

Exploring Concept Depth: How Large Language Models Acquire Knowledge at Different Layers?

arXiv 2024

Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era

arXiv 2024

KidSat: satellite imagery to map childhood poverty dataset and benchmark

arXiv 2024

Robustness-aware Automatic Prompt Optimization

arXiv 2024

Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge

arXiv 2024

Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages

arXiv 2024

MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

arXiv 2024

Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction Tuning

arXiv 2024

Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

arXiv 2024

Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

arXiv 2024

AGTGAN: Unpaired Image Translation for Photographic Ancient Character Generation

arXiv 2023

Baichuan 2: Open Large-scale Language Models

arXiv 2023

Data-centric Artificial Intelligence: A Survey

arXiv 2023

Student Classroom Behavior Detection based on YOLOv7-BRA and Multi-Model Fusion

arXiv 2023

IRGen: Generative Modeling for Image Retrieval

arXiv 2023