Liang Zhao

Step-Audio-R1.5 Technical Report

arXiv 2026

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

arXiv 2026

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

arXiv 2026

STEP3-VL-10B Technical Report

arXiv 2026

MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

arXiv 2025

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

preprint

MiMo-VL Technical Report

arXiv 2025

Unhackable Temporal Rewarding for Scalable Video MLLMs

arXiv 2025

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

arXiv 2025

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

arXiv 2025

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

arXiv 2025

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

arXiv 2025

Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation

arXiv 2025

Step-GUI Technical Report

arXiv 2025

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

arXiv 2025

DeepSeek-V3 Technical Report

arXiv 2024

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

arXiv 2024

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

arXiv 2024

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

arXiv 2024

Slow Perception: Let's Perceive Geometric Figures Step-by-step

arXiv 2024

OneChart: Purify the Chart Structural Extraction via One Auxiliary Token

arXiv 2024

PolygonGNN: Representation Learning for Polygonal Geometries with Heterogeneous Visibility Graph

arXiv 2024

Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models

arXiv 2024

GRAG: Graph Retrieval-Augmented Generation

arXiv 2024

TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs

arXiv 2024

SparseLLM: Towards Global Pruning for Pre-trained Language Models

arXiv 2024

DreamLLM: Synergistic Multimodal Comprehension and Creation

arXiv 2023

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

arXiv 2023

Skywork: A More Open Bilingual Foundation Model

arXiv 2023

Deep Graph Representation Learning and Optimization for Influence Maximization

arXiv 2023