Daxin Jiang

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

arXiv 2026

WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

arXiv 2026

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

arXiv 2026

GEBench: Benchmarking Image Generation Models as GUI Environments

arXiv 2026

STEP3-VL-10B Technical Report

arXiv 2026

Alpha-R1: Alpha Screening with LLM Reasoning via Reinforcement Learning

arXiv 2025

Step1X-Edit: A Practical Framework for General Image Editing

arXiv 2025

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

arXiv 2025

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

arXiv 2025

Farseer: A Refined Scaling Law in Large Language Models

arXiv 2025

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

arXiv 2025

Step-DeepResearch Technical Report

arXiv 2025

WithAnyone: Towards Controllable and ID Consistent Image Generation

arXiv 2025

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

arXiv 2025

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

arXiv 2025

Step-Audio 2 Technical Report

arXiv 2025

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

arXiv 2025

M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization?

arXiv 2025

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

arXiv 2025

Step-GUI Technical Report

arXiv 2025

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

arXiv 2025

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

arXiv 2025

Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

arXiv 2025

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

arXiv 2025

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

arXiv 2025

Step-Video-TI2V Technical Report: A State-of-the-Art Text-Driven Image-to-Video Generation Model

arXiv 2025

Slow Perception: Let's Perceive Geometric Figures Step-by-step

arXiv 2024

2024

WizardLM: Empowering Large Language Models to Follow Complex Instructions

ICLR

Inference with Reference: Lossless Acceleration of Large Language Models

arXiv 2023

Allies: Prompting Large Language Model with Beam Search

arXiv 2023

WizardCoder: Empowering Code Large Language Models with Evol-Instruct

arXiv 2023

Unsupervised Context Aware Sentence Representation Pretraining for Multi-lingual Dense Retrieval

arXiv 2022

2022

Bridging the Gap Between Indexing and Retrieval for Differentiable Search Index with Query Generation

arXiv 2022

2022

CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation

arXiv 2021

WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach

Findings (EMNLP) 2021 11

CoSQA: 20,000+ Web Queries for Code Search and Question Answering

ACL 2021 5

Learning Neural Templates for Recommender Dialogue System

EMNLP 2021 11

Maria: A Visual Experience Powered Conversational Agent

ACL 2021 5