Xin Zhang

SEAL: Synergistic Co-Evolution of Agents and Learning Environments

arXiv 2026

LMEB: Long-horizon Memory Embedding Benchmark

arXiv 2026

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

arXiv 2026

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

arXiv 2026

Closing the Loop: Universal Repository Representation with RPG-Encoder

arXiv 2026

MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

arXiv 2025

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

arXiv 2025

MiMo-VL Technical Report

arXiv 2025

$\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning

arXiv 2025

Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation

CVPR 2025 1

FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation

arXiv 2025

EpiCoder: Encompassing Diversity and Complexity in Code Generation

arXiv 2025

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

arXiv 2025

CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models

arXiv 2025

IterPref: Focal Preference Learning for Code Generation via Iterative Debugging

arXiv 2025

Data Efficacy for Language Model Training

arXiv 2025

RoboScape: Physics-informed Embodied World Model

arXiv 2025

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

arXiv 2025

CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing

arXiv 2025

ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching

arXiv 2025

CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

arXiv 2025

Towards Text-Image Interleaved Retrieval

arXiv 2025

Process-based Self-Rewarding Language Models

arXiv 2025

AutoSurvey: Large Language Models Can Automatically Write Surveys

arXiv 2024

SpeechAlign: Aligning Speech Generation to Human Preferences

arXiv 2024

SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

arXiv 2024

CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks

arXiv 2024

Measuring Human and AI Values Based on Generative Psychometrics with Large Language Models

arXiv 2024

ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models

arXiv 2024

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models

CVPR 2024 1

MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

arXiv 2024

Cascade Prompt Learning for Vision-Language Model Adaptation

arXiv 2024

ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization

arXiv 2024

Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment

arXiv 2024

mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

arXiv 2024

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection

arXiv 2023

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models

arXiv 2023

SHISRCNet: Super-resolution And Classification Network For Low-resolution Breast Cancer Histopathology Image

arXiv 2023

WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning

arXiv 2023

Language Models are Universal Embedders

arXiv 2023

Holistic Exploration on Universal Decompositional Semantic Parsing: Architecture, Data Augmentation, and LLM Paradigm

arXiv 2023