Yang Yang

GEMS: Agent-Native Multimodal Generation with Memory and Skills

arXiv 2026

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

arXiv 2026

LongCat-Flash-Thinking-2601 Technical Report

arXiv 2026

LatentMem: Customizing Latent Memory for Multi-Agent Systems

arXiv 2026

RadGPT: Constructing 3D Image-Text Tumor Datasets

ICCV 2025

Exploring $\ell_0$ Sparsification for Inference-free Sparse Retrievers

arXiv 2025

Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution

arXiv 2025

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

arXiv 2025

Step-Audio 2 Technical Report

arXiv 2025

Quantized Spike-driven Transformer

arXiv 2025

ScaleMAI: Accelerating the Development of Trusted Datasets and AI Models

arXiv 2025

PSCon: Product Search Through Conversations

arXiv 2025

CellVTA: Enhancing Vision Foundation Models for Accurate Cell Segmentation and Classification

arXiv 2025

NeuroSketch: An Effective Framework for Neural Decoding via Systematic Architectural Optimization

arXiv 2025

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

arXiv 2024

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

arXiv 2024

Text-Driven Tumor Synthesis

arXiv 2024

GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion Generation

arXiv 2024

Can GNN be Good Adapter for LLMs?

arXiv 2024

Bounding Box Stability against Feature Dropout Reflects Detector Generalization across Environments

arXiv 2024

Diffusion Models as Optimizers for Efficient Planning in Offline RL

arXiv 2024

A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot Grasping

arXiv 2024

Evaluating and Advancing Multimodal Large Language Models in Ability Lens

arXiv 2024

Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation

arXiv 2024

Policy Gradient-Driven Noise Mask

arXiv 2024

LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models

arXiv 2024

GalleryGPT: Analyzing Paintings with Large Multimodal Models

arXiv 2024

LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

arXiv 2024

GraphLLM: Boosting Graph Reasoning Ability of Large Language Model

arXiv 2023

Lifting the Curse of Capacity Gap in Distilling Language Models

arXiv 2023

KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained Language Model

arXiv 2023

When to Pre-Train Graph Neural Networks? From Data Generation Perspective!

arXiv 2023