Xin Chen

LongCat-Flash-Thinking-2601 Technical Report

arXiv 2026

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

arXiv 2026

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

arXiv 2026

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

arXiv 2026

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

arXiv 2026

Fish Audio S2 Technical Report

arXiv 2026

Baichuan-M1: Pushing the Medical Capability of Large Language Models

arXiv 2025

Video-As-Prompt: Unified Semantic Control for Video Generation

arXiv 2025

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

arXiv 2025

MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

arXiv 2025

Baichuan-Omni-1.5 Technical Report

arXiv 2025

Bridging Your Imagination with Audio-Video Generation via a Unified Director

arXiv 2025

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

arXiv 2025

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

arXiv 2024

MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

CVPR 2025 1

Content-Based Collaborative Generation for Recommender Systems

arXiv 2024

Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models

arXiv 2024

MeshXL: Neural Coordinate Field for Generative 3D Foundation Models

arXiv 2024

GraphHash: Graph Clustering Enables Parameter Efficiency in Recommender Systems

arXiv 2024

Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models

CVPR 2024 1

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning

arXiv 2023

Exploring Lightweight Hierarchical Vision Transformers for Efficient Visual Tracking

ICCV 2023 1

Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation

michelangelo-conditional-3d-shape-generation

AppAgent: Multimodal Agents as Smartphone Users

arXiv 2023

MotionGPT: Human Motion as a Foreign Language

NeurIPS 2023 11

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

arXiv 2023

To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now

arXiv 2023

M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts

arXiv 2023

Text-Visual Prompting for Efficient 2D Temporal Video Grounding

CVPR 2023 1

Sketched Ridgeless Linear Regression: The Role of Downsampling

arXiv 2023