Xi Chen

Autoregressive Image Generation with Masked Bit Modeling

arXiv 2026

SkillNet: Create, Evaluate, and Connect AI Skills

arXiv 2026

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

arXiv 2026

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

arXiv 2026

TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

arXiv 2025

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

arXiv 2025

Step-DeepResearch Technical Report

arXiv 2025

PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

arXiv 2025

MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives

arXiv 2025

MIRIX: Multi-Agent Memory System for LLM-Based Agents

arXiv 2025

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

arXiv 2025

PICABench: How Far Are We from Physically Realistic Image Editing?

arXiv 2025

ROSE: Remove Objects with Side Effects in Videos

arXiv 2025

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization

arXiv 2025

Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

arXiv 2025

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

arXiv 2025

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

arXiv 2025

ScEdit: Script-based Assessment of Knowledge Editing

arXiv 2025

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

arXiv 2025

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

arXiv 2025

VRoPE: Rotary Position Embedding for Video Large Language Models

arXiv 2025

VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

arXiv 2024

TRACE: Temporal Grounding Video LLM via Causal Event Modeling

arXiv 2024

Yuan 2.0-M32: Mixture of Experts with Attention Router

arXiv 2024

Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness

arXiv 2024

Reverse Region-to-Entity Annotation for Pixel-Level Visual Entity Linking

arXiv 2024

Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint?

arXiv 2024

To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

arXiv 2024

FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

arXiv 2024

LLaST: Improved End-to-end Speech Translation System Leveraged by Large Language Models

arXiv 2024

Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

arXiv 2024

Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking

arXiv 2024

SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation

arXiv 2023

Editing Language Model-based Knowledge Graph Embeddings

arXiv 2023

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

arXiv 2023

YUAN 2.0: A Large Language Model with Localized Filtering-based Attention

arXiv 2023

OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation

arXiv 2023

Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment

arXiv 2023

Unveiling the Pitfalls of Knowledge Editing for Large Language Models

arXiv 2023

Schema-adaptable Knowledge Graph Construction

arXiv 2023

Understanding Hessian Alignment for Domain Generalization

ICCV 2023 1