Chen Chen

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

arXiv 2025

RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

arXiv 2025

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

ICCV 2025

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

arXiv 2025

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

arXiv 2025

SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World

arXiv 2025

AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference

arXiv 2025

Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation

arXiv 2025

Every Sample Matters: Leveraging Mixture-of-Experts and High-Quality Data for Efficient and Accurate Code LLM

arXiv 2025

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

arXiv 2025

SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

arXiv 2025

X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation

ICCV 2025

Cross-View Meets Diffusion: Aerial Image Synthesis with Geometry and Text Guidance

arXiv 2024

PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs

arXiv 2024

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators

arXiv 2024

BAMM: Bidirectional Autoregressive Motion Model

arXiv 2024

Towards Multi-modal Transformers in Federated Learning

arXiv 2024

Whole Heart 3D+T Representation Learning Through Sparse 2D Cardiac MR Images

arXiv 2024

Robust and Scalable Model Editing for Large Language Models

arXiv 2024

Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning

arXiv 2024

MeDSLIP: Medical Dual-Stream Language-Image Pre-training for Fine-grained Alignment

arXiv 2024

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

arXiv 2024

SSR-Speech: Towards Stable, Safe and Robust Zero-shot Text-based Speech Editing and Synthesis

arXiv 2024

Large Language Models are Efficient Learners of Noise-Robust Speech Recognition

arXiv 2024

SATO: Stable Text-to-Motion Framework

arXiv 2024

GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models

arXiv 2024

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

arXiv 2024

FaceScore: Benchmarking and Enhancing Face Quality in Human Generation

arXiv 2024

TLCM: Training-efficient Latent Consistency Model for Image Generation with 2-8 Steps

arXiv 2024

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

arXiv 2024

Frame Interpolation with Consecutive Brownian Bridge Diffusion

arXiv 2024

MMM: Generative Masked Motion Model

CVPR 2024 1

BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks

arXiv 2023

HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models

hyporadise-an-open-baseline-for-generative

Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning

arXiv 2023

RenderIH: A Large-scale Synthetic Dataset for 3D Interacting Hand Pose Estimation

ICCV 2023 1

MOFI: Learning Image Representations from Noisy Entity Annotated Images

arXiv 2023

A Large-scale Study of Spatiotemporal Representation Learning with a New Benchmark on Action Recognition

ICCV 2023 1

TARGET: Federated Class-Continual Learning via Exemplar-Free Distillation

ICCV 2023 1

Multi-view Self-supervised Disentanglement for General Image Denoising

ICCV 2023 1

DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models

arXiv 2023

M-FLAG: Medical Vision-Language Pre-training with Frozen Language Models and Latent Space Geometry Optimization

arXiv 2023

Free-Editor: Zero-shot Text-driven 3D Scene Editing

arXiv 2023

FedPerfix: Towards Partial Model Personalization of Vision Transformers in Federated Learning

ICCV 2023 1

ConPET: Continual Parameter-Efficient Tuning for Large Language Models

arXiv 2023

Byzantine-Robust Learning on Heterogeneous Data via Gradient Splitting

arXiv 2023

Source-free Domain Adaptive Human Pose Estimation

ICCV 2023 1

Adversarial Attacks on Fairness of Graph Neural Networks

arXiv 2023

AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

ICCV 2023 1

GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation

arXiv 2023

SoccerNet 2023 Challenges Results

arXiv 2023

Pseudo-label Alignment for Semi-supervised Instance Segmentation

ICCV 2023 1

MSINet: Twins Contrastive Search of Multi-Scale Interaction for Object ReID

CVPR 2023 1

Towards Geospatial Foundation Models via Continual Pretraining

ICCV 2023 1

LatentEditor: Text Driven Local Editing of 3D Scenes

arXiv 2023

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

CVPR 2024 1

Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning

counterfactual-conservative-q-learning-for

PEA-Diffusion: Parameter-Efficient Adapter with Knowledge Distillation in non-English Text-to-Image Generation

arXiv 2023

TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities

arXiv 2022

SoccerNet 2022 Challenges Results

arXiv 2022

PGFed: Personalize Each Client's Global Objective for Federated Learning

ICCV 2023 1

When Do Curricula Work in Federated Learning?

ICCV 2023 1