Qi Chen

EpiCoder: Encompassing Diversity and Complexity in Code Generation

arXiv 2025

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

arXiv 2025

InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

arXiv 2025

Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization

arXiv 2025

ScaleMAI: Accelerating the Development of Trusted Datasets and AI Models

arXiv 2025

Efficient Response Generation Method Selection for Fine-Tuning Large Language Models

arXiv 2025

Text-Driven Tumor Synthesis

arXiv 2024

Integrative Decoding: Improve Factuality via Implicit Self-consistency

arXiv 2024

KMM: Key Frame Mask Mamba for Extended Motion Generation

arXiv 2024

Attention-driven GUI Grounding: Leveraging Pretrained Multimodal Large Language Models without Fine-Tuning

arXiv 2024

InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation

arXiv 2024

MMCLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training

arXiv 2024

AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding

arXiv 2024

MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

arXiv 2024

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

arXiv 2024

A Survey of Medical Vision-and-Language Applications and Their Techniques

arXiv 2024

IRGen: Generative Modeling for Image Retrieval

arXiv 2023

Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment

arXiv 2023

WebVLN: Vision-and-Language Navigation on Websites

arXiv 2023

Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval

ICCV 2023 1