Shuo Wang

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

arXiv 2026

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

arXiv 2026

LongCat-Flash-Thinking-2601 Technical Report

arXiv 2026

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

arXiv 2026

QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

arXiv 2026

MiniCPM4: Ultra-Efficient LLMs on End Devices

arXiv 2025

Process Reinforcement through Implicit Rewards

arXiv 2025

CoDiff: Conditional Diffusion Model for Collaborative 3D Object Detection

arXiv 2025

Mutual-Supervised Learning for Sequential-to-Parallel Code Translation

arXiv 2025

AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage

arXiv 2025

DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion

arXiv 2025

LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources

arXiv 2025

DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection

arXiv 2025

Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors

arXiv 2025

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

arXiv 2025

ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation

arXiv 2025

Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation

CVPR 2025 1

ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization

arXiv 2025

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

arXiv 2024

$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens

arXiv 2024

UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset

arXiv 2024

OneBit: Towards Extremely Low-bit Large Language Models

arXiv 2024

The state-of-the-art in Cardiac MRI Reconstruction: Results of the CMRxRecon Challenge in MICCAI 2023

arXiv 2024

OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models

arXiv 2024

Beyond Redundancy: Information-aware Unsupervised Multiplex Graph Structure Learning

arXiv 2024

Learning with Mixture of Prototypes for Out-of-Distribution Detection

arXiv 2024

Say More with Less: Understanding Prompt Learning Behaviors through Gist Compression

arXiv 2024

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

arXiv 2024

PGN: The RNN's New Successor is Effective for Long-Range Time Series Forecasting

arXiv 2024

MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization

arXiv 2024

Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models

arXiv 2024

Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation

arXiv 2024

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

CVPR 2025 1

Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf

arXiv 2023

Bi-directional Distribution Alignment for Transductive Zero-Shot Learning

CVPR 2023 1

MCTS: A Multi-Reference Chinese Text Simplification Dataset

arXiv 2023

Memory-aided Contrastive Consensus Learning for Co-salient Object Detection

arXiv 2023

AirBirds: A Large-scale Challenging Dataset for Bird Strike Prevention in Real-world Airports

arXiv 2023