Chao Huang

DeepCode: Open Agentic Coding

arXiv 2025

AI-Researcher: Autonomous Scientific Innovation

arXiv 2025

AutoAgent: A Fully-Automated and Zero-Code Framework for LLM Agents

arXiv 2025

VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos

arXiv 2025

MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation

arXiv 2025

RecGPT: A Foundation Model for Sequential Recommendation

arXiv 2025

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

arXiv 2025

Learning to Highlight Audio by Watching Movies

CVPR 2025 1

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

arXiv 2025

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

arXiv 2025

Directional Reasoning Injection for Fine-Tuning MLLMs

arXiv 2025

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

arXiv 2025

DiffGraph: Heterogeneous Graph Diffusion Model

arXiv 2025

FreSca: Unveiling the Scaling Space in Diffusion Models

arXiv 2025

MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

arXiv 2025

Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

arXiv 2025

Generative AI for Cel-Animation: A Survey

arXiv 2025

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

arXiv 2025

Self-Adjust Softmax

arXiv 2025

Needle in the Web: A Benchmark for Retrieving Targeted Web Pages in the Wild

arXiv 2025

LightRAG: Simple and Fast Retrieval-Augmented Generation

arXiv 2024

EasyRec: Simple yet Effective Language Models for Recommendation

arXiv 2024

GraphEdit: Large Language Models for Graph Structure Learning

arXiv 2024

HiGPT: Heterogeneous Graph Language Model

arXiv 2024

Aria-UI: Visual Grounding for GUI Instructions

arXiv 2024

SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

arXiv 2024

OpenGraph: Towards Open Graph Foundation Models

arXiv 2024

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

CVPR 2025 1

Lossless data compression by large models

arXiv 2024

RecLM: Recommendation Instruction Tuning

arXiv 2024

SSLRec: A Self-Supervised Learning Framework for Recommendation

arXiv 2023

Representation Learning with Large Language Models for Recommendation

arXiv 2023

GraphGPT: Graph Instruction Tuning for Large Language Models

arXiv 2023

Disentangled Contrastive Collaborative Filtering

arXiv 2023

LightGCL: Simple Yet Effective Graph Contrastive Learning for Recommendation

arXiv 2023

DiffKG: Knowledge Graph Diffusion Model for Recommendation

arXiv 2023

LLMRec: Large Language Models with Graph Augmentation for Recommendation

arXiv 2023

Video Understanding with Large Language Models: A Survey

arXiv 2023

Egocentric Audio-Visual Object Localization

CVPR 2023 1

Graph Transformer for Recommendation

arXiv 2023

How Expressive are Graph Neural Networks in Recommendation?

arXiv 2023