See-Kiong Ng

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

arXiv 2026

Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

arXiv 2026

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

arXiv 2026

Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model

arXiv 2026

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

arXiv 2026

Order-agnostic Identifier for Large Language Model-based Generative Recommendation

arXiv 2025

Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

arXiv 2025

Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning

arXiv 2025

FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models

arXiv 2025

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

arXiv 2025

WaterDrum: Watermarking for Data-centric Unlearning Metric

arXiv 2025

How Does Response Length Affect Long-Form Factuality

arXiv 2025

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

arXiv 2025

AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

arXiv 2025

Learnable Item Tokenization for Generative Recommendation

arXiv 2024

PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning

pllava-parameter-free-llava-extension-from

Mercury: A Code Efficiency Benchmark for Code Large Language Models

arXiv 2024

GalleryGPT: Analyzing Paintings with Large Multimodal Models

arXiv 2024

PINNACLE: PINN Adaptive ColLocation and Experimental points selection

arXiv 2024

Ask-before-Plan: Proactive Language Agents for Real-World Planning

arXiv 2024

Encoding and Controlling Global Semantics for Long-form Video Question Answering

arXiv 2024

Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

arXiv 2024

Prompt Optimization with Human Feedback

arXiv 2024

On the Multi-turn Instruction Following for Conversational Web Agents

arXiv 2024

Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars

arXiv 2024

Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge

arXiv 2024

D-Judge: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance

arXiv 2024

Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations

arXiv 2024

Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers

arXiv 2023

MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration

arXiv 2023

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents

arXiv 2023

Fair yet Asymptotically Equal Collaborative Learning

arXiv 2023

Training-Free Neural Active Learning with Initialization-Robustness Guarantees

arXiv 2023

GPTScore: Evaluate as You Desire

arXiv 2023