Lidong Bing

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

arXiv 2026

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

arXiv 2026

ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

arXiv 2026

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

arXiv 2026

Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models

arXiv 2026

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

arXiv 2026

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

arXiv 2025

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

arXiv 2025

MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback

arXiv 2025

Analyzing LLMs' Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations

arXiv 2025

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

arXiv 2025

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

arXiv 2025

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

arXiv 2025

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

arXiv 2025

Multi-Agent Tool-Integrated Policy Optimization

arXiv 2025

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

arXiv 2025

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

arXiv 2025

FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving

arXiv 2025

Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization

arXiv 2025

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

arXiv 2025

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

arXiv 2025

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

arXiv 2024

Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

arXiv 2024

Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

arXiv 2024

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

CVPR 2025 1

How do Large Language Models Handle Multilingualism?

arXiv 2024

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

arXiv 2024

Chain of Ideas: Revolutionizing Research Via Novel Idea Development with LLM Agents

arXiv 2024

LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency

arXiv 2024

Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions

arXiv 2024

SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

arXiv 2024

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

arXiv 2023

INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

arXiv 2023

Easy-to-Hard Learning for Information Extraction

arXiv 2023

SOUL: Towards Sentiment and Opinion Understanding of Language

arXiv 2023

Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning

arXiv 2023

AQE: Argument Quadruplet Extraction via a Quad-Tagging Augmented Generative Approach

arXiv 2023

Multilingual Jailbreak Challenges in Large Language Models

arXiv 2023

Is GPT-4 a Good Data Analyst?

arXiv 2023

SeaLLMs -- Large Language Models for Southeast Asia

arXiv 2023

Reasoning Implicit Sentiment with Chain-of-Thought Prompting

arXiv 2023

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models

NeurIPS 2023 11

CLEX: Continuous Length Extrapolation for Large Language Models

arXiv 2023

Contrastive Chain-of-Thought Prompting

arXiv 2023

Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework

arXiv 2023

Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models

arXiv 2023

Zero-Shot Text Classification via Self-Supervised Tuning

arXiv 2023

From Cloze to Comprehension: Retrofitting Pre-trained Masked Language Model to Pre-trained Machine Reader

arXiv 2022

Revisiting DocRED -- Addressing the False Negative Problem in Relation Extraction

arXiv 2022

A Dataset for Hyper-Relational Extraction and a Cube-Filling Approach

arXiv 2022

IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks

ACL 2022 5