Hangyu Guo

Papers: 13

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: Semantic Scholar

Attribution policy →

13papers

Authored papers

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

arXiv 2026

2026

WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

arXiv 2026

2026

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

arXiv 2026

2026

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

arXiv 2026

2026

STEP3-VL-10B Technical Report

arXiv 2026

2026

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

arXiv 2025

2025

A Comprehensive Survey on Long Context Language Modeling

arXiv 2025

2025

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

arXiv 2025

2025

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

arXiv 2024

2024

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

arXiv 2024

2024

ING-VP: MLLMs cannot Play Easy Vision-based Games Yet

arXiv 2024

2024

OmniBench: Towards The Future of Universal Omni-Language Models

arXiv 2024

2024

PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

physgame-uncovering-physical-commonsense

2024

Affiliations

No known affiliations.

Frequent co-authors

from 13 papers

Ge Zhang

researcher

6 shared papers

Jiaheng Liu

6 shared papers

Wenhao Huang

4 shared papers

Daxin Jiang

founder

Hongbo Peng

Mitt Huang

Shijue Huang

Xiangyu Zhang

Yanlin Lai

Yi R. Fung