Ivan Laptev

Papers: 11

Cite

Notes

Only stored in your browser.

Attribution

Affiliations & profile: Semantic Scholar

Attribution policy →

11papers

Authored papers

AGORA: Adversarial Generation Of Real-time Animatable 3D Gaussian Head Avatars

arXiv 2025

2025

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

arXiv 2025

2025

DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding

arXiv 2025

2025

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

CVPR 2025 1

2024

Mitigating Object Hallucination via Concentric Causal Attention

arXiv 2024

2024

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

CVPR 2023 1

2023

PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation

arXiv 2023

2023

Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

arXiv 2022

2022

TubeDETR: Spatio-Temporal Video Grounding with Transformers

CVPR 2022 1

2022

Learning to Answer Visual Questions from Web Videos

arXiv 2022

2022

Cross-task weakly supervised learning from instructional videos

cross-task-weakly-supervised-learning-from-1

2019

Affiliations

No known affiliations.

Frequent co-authors

from 11 papers

Cordelia Schmid

Josef Sivic

Antoine Miech

Antoine Yang

Dinura Dissanayake

Hisham Cholakkal

Ketan More

Noor Ahsan

Omkar Thawakar

Rao Muhammad Anwer