Raiymbek Akshulakov

Cite

Notes

Only stored in your browser.

Attribution

3papers

Authored papers

Do Vision and Language Encoders Represent the World Similarly?

CVPR 2024 1

From Unimodal to Multimodal: Scaling up Projectors to Align Modalities

arXiv 2024

EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding

egoschema-a-diagnostic-benchmark-for-very

No known affiliations.

from 3 papers

Karttikeya Mangalam

Mayug Maniparambil

Noel E. O'Connor

Sanath Narayan

Yasser Abdelaziz Dahou Djilali

Ankit Singh

Jitendra Malik

Mohamed El Amine Seddik