Leonid Karlinsky

Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning

arXiv 2024

Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs

arXiv 2024

GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

arXiv 2024

ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs

arXiv 2024

LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content

arXiv 2024

DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners

arXiv 2024

MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge

ICCV 2023 1

Joint Audio and Speech Understanding

arXiv 2023

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

arXiv 2023

Going Beyond Nouns With Vision & Language Models Using Synthetic Data

ICCV 2023 1

CODA-Prompt: COntinual Decomposed Attention-based Prompting for Rehearsal-Free Continual Learning

CVPR 2023 1

Contrastive Audio-Visual Masked Autoencoder

arXiv 2022

Teaching Structured Vision&Language Concepts to Vision&Language Models

arXiv 2022

FETA: Towards Specializing Foundation Models for Expert Task Applications

arXiv 2022