Amélie Royer

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

Vision-Speech Models: Teaching Speech Models to Converse about Images

arXiv 2025

CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

arXiv 2025

Moshi: a speech-text foundation model for real-time dialogue

arXiv 2024

MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers

arXiv 2023

No known affiliations.

from 4 papers

Patrick Pérez

Alexandre Défossez

Edouard Grave

Laurent Mazaré

Moritz Böhle

Neil Zeghidour

Babak Ehteshami Bejnordi

Gabriel de Marmiesse

Hervé Jégou

Jakob Drachmann Havtorn