Jiaming Tang

Cite

Notes

Only stored in your browser.

Attribution

5papers

Authored papers

LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

arXiv 2025

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

arXiv 2025

DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

arXiv 2024

Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference

arXiv 2024

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

arXiv 2023

No known affiliations.

from 5 papers

Song Han

Guangxuan Xiao

Shang Yang

Haotian Tang

Junxian Guo

Yao Lu

Yilong Zhao

Yujun Lin

Zhijian Liu

Baris Kasikci