Ya Wang

Cite

Notes

Only stored in your browser.

Attribution

4papers

Authored papers

Mixture-of-Depths Attention

arXiv 2026

HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

arXiv 2025

Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models

arXiv 2025

Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

arXiv 2024

No known affiliations.

from 4 papers

Yutao Zeng

XiaoQing Li

Xun Zhou

Zhijian Zhuo

Jian Yang

Jinwen Ma

Bencheng Liao

Chen Chen

Lai Wei

Lianghui Zhu