āđāļĢāļ·āđāļāļāđāļĨāđāļēāļāļēāļāđāļĨāļ LLMs: āļāļēāđāļāļŠāđāļāļāđāļāļĢāļāļŠāļĢāđāļēāļāļ āļēāļĒāđāļāļāļāļāđāļĄāđāļāļĨ AI āļĒāļąāļāļĐāđāļĒāļļāļāđāļŦāļĄāđ
7 āļāļĩāļāđāļēāļāđāļāļāļēāļ GPT-2 āļāļķāļāļ§āļąāļāļāļĩāđ āđāļĄāđāđāļĄāđāļāļĨāļāļ°āļāļđāļāļĨāđāļēāļĒāļāļąāļāļĄāļēāļ āđāļāđāļ āļēāļĒāđāļāđ “āļāļĨāđāļāđāļĨāđāļ āđ” āļāļĨāļąāļāļĄāļĩāļāļēāļĢāđāļāļĨāļĩāđāļĒāļāđāļāļĨāļāļāļĢāļąāđāļāđāļŦāļāđāđāļāđāļĢāļ·āđāļāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļĨāļ°āļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ āđāļāđāļ:
- āđāļāļĨāļĩāđāļĒāļāļāļēāļ Multi-Head Attention (MHA) āđāļāđāļ Grouped-Query Attention (GQA)
- āđāļāđ Multi-Head Latent Attention (MLA) āđāļāļāļēāļāđāļĄāđāļāļĨ āđāļāđāļ DeepSeek V3
- āļāļēāļĢāđāļāđ Mixture-of-Experts (MoE) āđāļāļ·āđāļāđāļāļīāđāļĄāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāđāļāļĒāđāļĄāđāđāļāļīāđāļĄāļāđāļāļāļļāļ inference
- āļāļēāļĢāļāļĢāļąāļāļāļģāđāļŦāļāđāļāļāļāļ Normalization Layer āđāļāļ·āđāļāđāļŦāđāđāļĄāđāļāļĨāđāļŠāļāļĩāļĒāļĢāļāļķāđāļ
- āđāļāđ Sliding Window Attention āđāļĨāļ° QK-Norm āđāļāļ·āđāļāļāļĢāļ°āļŦāļĒāļąāļ KV cache āđāļĨāļ°āđāļĢāđāļāļāļēāļĢāđāļĢāļĩāļĒāļāļĢāļđāđ
- āļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļāļĒāļĒāļąāļāđāļŦāđāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāļŠāļđāļ āđāļāđāļ SmolLM3 āļāļąāļ Gemma 3n
DeepSeek V3 āđāļāđ Multi-Head Latent Attention (MLA) āđāļāļ GQA āđāļāļ·āđāļāļāļĢāļ°āļŦāļĒāļąāļ KV cache
āļāļāļ°āđāļāļĩāļĒāļ§āļāļąāļāļĒāļąāļāđāļŦāđāļāļĨāļĨāļąāļāļāđāļāļĩāļāļ§āđāļē MHA āđāļĨāļ°āđāļāđāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāļāđāļāļĒāļĨāļ
MLA āđāļĄāđāļĄāļĩāļāļĨāļāļĩ āđāļāđāļĒāļąāļāđāļŦāļĄāđāđāļĨāļ°āļāļąāļāļāđāļāļāđāļāļāļēāļĢ implement
āļāđāļāļāđāļāđāļāļēāļĢāļāļĩāļāļāļąāļāđāļĨāļ° projection āļāļķāđāļāđāļāļīāđāļĄāļāļąāđāļāļāļāļāđāļāļāļēāļĢ inference
DeepSeek V3 āđāļāđ Mixture-of-Experts (MoE) āļāļĩāđāļĄāļĩ 256 expert layers
āđāļāđāđāļāļĩāļĒāļ 9 expert āļāđāļ token āļāļāļ° inference āļāļģāđāļŦāđāļāļĢāļ°āļŦāļĒāļąāļāļāļĨāļąāļāļāļēāļ
āļāļēāļĢāđāļāđ MoE āļāļģāđāļŦāđ parameter āļāļąāđāļāļŦāļĄāļāđāļĒāļāļ°āļĄāļēāļ āđāļĄāđāļāļ°āđāļāđāļāļĢāļīāļāđāļāļĩāļĒāļāļŠāđāļ§āļāļāđāļāļĒ
āļŦāļēāļāļĢāļ°āļāļ routing āđāļĄāđāļāļĩāļŦāļĢāļ·āļāđāļĄāđāđāļŠāļāļĩāļĒāļĢ āļāļēāļāđāļāļīāļ undertraining āđāļāļāļēāļ expert
OLMo 2 āđāļāđ Post-Norm āđāļāļāđāļŦāļĄāđ āđāļĨāļ°āđāļāļīāđāļĄ QK-Norm āļ āļēāļĒāđāļ attention block
āļāđāļ§āļĒāđāļŠāļāļĩāļĒāļĢāļ āļēāļāđāļāļāļēāļĢāļāļķāļāđāļĨāļ°āļĨāļ loss
QK-Norm āđāļĨāļ°āļāļēāļĢāļŠāļĨāļąāļ Pre/Post-Norm āļāđāļāļāļāļāļĨāļāļāļāļĒāđāļēāļāļĢāļ°āļ§āļąāļ
āļāđāļēāđāļāđāļāļīāļāļāļąāļāļŦāļ§āļ°āļāļēāļāļāļģāđāļŦāđ training loss āđāļāļĢāļāļĢāļ§āļ
Gemma 3 āđāļāđ Sliding Window Attention āđāļāļ·āđāļāļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ
āļĨāļāļāļāļēāļ window āđāļŦāļĨāļ·āļ 1024 token āđāļĨāļ°āļĄāļĩ Global Attention āđāļāļāļēāļ°āļāļēāļāļāļąāđāļ
Sliding Window Attention āļĨāļ memory āđāļāđāđāļĄāđāļĨāļ latency āđāļŠāļĄāļāđāļ
āđāļāļĢāļēāļ°āļĒāļąāļāļāđāļāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļ local āļāļķāđāļāđāļĄāđāļŠāļēāļĄāļēāļĢāļāđāļāđ FlashAttention āđāļāđāđāļāđāļĄāļāļĩāđ
Gemma 3n āđāļāđ Per-Layer Embedding āđāļāļ·āđāļāđāļŦāđ inference āļāļāļāļļāļāļāļĢāļāđāđāļĨāđāļ
āđāļĒāļ parameter āļāļēāļāļŠāđāļ§āļāđāļ§āđāļāļ CPU āļŦāļĢāļ·āļ SSD āđāļĨāđāļ§āđāļŦāļĨāļāļāļēāļĄāļāđāļāļāļāļēāļĢ
Per-Layer Embedding āļāļģāđāļŦāđāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāļāļđāļāļŠāļāļĢāļĩāļĄāļāļēāļāļāļļāļāļāļĢāļāđāļ āļēāļĒāļāļāļ
āļāđāļē bandwidth āļŦāļĢāļ·āļ latency āļŠāļđāļāđāļāļīāļāđāļāļāļ°āļāļĢāļ°āļāļāļāđāļāļāļēāļĢ inference āļāļĒāđāļēāļāļŦāļāļąāļ
Mistral Small 3.1 āđāļĨāļīāļāđāļāđ Sliding Attention āđāļāļ·āđāļāļĢāļāļāļĢāļąāļ FlashAttention āđāļāļāđāļāđāļĄ
āļāļģāđāļŦāđ inference āđāļĢāđāļ§āļāļķāđāļāđāļĄāđāļāļ°āļĄāļĩāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāđāļāļĨāđāđāļāļĩāļĒāļāļāļąāļ Gemma 3
Llama 4 āđāļāđ MoE āđāļāļ alternated (āļŠāļĨāļąāļāļāļąāđāļ MoE āļāļąāļ Dense)
Active parameter āļĄāļĩāđāļāđ 17B āđāļĄāđ model āļāļ°āļĄāļĩ 400B
Qwen3 āļĄāļĩāļĢāļļāđāļ dense āļāļāļēāļāđāļĨāđāļāļĄāļēāļ (āđāļāđāļ 0.6B) āđāļĨāļ° MoE āļāļāļēāļāđāļŦāļāđāļāļķāļ 235B
āļĢāļļāđāļ MoE āđāļĄāđāļĄāļĩ shared expert āđāļāđāļĒāļąāļāđāļāđ GQA āđāļŦāļĄāļ·āļāļāļĢāļļāđāļāļāđāļāļ
SmolLM3 āđāļāđ NoPE (No Positional Embeddings) āđāļāļāđāļĄāđāļĢāļ°āļāļļāļāļģāđāļŦāļāđāļāđāļĨāļĒ
āđāļŠāļāļāđāļŦāđāđāļŦāđāļāļ§āđāļēāđāļĄāđāļāđāļāļāđāļāđ embedding āļāđāļŠāļēāļĄāļēāļĢāļāđāļĢāļĩāļĒāļāļĢāļđāđāļĨāļģāļāļąāļāđāļāđāļāļēāļāļŠāđāļ§āļ
āļāļēāļĢāđāļĄāđāļĄāļĩ Positional Embedding (āđāļāđāļ NoPE) āļāļēāļāļāļĢāļ°āļāļāđāļĄāđāļāļĨāđāļ task āļāļĩāđāļāđāļāļāļāļīāļāļĨāļģāļāļąāļ
āđāļāđāļāļāļēāļĢāļŠāļĢāļļāļāđāļāļ·āđāļāļŦāļēāļĒāļēāļ§ āļŦāļĢāļ·āļāļāļēāļĢāļāļąāļāđāļĢāļĩāļĒāļāļāđāļāļĄāļđāļĨāļāļēāļĄāđāļ§āļĨāļē
https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
7 āļāļĩāļāđāļēāļāđāļāļāļēāļ GPT-2 āļāļķāļāļ§āļąāļāļāļĩāđ āđāļĄāđāđāļĄāđāļāļĨāļāļ°āļāļđāļāļĨāđāļēāļĒāļāļąāļāļĄāļēāļ āđāļāđāļ āļēāļĒāđāļāđ “āļāļĨāđāļāđāļĨāđāļ āđ” āļāļĨāļąāļāļĄāļĩāļāļēāļĢāđāļāļĨāļĩāđāļĒāļāđāļāļĨāļāļāļĢāļąāđāļāđāļŦāļāđāđāļāđāļĢāļ·āđāļāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļĨāļ°āļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ āđāļāđāļ:
- āđāļāļĨāļĩāđāļĒāļāļāļēāļ Multi-Head Attention (MHA) āđāļāđāļ Grouped-Query Attention (GQA)
- āđāļāđ Multi-Head Latent Attention (MLA) āđāļāļāļēāļāđāļĄāđāļāļĨ āđāļāđāļ DeepSeek V3
- āļāļēāļĢāđāļāđ Mixture-of-Experts (MoE) āđāļāļ·āđāļāđāļāļīāđāļĄāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāđāļāļĒāđāļĄāđāđāļāļīāđāļĄāļāđāļāļāļļāļ inference
- āļāļēāļĢāļāļĢāļąāļāļāļģāđāļŦāļāđāļāļāļāļ Normalization Layer āđāļāļ·āđāļāđāļŦāđāđāļĄāđāļāļĨāđāļŠāļāļĩāļĒāļĢāļāļķāđāļ
- āđāļāđ Sliding Window Attention āđāļĨāļ° QK-Norm āđāļāļ·āđāļāļāļĢāļ°āļŦāļĒāļąāļ KV cache āđāļĨāļ°āđāļĢāđāļāļāļēāļĢāđāļĢāļĩāļĒāļāļĢāļđāđ
- āļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļāļĒāļĒāļąāļāđāļŦāđāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāļŠāļđāļ āđāļāđāļ SmolLM3 āļāļąāļ Gemma 3n
DeepSeek V3 āđāļāđ Multi-Head Latent Attention (MLA) āđāļāļ GQA āđāļāļ·āđāļāļāļĢāļ°āļŦāļĒāļąāļ KV cache
āļāļāļ°āđāļāļĩāļĒāļ§āļāļąāļāļĒāļąāļāđāļŦāđāļāļĨāļĨāļąāļāļāđāļāļĩāļāļ§āđāļē MHA āđāļĨāļ°āđāļāđāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāļāđāļāļĒāļĨāļ
MLA āđāļĄāđāļĄāļĩāļāļĨāļāļĩ āđāļāđāļĒāļąāļāđāļŦāļĄāđāđāļĨāļ°āļāļąāļāļāđāļāļāđāļāļāļēāļĢ implement
āļāđāļāļāđāļāđāļāļēāļĢāļāļĩāļāļāļąāļāđāļĨāļ° projection āļāļķāđāļāđāļāļīāđāļĄāļāļąāđāļāļāļāļāđāļāļāļēāļĢ inference
DeepSeek V3 āđāļāđ Mixture-of-Experts (MoE) āļāļĩāđāļĄāļĩ 256 expert layers
āđāļāđāđāļāļĩāļĒāļ 9 expert āļāđāļ token āļāļāļ° inference āļāļģāđāļŦāđāļāļĢāļ°āļŦāļĒāļąāļāļāļĨāļąāļāļāļēāļ
āļāļēāļĢāđāļāđ MoE āļāļģāđāļŦāđ parameter āļāļąāđāļāļŦāļĄāļāđāļĒāļāļ°āļĄāļēāļ āđāļĄāđāļāļ°āđāļāđāļāļĢāļīāļāđāļāļĩāļĒāļāļŠāđāļ§āļāļāđāļāļĒ
āļŦāļēāļāļĢāļ°āļāļ routing āđāļĄāđāļāļĩāļŦāļĢāļ·āļāđāļĄāđāđāļŠāļāļĩāļĒāļĢ āļāļēāļāđāļāļīāļ undertraining āđāļāļāļēāļ expert
OLMo 2 āđāļāđ Post-Norm āđāļāļāđāļŦāļĄāđ āđāļĨāļ°āđāļāļīāđāļĄ QK-Norm āļ āļēāļĒāđāļ attention block
āļāđāļ§āļĒāđāļŠāļāļĩāļĒāļĢāļ āļēāļāđāļāļāļēāļĢāļāļķāļāđāļĨāļ°āļĨāļ loss
QK-Norm āđāļĨāļ°āļāļēāļĢāļŠāļĨāļąāļ Pre/Post-Norm āļāđāļāļāļāļāļĨāļāļāļāļĒāđāļēāļāļĢāļ°āļ§āļąāļ
āļāđāļēāđāļāđāļāļīāļāļāļąāļāļŦāļ§āļ°āļāļēāļāļāļģāđāļŦāđ training loss āđāļāļĢāļāļĢāļ§āļ
Gemma 3 āđāļāđ Sliding Window Attention āđāļāļ·āđāļāļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ
āļĨāļāļāļāļēāļ window āđāļŦāļĨāļ·āļ 1024 token āđāļĨāļ°āļĄāļĩ Global Attention āđāļāļāļēāļ°āļāļēāļāļāļąāđāļ
Sliding Window Attention āļĨāļ memory āđāļāđāđāļĄāđāļĨāļ latency āđāļŠāļĄāļāđāļ
āđāļāļĢāļēāļ°āļĒāļąāļāļāđāļāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļ local āļāļķāđāļāđāļĄāđāļŠāļēāļĄāļēāļĢāļāđāļāđ FlashAttention āđāļāđāđāļāđāļĄāļāļĩāđ
Gemma 3n āđāļāđ Per-Layer Embedding āđāļāļ·āđāļāđāļŦāđ inference āļāļāļāļļāļāļāļĢāļāđāđāļĨāđāļ
āđāļĒāļ parameter āļāļēāļāļŠāđāļ§āļāđāļ§āđāļāļ CPU āļŦāļĢāļ·āļ SSD āđāļĨāđāļ§āđāļŦāļĨāļāļāļēāļĄāļāđāļāļāļāļēāļĢ
Per-Layer Embedding āļāļģāđāļŦāđāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāļāļđāļāļŠāļāļĢāļĩāļĄāļāļēāļāļāļļāļāļāļĢāļāđāļ āļēāļĒāļāļāļ
āļāđāļē bandwidth āļŦāļĢāļ·āļ latency āļŠāļđāļāđāļāļīāļāđāļāļāļ°āļāļĢāļ°āļāļāļāđāļāļāļēāļĢ inference āļāļĒāđāļēāļāļŦāļāļąāļ
Mistral Small 3.1 āđāļĨāļīāļāđāļāđ Sliding Attention āđāļāļ·āđāļāļĢāļāļāļĢāļąāļ FlashAttention āđāļāļāđāļāđāļĄ
āļāļģāđāļŦāđ inference āđāļĢāđāļ§āļāļķāđāļāđāļĄāđāļāļ°āļĄāļĩāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāđāļāļĨāđāđāļāļĩāļĒāļāļāļąāļ Gemma 3
Llama 4 āđāļāđ MoE āđāļāļ alternated (āļŠāļĨāļąāļāļāļąāđāļ MoE āļāļąāļ Dense)
Active parameter āļĄāļĩāđāļāđ 17B āđāļĄāđ model āļāļ°āļĄāļĩ 400B
Qwen3 āļĄāļĩāļĢāļļāđāļ dense āļāļāļēāļāđāļĨāđāļāļĄāļēāļ (āđāļāđāļ 0.6B) āđāļĨāļ° MoE āļāļāļēāļāđāļŦāļāđāļāļķāļ 235B
āļĢāļļāđāļ MoE āđāļĄāđāļĄāļĩ shared expert āđāļāđāļĒāļąāļāđāļāđ GQA āđāļŦāļĄāļ·āļāļāļĢāļļāđāļāļāđāļāļ
SmolLM3 āđāļāđ NoPE (No Positional Embeddings) āđāļāļāđāļĄāđāļĢāļ°āļāļļāļāļģāđāļŦāļāđāļāđāļĨāļĒ
āđāļŠāļāļāđāļŦāđāđāļŦāđāļāļ§āđāļēāđāļĄāđāļāđāļāļāđāļāđ embedding āļāđāļŠāļēāļĄāļēāļĢāļāđāļĢāļĩāļĒāļāļĢāļđāđāļĨāļģāļāļąāļāđāļāđāļāļēāļāļŠāđāļ§āļ
āļāļēāļĢāđāļĄāđāļĄāļĩ Positional Embedding (āđāļāđāļ NoPE) āļāļēāļāļāļĢāļ°āļāļāđāļĄāđāļāļĨāđāļ task āļāļĩāđāļāđāļāļāļāļīāļāļĨāļģāļāļąāļ
āđāļāđāļāļāļēāļĢāļŠāļĢāļļāļāđāļāļ·āđāļāļŦāļēāļĒāļēāļ§ āļŦāļĢāļ·āļāļāļēāļĢāļāļąāļāđāļĢāļĩāļĒāļāļāđāļāļĄāļđāļĨāļāļēāļĄāđāļ§āļĨāļē
https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
ðïļ āđāļĢāļ·āđāļāļāđāļĨāđāļēāļāļēāļāđāļĨāļ LLMs: āļāļēāđāļāļŠāđāļāļāđāļāļĢāļāļŠāļĢāđāļēāļāļ āļēāļĒāđāļāļāļāļāđāļĄāđāļāļĨ AI āļĒāļąāļāļĐāđāļĒāļļāļāđāļŦāļĄāđ
7 āļāļĩāļāđāļēāļāđāļāļāļēāļ GPT-2 āļāļķāļāļ§āļąāļāļāļĩāđ āđāļĄāđāđāļĄāđāļāļĨāļāļ°āļāļđāļāļĨāđāļēāļĒāļāļąāļāļĄāļēāļ āđāļāđāļ āļēāļĒāđāļāđ “āļāļĨāđāļāđāļĨāđāļ āđ” āļāļĨāļąāļāļĄāļĩāļāļēāļĢāđāļāļĨāļĩāđāļĒāļāđāļāļĨāļāļāļĢāļąāđāļāđāļŦāļāđāđāļāđāļĢāļ·āđāļāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļĨāļ°āļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ āđāļāđāļ:
- āđāļāļĨāļĩāđāļĒāļāļāļēāļ Multi-Head Attention (MHA) āđāļāđāļ Grouped-Query Attention (GQA)
- āđāļāđ Multi-Head Latent Attention (MLA) āđāļāļāļēāļāđāļĄāđāļāļĨ āđāļāđāļ DeepSeek V3
- āļāļēāļĢāđāļāđ Mixture-of-Experts (MoE) āđāļāļ·āđāļāđāļāļīāđāļĄāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāđāļāļĒāđāļĄāđāđāļāļīāđāļĄāļāđāļāļāļļāļ inference
- āļāļēāļĢāļāļĢāļąāļāļāļģāđāļŦāļāđāļāļāļāļ Normalization Layer āđāļāļ·āđāļāđāļŦāđāđāļĄāđāļāļĨāđāļŠāļāļĩāļĒāļĢāļāļķāđāļ
- āđāļāđ Sliding Window Attention āđāļĨāļ° QK-Norm āđāļāļ·āđāļāļāļĢāļ°āļŦāļĒāļąāļ KV cache āđāļĨāļ°āđāļĢāđāļāļāļēāļĢāđāļĢāļĩāļĒāļāļĢāļđāđ
- āļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļāļĒāļĒāļąāļāđāļŦāđāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāļŠāļđāļ āđāļāđāļ SmolLM3 āļāļąāļ Gemma 3n
â
DeepSeek V3 āđāļāđ Multi-Head Latent Attention (MLA) āđāļāļ GQA āđāļāļ·āđāļāļāļĢāļ°āļŦāļĒāļąāļ KV cache
âĄïļ āļāļāļ°āđāļāļĩāļĒāļ§āļāļąāļāļĒāļąāļāđāļŦāđāļāļĨāļĨāļąāļāļāđāļāļĩāļāļ§āđāļē MHA āđāļĨāļ°āđāļāđāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāļāđāļāļĒāļĨāļ
âžïļ MLA āđāļĄāđāļĄāļĩāļāļĨāļāļĩ āđāļāđāļĒāļąāļāđāļŦāļĄāđāđāļĨāļ°āļāļąāļāļāđāļāļāđāļāļāļēāļĢ implement
â āļāđāļāļāđāļāđāļāļēāļĢāļāļĩāļāļāļąāļāđāļĨāļ° projection āļāļķāđāļāđāļāļīāđāļĄāļāļąāđāļāļāļāļāđāļāļāļēāļĢ inference
â
DeepSeek V3 āđāļāđ Mixture-of-Experts (MoE) āļāļĩāđāļĄāļĩ 256 expert layers
âĄïļ āđāļāđāđāļāļĩāļĒāļ 9 expert āļāđāļ token āļāļāļ° inference āļāļģāđāļŦāđāļāļĢāļ°āļŦāļĒāļąāļāļāļĨāļąāļāļāļēāļ
âžïļ āļāļēāļĢāđāļāđ MoE āļāļģāđāļŦāđ parameter āļāļąāđāļāļŦāļĄāļāđāļĒāļāļ°āļĄāļēāļ āđāļĄāđāļāļ°āđāļāđāļāļĢāļīāļāđāļāļĩāļĒāļāļŠāđāļ§āļāļāđāļāļĒ
â āļŦāļēāļāļĢāļ°āļāļ routing āđāļĄāđāļāļĩāļŦāļĢāļ·āļāđāļĄāđāđāļŠāļāļĩāļĒāļĢ āļāļēāļāđāļāļīāļ undertraining āđāļāļāļēāļ expert
â
OLMo 2 āđāļāđ Post-Norm āđāļāļāđāļŦāļĄāđ āđāļĨāļ°āđāļāļīāđāļĄ QK-Norm āļ āļēāļĒāđāļ attention block
âĄïļ āļāđāļ§āļĒāđāļŠāļāļĩāļĒāļĢāļ āļēāļāđāļāļāļēāļĢāļāļķāļāđāļĨāļ°āļĨāļ loss
âžïļ QK-Norm āđāļĨāļ°āļāļēāļĢāļŠāļĨāļąāļ Pre/Post-Norm āļāđāļāļāļāļāļĨāļāļāļāļĒāđāļēāļāļĢāļ°āļ§āļąāļ
â āļāđāļēāđāļāđāļāļīāļāļāļąāļāļŦāļ§āļ°āļāļēāļāļāļģāđāļŦāđ training loss āđāļāļĢāļāļĢāļ§āļ
â
Gemma 3 āđāļāđ Sliding Window Attention āđāļāļ·āđāļāļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ
âĄïļ āļĨāļāļāļāļēāļ window āđāļŦāļĨāļ·āļ 1024 token āđāļĨāļ°āļĄāļĩ Global Attention āđāļāļāļēāļ°āļāļēāļāļāļąāđāļ
âžïļ Sliding Window Attention āļĨāļ memory āđāļāđāđāļĄāđāļĨāļ latency āđāļŠāļĄāļāđāļ
â āđāļāļĢāļēāļ°āļĒāļąāļāļāđāļāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļ local āļāļķāđāļāđāļĄāđāļŠāļēāļĄāļēāļĢāļāđāļāđ FlashAttention āđāļāđāđāļāđāļĄāļāļĩāđ
â
Gemma 3n āđāļāđ Per-Layer Embedding āđāļāļ·āđāļāđāļŦāđ inference āļāļāļāļļāļāļāļĢāļāđāđāļĨāđāļ
âĄïļ āđāļĒāļ parameter āļāļēāļāļŠāđāļ§āļāđāļ§āđāļāļ CPU āļŦāļĢāļ·āļ SSD āđāļĨāđāļ§āđāļŦāļĨāļāļāļēāļĄāļāđāļāļāļāļēāļĢ
âžïļ Per-Layer Embedding āļāļģāđāļŦāđāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāļāļđāļāļŠāļāļĢāļĩāļĄāļāļēāļāļāļļāļāļāļĢāļāđāļ āļēāļĒāļāļāļ
â āļāđāļē bandwidth āļŦāļĢāļ·āļ latency āļŠāļđāļāđāļāļīāļāđāļāļāļ°āļāļĢāļ°āļāļāļāđāļāļāļēāļĢ inference āļāļĒāđāļēāļāļŦāļāļąāļ
â
Mistral Small 3.1 āđāļĨāļīāļāđāļāđ Sliding Attention āđāļāļ·āđāļāļĢāļāļāļĢāļąāļ FlashAttention āđāļāļāđāļāđāļĄ
âĄïļ āļāļģāđāļŦāđ inference āđāļĢāđāļ§āļāļķāđāļāđāļĄāđāļāļ°āļĄāļĩāļāļēāļĢāļēāļĄāļīāđāļāļāļĢāđāđāļāļĨāđāđāļāļĩāļĒāļāļāļąāļ Gemma 3
â
Llama 4 āđāļāđ MoE āđāļāļ alternated (āļŠāļĨāļąāļāļāļąāđāļ MoE āļāļąāļ Dense)
âĄïļ Active parameter āļĄāļĩāđāļāđ 17B āđāļĄāđ model āļāļ°āļĄāļĩ 400B
â
Qwen3 āļĄāļĩāļĢāļļāđāļ dense āļāļāļēāļāđāļĨāđāļāļĄāļēāļ (āđāļāđāļ 0.6B) āđāļĨāļ° MoE āļāļāļēāļāđāļŦāļāđāļāļķāļ 235B
âĄïļ āļĢāļļāđāļ MoE āđāļĄāđāļĄāļĩ shared expert āđāļāđāļĒāļąāļāđāļāđ GQA āđāļŦāļĄāļ·āļāļāļĢāļļāđāļāļāđāļāļ
â
SmolLM3 āđāļāđ NoPE (No Positional Embeddings) āđāļāļāđāļĄāđāļĢāļ°āļāļļāļāļģāđāļŦāļāđāļāđāļĨāļĒ
âĄïļ āđāļŠāļāļāđāļŦāđāđāļŦāđāļāļ§āđāļēāđāļĄāđāļāđāļāļāđāļāđ embedding āļāđāļŠāļēāļĄāļēāļĢāļāđāļĢāļĩāļĒāļāļĢāļđāđāļĨāļģāļāļąāļāđāļāđāļāļēāļāļŠāđāļ§āļ
âžïļ āļāļēāļĢāđāļĄāđāļĄāļĩ Positional Embedding (āđāļāđāļ NoPE) āļāļēāļāļāļĢāļ°āļāļāđāļĄāđāļāļĨāđāļ task āļāļĩāđāļāđāļāļāļāļīāļāļĨāļģāļāļąāļ
â āđāļāđāļāļāļēāļĢāļŠāļĢāļļāļāđāļāļ·āđāļāļŦāļēāļĒāļēāļ§ āļŦāļĢāļ·āļāļāļēāļĢāļāļąāļāđāļĢāļĩāļĒāļāļāđāļāļĄāļđāļĨāļāļēāļĄāđāļ§āļĨāļē
https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
0 Comments
0 Shares
56 Views
0 Reviews