Intel āđāļāļīāļāļāļąāļ§ LLM Scaler v1.0: āļĒāļāļĢāļ°āļāļąāļ AI āļāļ Arc Pro āļāđāļ§āļĒ Project Battlematrix
āđāļāļāļēāļ Computex 2025 Intel āđāļāđāđāļāļīāļāļāļąāļ§ Project Battlematrix āļāļķāđāļāđāļāđāļāđāļāļĨāļāļāļāļĢāđāļĄāđāļāļāļāļĢāļāļ§āļāļāļĢāļŠāļģāļŦāļĢāļąāļāļāļēāļ inference āļāđāļ§āļĒ GPU Arc Pro āļŦāļĨāļēāļĒāļāļąāļ§ āđāļāļĒāļĨāđāļēāļŠāļļāļāđāļāđāļāļĨāđāļāļĒāļāļāļāļāđāđāļ§āļĢāđāđāļ§āļāļĢāđāļāļąāļāđāļĢāļ LLM Scaler v1.0 āļāļĩāđāļĄāļēāļāļĢāđāļāļĄāļāļēāļĢāļāļĢāļąāļāđāļāđāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĒāđāļēāļāļŦāļāļąāļ
LLM Scaler v1.0 āļāļđāļāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļĢāļąāļāļāļ Linux āđāļāļĒāļĢāļāļāļĢāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ multi-GPU āđāļĨāļ°āļāļēāļĢāļŠāđāļāļāđāļāļĄāļđāļĨāļāđāļēāļ PCIe āđāļāļ P2P āļāļķāđāļāļāđāļ§āļĒāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāđāļŠāļđāļāļŠāļļāļāļāļķāļ 80% āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļāđāļ§āļāļĢāđāļāļąāļāļāđāļāļāļŦāļāđāļē
āļāļĩāđāļāļāļĢāđāđāļāđāļ āđāļāđāđāļāđ:
- āļāļēāļĢāļāļĢāļąāļāđāļāđāļ vLLM āļŠāļģāļŦāļĢāļąāļ input āļĒāļēāļ§āļāļķāļ 40K tokens
- āļāļēāļĢāļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ GPU āļāđāļ§āļĒ quantization āđāļāļāļāļąāđāļāļāđāļāļāļąāđāļ
- āļĢāļāļāļĢāļąāļ speculative decoding āđāļĨāļ° torch.compile āđāļāļ experimental
- āļĢāļāļāļĢāļąāļ embedding, rerank model āđāļĨāļ° multi-modal model
- āļĢāļ°āļāļāļāļąāļāļāļēāļĢ GPU āļāđāļēāļ XPU Manager āļāļĩāđāļŠāļēāļĄāļēāļĢāļāļāļąāļāđāļāļ firmware āđāļĨāļ°āļāļĢāļ§āļāļŠāļāļ bandwidth āđāļāđ
Intel āļĒāļąāļāļ§āļēāļāđāļāļāļāļāļ container āļĢāļļāđāļ hardened āļ āļēāļĒāđāļāđāļāļĢāļĄāļēāļŠāļāļĩāđ āđāļĨāļ°āļāļĨāđāļāļĒāđāļ§āļāļĢāđāļāļąāļāđāļāđāļĄāđāļ Q4 āļāļķāđāļāļāļ°āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāļ°āļāļąāļāļāļāļāđāļāļĢāļāļĒāđāļēāļāđāļāđāļĄāļĢāļđāļāđāļāļ
Intel āđāļāļīāļāļāļąāļ§ LLM Scaler v1.0 āļŠāļģāļŦāļĢāļąāļ Project Battlematrix
āđāļāđāļ container āļŠāļģāļŦāļĢāļąāļ inference āļāļ Arc Pro GPU āļŦāļĨāļēāļĒāļāļąāļ§
āļĢāļāļāļĢāļąāļ multi-GPU scaling āđāļĨāļ° PCIe P2P data transfer
āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļŠāļļāļāļāļķāļ 80%
āļāļĢāļąāļāđāļāđāļ vLLM āļŠāļģāļŦāļĢāļąāļ input āļĒāļēāļ§āļāļķāļ 40K tokens
āđāļāđāļāļĨāļĨāļąāļāļāđāđāļĢāđāļ§āļāļķāđāļāļāļķāļ 4.2 āđāļāđāļēāļŠāļģāļŦāļĢāļąāļāđāļĄāđāļāļĨ 70B
āļĄāļĩāļāļĩāđāļāļāļĢāđāđāļŦāļĄāđ āđāļāđāļ quantization, speculative decoding, torch.compile
āļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģāđāļĨāļ°āđāļāļīāđāļĄāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ
āļĢāļāļāļĢāļąāļ embedding, rerank model āđāļĨāļ° multi-modal model
āļāļĒāļēāļĒāļāļāļāđāļāļāļāļēāļĢāđāļāđāļāļēāļ AI āđāļāđāļŦāļĨāļēāļāļŦāļĨāļēāļĒ
āļĄāļĩāļĢāļ°āļāļ XPU Manager āļŠāļģāļŦāļĢāļąāļāļāļąāļāļāļēāļĢ GPU
āļāļĢāļ§āļāļŠāļāļāļāļĨāļąāļāļāļēāļ, bandwidth āđāļĨāļ°āļāļąāļāđāļāļ firmware āđāļāđ
āđāļāļĢāļĩāļĒāļĄāļāļĨāđāļāļĒ container āļĢāļļāđāļ hardened āđāļĨāļ° full feature set āļ āļēāļĒāđāļāļāļĩāļāļĩāđ
āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāļ°āļāļąāļāļāļāļāđāļāļĢāđāļĨāļ°āļāļēāļ inference āļāļāļēāļāđāļŦāļāđ
Arc Pro B-Series āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāđāļ§āļĄāļāļąāļāļŠāļđāļāļŠāļļāļ 8 GPU
āđāļŦāđ VRAM āļĢāļ§āļĄāļāļķāļ 192GB āļŠāļģāļŦāļĢāļąāļāđāļĄāđāļāļĨāļāļāļēāļ 70B+
āđāļāđāđāļāļāđāļāđāļĨāļĒāļĩ oneAPI āđāļĨāļ° Level Zero āđāļ software stack
āļāđāļ§āļĒāđāļŦāđāļāļąāļāļāļēāđāļĨāļ°āļāļĢāļąāļāđāļāđāļāđāļāđāļāđāļēāļĒāļāļķāđāļ
āļĄāļĩāļāļēāļĢāđāļāđ ECC, SRIOV āđāļĨāļ° telemetry āļŠāļģāļŦāļĢāļąāļāļāļ§āļēāļĄāđāļŠāļāļĩāļĒāļĢāļĢāļ°āļāļąāļāļāļāļāđāļāļĢ
āļĨāļāļāļ§āļēāļĄāđāļŠāļĩāđāļĒāļāļāļēāļāļāļēāļĢāļāļģāļāļēāļāļāļīāļāļāļĨāļēāļ
Intel āļāļąāđāļāđāļāđāļēāļŠāļĢāđāļēāļāđāļāļĨāļāļāļāļĢāđāļĄ inference āļāļĩāđāđāļāđāļāļāļąāļāļāļąāļ Nvidia āđāļāđ
āđāļāļĒāđāļāđāļāļāļ§āļēāļĄāđāļāļīāļāļāļ§āđāļēāļāđāļĨāļ°āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĩāđāļāļļāđāļĄāļāđāļē
āļāļĩāđāļāļāļĢāđāļāļēāļāļāļĒāđāļēāļāļĒāļąāļāļāļĒāļđāđāđāļāļŠāļāļēāļāļ° experimental
āđāļāđāļ torch.compile āđāļĨāļ° speculative decoding āļāļēāļāļĒāļąāļāđāļĄāđāđāļŠāļāļĩāļĒāļĢ
āļāļēāļĢāđāļāđ multi-GPU āļāđāļāļāļāļēāļĢāļĢāļ°āļāļāļāļĩāđāļĢāļāļāļĢāļąāļ PCIe P2P āļāļĒāđāļēāļāđāļŦāļĄāļēāļ°āļŠāļĄ
āļŦāļēāļāļĢāļ°āļāļāđāļĄāđāļĢāļāļāļĢāļąāļ āļāļēāļāđāļĄāđāđāļāđāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĄāļāļĩāđāļĢāļ°āļāļļ
Container āļĢāļļāđāļāđāļĢāļāļāļēāļāļĒāļąāļāđāļĄāđāđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļ production āļāļāļēāļāđāļŦāļāđ
āļāđāļāļāļĢāļāļĢāļļāđāļ hardened āđāļĨāļ° full feature set āđāļ Q4
āļāļēāļĢāđāļāļĨāļĩāđāļĒāļāļĄāļēāđāļāđ Arc Pro āļāļēāļāļāđāļāļāļāļĢāļąāļāļĢāļ°āļāļāļāļēāļ Nvidia āđāļāļīāļĄ
āđāļŠāļĩāđāļĒāļāļāđāļāļāļ§āļēāļĄāđāļĄāđāđāļāđāļēāļāļąāļāļāļąāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāļŦāļĢāļ·āļāđāļāļĢāļĄāđāļ§āļīāļĢāđāļāļāļĩāđāđāļāđāļāļĒāļđāđ
https://wccftech.com/intel-project-battlematrix-arc-pro-gpus-first-major-software-update-llm-scaler-v1-0-massive-performance-uplift-enhanced-support/
āđāļāļāļēāļ Computex 2025 Intel āđāļāđāđāļāļīāļāļāļąāļ§ Project Battlematrix āļāļķāđāļāđāļāđāļāđāļāļĨāļāļāļāļĢāđāļĄāđāļāļāļāļĢāļāļ§āļāļāļĢāļŠāļģāļŦāļĢāļąāļāļāļēāļ inference āļāđāļ§āļĒ GPU Arc Pro āļŦāļĨāļēāļĒāļāļąāļ§ āđāļāļĒāļĨāđāļēāļŠāļļāļāđāļāđāļāļĨāđāļāļĒāļāļāļāļāđāđāļ§āļĢāđāđāļ§āļāļĢāđāļāļąāļāđāļĢāļ LLM Scaler v1.0 āļāļĩāđāļĄāļēāļāļĢāđāļāļĄāļāļēāļĢāļāļĢāļąāļāđāļāđāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĒāđāļēāļāļŦāļāļąāļ
LLM Scaler v1.0 āļāļđāļāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļĢāļąāļāļāļ Linux āđāļāļĒāļĢāļāļāļĢāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ multi-GPU āđāļĨāļ°āļāļēāļĢāļŠāđāļāļāđāļāļĄāļđāļĨāļāđāļēāļ PCIe āđāļāļ P2P āļāļķāđāļāļāđāļ§āļĒāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāđāļŠāļđāļāļŠāļļāļāļāļķāļ 80% āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļāđāļ§āļāļĢāđāļāļąāļāļāđāļāļāļŦāļāđāļē
āļāļĩāđāļāļāļĢāđāđāļāđāļ āđāļāđāđāļāđ:
- āļāļēāļĢāļāļĢāļąāļāđāļāđāļ vLLM āļŠāļģāļŦāļĢāļąāļ input āļĒāļēāļ§āļāļķāļ 40K tokens
- āļāļēāļĢāļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ GPU āļāđāļ§āļĒ quantization āđāļāļāļāļąāđāļāļāđāļāļāļąāđāļ
- āļĢāļāļāļĢāļąāļ speculative decoding āđāļĨāļ° torch.compile āđāļāļ experimental
- āļĢāļāļāļĢāļąāļ embedding, rerank model āđāļĨāļ° multi-modal model
- āļĢāļ°āļāļāļāļąāļāļāļēāļĢ GPU āļāđāļēāļ XPU Manager āļāļĩāđāļŠāļēāļĄāļēāļĢāļāļāļąāļāđāļāļ firmware āđāļĨāļ°āļāļĢāļ§āļāļŠāļāļ bandwidth āđāļāđ
Intel āļĒāļąāļāļ§āļēāļāđāļāļāļāļāļ container āļĢāļļāđāļ hardened āļ āļēāļĒāđāļāđāļāļĢāļĄāļēāļŠāļāļĩāđ āđāļĨāļ°āļāļĨāđāļāļĒāđāļ§āļāļĢāđāļāļąāļāđāļāđāļĄāđāļ Q4 āļāļķāđāļāļāļ°āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāļ°āļāļąāļāļāļāļāđāļāļĢāļāļĒāđāļēāļāđāļāđāļĄāļĢāļđāļāđāļāļ
Intel āđāļāļīāļāļāļąāļ§ LLM Scaler v1.0 āļŠāļģāļŦāļĢāļąāļ Project Battlematrix
āđāļāđāļ container āļŠāļģāļŦāļĢāļąāļ inference āļāļ Arc Pro GPU āļŦāļĨāļēāļĒāļāļąāļ§
āļĢāļāļāļĢāļąāļ multi-GPU scaling āđāļĨāļ° PCIe P2P data transfer
āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļŠāļļāļāļāļķāļ 80%
āļāļĢāļąāļāđāļāđāļ vLLM āļŠāļģāļŦāļĢāļąāļ input āļĒāļēāļ§āļāļķāļ 40K tokens
āđāļāđāļāļĨāļĨāļąāļāļāđāđāļĢāđāļ§āļāļķāđāļāļāļķāļ 4.2 āđāļāđāļēāļŠāļģāļŦāļĢāļąāļāđāļĄāđāļāļĨ 70B
āļĄāļĩāļāļĩāđāļāļāļĢāđāđāļŦāļĄāđ āđāļāđāļ quantization, speculative decoding, torch.compile
āļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģāđāļĨāļ°āđāļāļīāđāļĄāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ
āļĢāļāļāļĢāļąāļ embedding, rerank model āđāļĨāļ° multi-modal model
āļāļĒāļēāļĒāļāļāļāđāļāļāļāļēāļĢāđāļāđāļāļēāļ AI āđāļāđāļŦāļĨāļēāļāļŦāļĨāļēāļĒ
āļĄāļĩāļĢāļ°āļāļ XPU Manager āļŠāļģāļŦāļĢāļąāļāļāļąāļāļāļēāļĢ GPU
āļāļĢāļ§āļāļŠāļāļāļāļĨāļąāļāļāļēāļ, bandwidth āđāļĨāļ°āļāļąāļāđāļāļ firmware āđāļāđ
āđāļāļĢāļĩāļĒāļĄāļāļĨāđāļāļĒ container āļĢāļļāđāļ hardened āđāļĨāļ° full feature set āļ āļēāļĒāđāļāļāļĩāļāļĩāđ
āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāļ°āļāļąāļāļāļāļāđāļāļĢāđāļĨāļ°āļāļēāļ inference āļāļāļēāļāđāļŦāļāđ
Arc Pro B-Series āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāđāļ§āļĄāļāļąāļāļŠāļđāļāļŠāļļāļ 8 GPU
āđāļŦāđ VRAM āļĢāļ§āļĄāļāļķāļ 192GB āļŠāļģāļŦāļĢāļąāļāđāļĄāđāļāļĨāļāļāļēāļ 70B+
āđāļāđāđāļāļāđāļāđāļĨāļĒāļĩ oneAPI āđāļĨāļ° Level Zero āđāļ software stack
āļāđāļ§āļĒāđāļŦāđāļāļąāļāļāļēāđāļĨāļ°āļāļĢāļąāļāđāļāđāļāđāļāđāļāđāļēāļĒāļāļķāđāļ
āļĄāļĩāļāļēāļĢāđāļāđ ECC, SRIOV āđāļĨāļ° telemetry āļŠāļģāļŦāļĢāļąāļāļāļ§āļēāļĄāđāļŠāļāļĩāļĒāļĢāļĢāļ°āļāļąāļāļāļāļāđāļāļĢ
āļĨāļāļāļ§āļēāļĄāđāļŠāļĩāđāļĒāļāļāļēāļāļāļēāļĢāļāļģāļāļēāļāļāļīāļāļāļĨāļēāļ
Intel āļāļąāđāļāđāļāđāļēāļŠāļĢāđāļēāļāđāļāļĨāļāļāļāļĢāđāļĄ inference āļāļĩāđāđāļāđāļāļāļąāļāļāļąāļ Nvidia āđāļāđ
āđāļāļĒāđāļāđāļāļāļ§āļēāļĄāđāļāļīāļāļāļ§āđāļēāļāđāļĨāļ°āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĩāđāļāļļāđāļĄāļāđāļē
āļāļĩāđāļāļāļĢāđāļāļēāļāļāļĒāđāļēāļāļĒāļąāļāļāļĒāļđāđāđāļāļŠāļāļēāļāļ° experimental
āđāļāđāļ torch.compile āđāļĨāļ° speculative decoding āļāļēāļāļĒāļąāļāđāļĄāđāđāļŠāļāļĩāļĒāļĢ
āļāļēāļĢāđāļāđ multi-GPU āļāđāļāļāļāļēāļĢāļĢāļ°āļāļāļāļĩāđāļĢāļāļāļĢāļąāļ PCIe P2P āļāļĒāđāļēāļāđāļŦāļĄāļēāļ°āļŠāļĄ
āļŦāļēāļāļĢāļ°āļāļāđāļĄāđāļĢāļāļāļĢāļąāļ āļāļēāļāđāļĄāđāđāļāđāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĄāļāļĩāđāļĢāļ°āļāļļ
Container āļĢāļļāđāļāđāļĢāļāļāļēāļāļĒāļąāļāđāļĄāđāđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļ production āļāļāļēāļāđāļŦāļāđ
āļāđāļāļāļĢāļāļĢāļļāđāļ hardened āđāļĨāļ° full feature set āđāļ Q4
āļāļēāļĢāđāļāļĨāļĩāđāļĒāļāļĄāļēāđāļāđ Arc Pro āļāļēāļāļāđāļāļāļāļĢāļąāļāļĢāļ°āļāļāļāļēāļ Nvidia āđāļāļīāļĄ
āđāļŠāļĩāđāļĒāļāļāđāļāļāļ§āļēāļĄāđāļĄāđāđāļāđāļēāļāļąāļāļāļąāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāļŦāļĢāļ·āļāđāļāļĢāļĄāđāļ§āļīāļĢāđāļāļāļĩāđāđāļāđāļāļĒāļđāđ
https://wccftech.com/intel-project-battlematrix-arc-pro-gpus-first-major-software-update-llm-scaler-v1-0-massive-performance-uplift-enhanced-support/
ð§ âïļ Intel āđāļāļīāļāļāļąāļ§ LLM Scaler v1.0: āļĒāļāļĢāļ°āļāļąāļ AI āļāļ Arc Pro āļāđāļ§āļĒ Project Battlematrix
āđāļāļāļēāļ Computex 2025 Intel āđāļāđāđāļāļīāļāļāļąāļ§ Project Battlematrix āļāļķāđāļāđāļāđāļāđāļāļĨāļāļāļāļĢāđāļĄāđāļāļāļāļĢāļāļ§āļāļāļĢāļŠāļģāļŦāļĢāļąāļāļāļēāļ inference āļāđāļ§āļĒ GPU Arc Pro āļŦāļĨāļēāļĒāļāļąāļ§ āđāļāļĒāļĨāđāļēāļŠāļļāļāđāļāđāļāļĨāđāļāļĒāļāļāļāļāđāđāļ§āļĢāđāđāļ§āļāļĢāđāļāļąāļāđāļĢāļ LLM Scaler v1.0 āļāļĩāđāļĄāļēāļāļĢāđāļāļĄāļāļēāļĢāļāļĢāļąāļāđāļāđāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĒāđāļēāļāļŦāļāļąāļ
LLM Scaler v1.0 āļāļđāļāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļĢāļąāļāļāļ Linux āđāļāļĒāļĢāļāļāļĢāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ multi-GPU āđāļĨāļ°āļāļēāļĢāļŠāđāļāļāđāļāļĄāļđāļĨāļāđāļēāļ PCIe āđāļāļ P2P āļāļķāđāļāļāđāļ§āļĒāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāđāļŠāļđāļāļŠāļļāļāļāļķāļ 80% āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļāđāļ§āļāļĢāđāļāļąāļāļāđāļāļāļŦāļāđāļē
āļāļĩāđāļāļāļĢāđāđāļāđāļ āđāļāđāđāļāđ:
- āļāļēāļĢāļāļĢāļąāļāđāļāđāļ vLLM āļŠāļģāļŦāļĢāļąāļ input āļĒāļēāļ§āļāļķāļ 40K tokens
- āļāļēāļĢāļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ GPU āļāđāļ§āļĒ quantization āđāļāļāļāļąāđāļāļāđāļāļāļąāđāļ
- āļĢāļāļāļĢāļąāļ speculative decoding āđāļĨāļ° torch.compile āđāļāļ experimental
- āļĢāļāļāļĢāļąāļ embedding, rerank model āđāļĨāļ° multi-modal model
- āļĢāļ°āļāļāļāļąāļāļāļēāļĢ GPU āļāđāļēāļ XPU Manager āļāļĩāđāļŠāļēāļĄāļēāļĢāļāļāļąāļāđāļāļ firmware āđāļĨāļ°āļāļĢāļ§āļāļŠāļāļ bandwidth āđāļāđ
Intel āļĒāļąāļāļ§āļēāļāđāļāļāļāļāļ container āļĢāļļāđāļ hardened āļ āļēāļĒāđāļāđāļāļĢāļĄāļēāļŠāļāļĩāđ āđāļĨāļ°āļāļĨāđāļāļĒāđāļ§āļāļĢāđāļāļąāļāđāļāđāļĄāđāļ Q4 āļāļķāđāļāļāļ°āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāļ°āļāļąāļāļāļāļāđāļāļĢāļāļĒāđāļēāļāđāļāđāļĄāļĢāļđāļāđāļāļ
â
Intel āđāļāļīāļāļāļąāļ§ LLM Scaler v1.0 āļŠāļģāļŦāļĢāļąāļ Project Battlematrix
âĄïļ āđāļāđāļ container āļŠāļģāļŦāļĢāļąāļ inference āļāļ Arc Pro GPU āļŦāļĨāļēāļĒāļāļąāļ§
â
āļĢāļāļāļĢāļąāļ multi-GPU scaling āđāļĨāļ° PCIe P2P data transfer
âĄïļ āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļŠāļļāļāļāļķāļ 80%
â
āļāļĢāļąāļāđāļāđāļ vLLM āļŠāļģāļŦāļĢāļąāļ input āļĒāļēāļ§āļāļķāļ 40K tokens
âĄïļ āđāļāđāļāļĨāļĨāļąāļāļāđāđāļĢāđāļ§āļāļķāđāļāļāļķāļ 4.2 āđāļāđāļēāļŠāļģāļŦāļĢāļąāļāđāļĄāđāļāļĨ 70B
â
āļĄāļĩāļāļĩāđāļāļāļĢāđāđāļŦāļĄāđ āđāļāđāļ quantization, speculative decoding, torch.compile
âĄïļ āļĨāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģāđāļĨāļ°āđāļāļīāđāļĄāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ
â
āļĢāļāļāļĢāļąāļ embedding, rerank model āđāļĨāļ° multi-modal model
âĄïļ āļāļĒāļēāļĒāļāļāļāđāļāļāļāļēāļĢāđāļāđāļāļēāļ AI āđāļāđāļŦāļĨāļēāļāļŦāļĨāļēāļĒ
â
āļĄāļĩāļĢāļ°āļāļ XPU Manager āļŠāļģāļŦāļĢāļąāļāļāļąāļāļāļēāļĢ GPU
âĄïļ āļāļĢāļ§āļāļŠāļāļāļāļĨāļąāļāļāļēāļ, bandwidth āđāļĨāļ°āļāļąāļāđāļāļ firmware āđāļāđ
â
āđāļāļĢāļĩāļĒāļĄāļāļĨāđāļāļĒ container āļĢāļļāđāļ hardened āđāļĨāļ° full feature set āļ āļēāļĒāđāļāļāļĩāļāļĩāđ
âĄïļ āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāļ°āļāļąāļāļāļāļāđāļāļĢāđāļĨāļ°āļāļēāļ inference āļāļāļēāļāđāļŦāļāđ
â
Arc Pro B-Series āļĢāļāļāļĢāļąāļāļāļēāļĢāđāļāđāļāļēāļāļĢāđāļ§āļĄāļāļąāļāļŠāļđāļāļŠāļļāļ 8 GPU
âĄïļ āđāļŦāđ VRAM āļĢāļ§āļĄāļāļķāļ 192GB āļŠāļģāļŦāļĢāļąāļāđāļĄāđāļāļĨāļāļāļēāļ 70B+
â
āđāļāđāđāļāļāđāļāđāļĨāļĒāļĩ oneAPI āđāļĨāļ° Level Zero āđāļ software stack
âĄïļ āļāđāļ§āļĒāđāļŦāđāļāļąāļāļāļēāđāļĨāļ°āļāļĢāļąāļāđāļāđāļāđāļāđāļāđāļēāļĒāļāļķāđāļ
â
āļĄāļĩāļāļēāļĢāđāļāđ ECC, SRIOV āđāļĨāļ° telemetry āļŠāļģāļŦāļĢāļąāļāļāļ§āļēāļĄāđāļŠāļāļĩāļĒāļĢāļĢāļ°āļāļąāļāļāļāļāđāļāļĢ
âĄïļ āļĨāļāļāļ§āļēāļĄāđāļŠāļĩāđāļĒāļāļāļēāļāļāļēāļĢāļāļģāļāļēāļāļāļīāļāļāļĨāļēāļ
â
Intel āļāļąāđāļāđāļāđāļēāļŠāļĢāđāļēāļāđāļāļĨāļāļāļāļĢāđāļĄ inference āļāļĩāđāđāļāđāļāļāļąāļāļāļąāļ Nvidia āđāļāđ
âĄïļ āđāļāļĒāđāļāđāļāļāļ§āļēāļĄāđāļāļīāļāļāļ§āđāļēāļāđāļĨāļ°āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĩāđāļāļļāđāļĄāļāđāļē
âžïļ āļāļĩāđāļāļāļĢāđāļāļēāļāļāļĒāđāļēāļāļĒāļąāļāļāļĒāļđāđāđāļāļŠāļāļēāļāļ° experimental
â āđāļāđāļ torch.compile āđāļĨāļ° speculative decoding āļāļēāļāļĒāļąāļāđāļĄāđāđāļŠāļāļĩāļĒāļĢ
âžïļ āļāļēāļĢāđāļāđ multi-GPU āļāđāļāļāļāļēāļĢāļĢāļ°āļāļāļāļĩāđāļĢāļāļāļĢāļąāļ PCIe P2P āļāļĒāđāļēāļāđāļŦāļĄāļēāļ°āļŠāļĄ
â āļŦāļēāļāļĢāļ°āļāļāđāļĄāđāļĢāļāļāļĢāļąāļ āļāļēāļāđāļĄāđāđāļāđāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĄāļāļĩāđāļĢāļ°āļāļļ
âžïļ Container āļĢāļļāđāļāđāļĢāļāļāļēāļāļĒāļąāļāđāļĄāđāđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļ production āļāļāļēāļāđāļŦāļāđ
â āļāđāļāļāļĢāļāļĢāļļāđāļ hardened āđāļĨāļ° full feature set āđāļ Q4
âžïļ āļāļēāļĢāđāļāļĨāļĩāđāļĒāļāļĄāļēāđāļāđ Arc Pro āļāļēāļāļāđāļāļāļāļĢāļąāļāļĢāļ°āļāļāļāļēāļ Nvidia āđāļāļīāļĄ
â āđāļŠāļĩāđāļĒāļāļāđāļāļāļ§āļēāļĄāđāļĄāđāđāļāđāļēāļāļąāļāļāļąāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāļŦāļĢāļ·āļāđāļāļĢāļĄāđāļ§āļīāļĢāđāļāļāļĩāđāđāļāđāļāļĒāļđāđ
https://wccftech.com/intel-project-battlematrix-arc-pro-gpus-first-major-software-update-llm-scaler-v1-0-massive-performance-uplift-enhanced-support/
0 Comments
0 Shares
31 Views
0 Reviews