AMD представила ROCm 7: прискорення ІІ-інференсу до 3.8× та повна підтримка MI350
AMD офіційно анонсувала наступне покоління відкритого ПЗ — ROCm 7, зосереджена на прискорення ІІ-інференсу та підтримки серії Instinct MI350. Новий стек технологій приходить на зміну ROCm 6 і включає підтримку форматів FP8, FP6 та FP4, а також оптимізації для розподіленої обробки та префілінгу.
У ROCm 7 реалізовані нові алгоритми та ядра, включаючи GEMM Autotuning, MoE, Attention та Python-кернели, а також додані фреймворки vLLM v1, llm-d та SGLang. Основний приріст продуктивності зафіксовано у завданнях інференсу: до 3.5× швидше, ніж ROCm 6, з максимумом 3.8× в DeepSeek R1, 3.2× Llama 3.1 70B и 3.4× Qwen2-72B.
ROCm 7 на MI355X випереджає Blackwell B200 із CUDA на 30% за пропускною здатністю в DeepSeek R1 (FP8). Крім того, прискорення навчання до 3× отримано Llama 2, 3.1 і Qwen 1.5. Новий стек також масштабується на CPU, GPU та DPU, забезпечуючи універсальні рішення для Enterprise AI та GenAI-завдань.