NVIDIA побила рекорд швидкості генерації тексту з Llama 4 Maverick - 1038 токенів за секунду
Компанія NVIDIA встановила новий світовий рекорд швидкості обробки токенів на одного користувача, досягнувши 1038 токенів за секунду (TPS/user) у моделі Meta Llama 4 Maverick. За даними аналітиків Artificial Analysis, цей результат був зафіксований на кластері DGX B200, оснащеному вісьмома GPU архітектури Blackwell, і перевершив попереднього лідера - SambaNova - на 31%.
До цього моменту рекорд належав компанії SambaNova з результатом 792 TPS/userАле NVIDIA значно випередила всіх конкурентів завдяки ряду технічних оптимізацій. Зокрема, для Llama 4 Maverick було задіяно бібліотеку TensorRT та методику спекулятивного декодування Eagle-3, що дозволяє передбачати вихідні токени заздалегідь. Тільки ці дві технології забезпечили 4-кратний приріст продуктивності порівняно з попередніми результатами Blackwell.
Графік продуктивності показує, що NVIDIA і SambaNova пішли далеко від інших учасників. Amazon (291 TPS) та Groq (276 TPS) йдуть на третьому і четвертому місцях, тоді як решта компаній, включаючи Google Vertex, Together.ai, Deepinfra, Novita та Azure, не змогли подолати планку в 200 TPS. Платформи Fireworks, Lambda Labs та Kluster.ai також відстали, продемонструвавши менше 180 TPS/user.
Варто зазначити, що показник TPS/user (токенів за секунду на одного користувача) фокусується саме на продуктивності при індивідуальної генерації, а не пакетної обробки, що особливо важливо для чат-ботів та ІІ-сервісів у реальному часі. Чим вище TPS, тим швидше ІІ відповідає на запити користувача — ключовий фактор у повсякденній роботі таких моделей.
Крім швидкості, NVIDIA покращила точність виведення, використовуючи формат даних FP8 замість BF16, а також техніку Mixture of Experts та оптимізації на рівні CUDA-ядер: просторове розбиття та динамічне перемішування ваг GEMM. Все це вказує на те, що NVIDIA зміцнює лідерство в AI-інфраструктурі, особливо в галузі LLM.