GeForce RTX 4070 Ti
GeForce RTX 4070 Ti заснована на графічному процесорі AD104 і оснащена 7680 ядрами CUDA, що забезпечують 40 шейдерних терафлопс з FP32 точністю для рендерингу графіки, 240 тензорних ядер четвертого покоління, що пропонують 641 трильйон DL для 60 покоління архітектури Ada з продуктивністю 93 RT-TFLOPS для прискорення графіки наступного покоління з трасуванням променів та 12 ГБ пам'яті GDDR6X. Як і всі графічні процесори серії GeForce RTX 40, RTX 4070 Ti оснащена інноваціями Ada, включаючи переупорядкування виконання шейдерів (SER), новий двигун оптичного потоку, нові RT-ядра та DLSS 3.
Архітектура NVIDIA Ada
Архітектура NVIDIA Ada – це гігантський стрибок у продуктивності. Численні поліпшення роблять її найшвидшою та передовою. RTX 4070 Ti виготовляється за індивідуальним техпроцесом TSMC 4N і містить 35,8 мільярда транзисторів та 7680 ядер CUDA. Апаратне прискорення трасування, тензорні ядра четвертого покоління для підвищення продуктивності штучного інтелекту, кодувальники восьмого покоління з підтримкою кодування та декодування AV1, а також покращення DLSS, які забезпечують високу частоту кадрів у змагальних іграх та на ультра-налаштуваннях із включеною трасою.
Потоковий мультипроцесор NVIDIA Ada
Відеокарти RTX мають три основні процесори: програмовані універсальні CUDA ядра, на яких обробляються шейдери та CUDA додатки загального призначення, RT-ядра для прискорення розрахунків перетинів променів з трикутниками та обмежувальними обсягами, в RT-ядрах архітектури Ada подвоїли темп розрахунку Тип процесора - конвеєр обробки штучного інтелекту, що називається тензорними ядрами.
Ada удосконалює всі три процесори RTX
Програмовані шейдери: 40 шейдерних терафлопс проти 21,7 терафлопс на RTX 3070 Ti. Шейдерний процесор Ada включає важливу нову технологію під назвою Shader Execution Reordering (SER), яка переупорядковує роботу на льоту, забезпечуючи дворазове прискорення для шейдерів трасування променів. SER — таке ж нове нововведення для графічних процесорів, яким колись було позачергове виконання для центральних процесорів.
Тензорні ядра 4-го покоління: нове тензорне ядро в Ada включає в себе двигун NVIDIA Hopper FP8 Transformer Engine, що забезпечує до 641 тензорних терафлопс з FP8 точністю на розріджених матрицях в RTX 4070 Ti для навчання та інферен тензорними терафлопами на розріджених матрицях RTX 174 Ti. Порівняно з FP3070, FP16 вдвічі знижує вимоги до обсягу пам'яті та подвоює продуктивність ІІ.
RT-ядра 3-го покоління: новий двигун Opacity Micromap Engine прискорює в середньому вдвічі темпи розрахунку перетинів для поверхонь з тестом прозорості текстур при використанні цієї функції розробниками, а новий двигун Micro-Mesh Engine збільшує геометричну деталізацію без витрат на збирання та зберігання BVH. Пропускна здатність Ada на тестах перетинів становить 93 RT-TFLOPS порівняно з 42,5 RT-TFLOPS у 3070 Ti.
Тензорні ядра 4-го покоління
Тензорні ядра - це високопродуктивні обчислювальні ядра, спеціалізовані та адаптовані для операцій матричного множення та додавання, які використовуються в додатках зі штучним інтелектом та для високопродуктивних обчислень. Тензорні ядра забезпечують революційну продуктивність для матричних обчислень, які мають вирішальне значення для навчання багатошарових нейронних мереж та розрахунків (інференсу) вже навчених мереж. Приклади додатків з інференсом включають технологію NVIDIA DLSS 3 для геймерів, де окрема нейронна мережа відповідає за генерацію високоякісних кадрів, і все це на базі тензорного ядра NVIDIA. DLSS став настільки популярним, що вже налічується понад 250 ігор за допомогою цієї технології, в яких геймери одним кліком можуть подвоїти продуктивність. Крім того, багато додатків для творчості почали використовувати функції штучного інтелекту, щоб допомогти художникам створювати контент швидше та робити це якісніше. Сьогодні понад 110 популярних додатків для творчості використовують прискорення на тензорних та RT-ядрах відеокарт RTX. А ексклюзивні програми NVIDIA, такі як Віщати и Полотно, пропонують інструменти для видалення шумів, створення віртуальних фонів та багатьох інших ефектів на базі ІІ для потокової передачі відео та конференцій.
Тензорне ядро Ada четвертого покоління ґрунтується на можливостях попередніх графічних процесорів Ampere, які підтримували безліч нових типів даних та додали прискорення структурованої розрідженості, щоб подвоїти пропускну здатність порівняно з попередніми ядрами Turing. Тензорні ядра покоління Ada підтримують новий формат даних FP8, який вперше представлений в архітектурі графічного процесора NVIDIA Hopper. Порівняно з FP16, FP8 вдвічі знижує вимоги до сховища даних та подвоює продуктивність ІІ. Завдяки новому формату FP8 та функції розрідженості GeForce RTX 4070 Ti забезпечує продуктивність 641 TFLOPS для робочих навантажень ІІ.
Ядра RT 3-го покоління
RT-ядра третього покоління архітектури Ada – це спеціалізовані апаратні блоки для прискорення обходу BVH та обчислення перетинів променів із трикутниками, які мають вирішальне значення для прискорення трасування променів. RT-ядра відеокарт RTX - повністю самостійні, вони виконують усі розрахунки обходу BVH та перетинів, розвантажуючи тим самим потокові мультипроцесори SM c CUDA ядрами та звільняючи їх для виконання інших завдань, таких як затінення пікселів, вершин та обчислень загального призначення.
RT-ядра архітектури Ada забезпечують у 2 рази швидше тестування перетинів променів з трикутниками в порівнянні з графічними процесорами NVIDIA Ampere, що дозволяє розробникам додавати більше деталей у свої віртуальні світи. До складу RT-ядер Ada також входять нові блоки Opacity Micromap Engine, які прискорюють трасування геометрії з альфа-тестуванням у 2 рази, це допоможе розробникам прискорити ресурсомісткі для трасування сцени з рослинністю та ефектами частинок до 2 разів. Також до складу нових RT-ядер входять блоки Displaced MicroMesh Engine, які генерують мікросітки на льоту для створення додаткової геометрії.
Всі ці технології для збільшення продуктивності з трасуванням променів дають архітектурі Ada великий заробіток на майбутнє. У міру появи нових ігор з використанням технологій Ada для збільшення продуктивності, відеокарти RTX 40 серії будуть безперечно ставати швидше і все більше відриватися від попереднього покоління відеокарт RTX 30 серії. Як приклад можна навести свіжий ремайстер Портал з RTX на базі RTX Remix, в якому NVIDIA використовує нові можливості архітектури Ada, такі як двигуни OMM і SER (їх, до речі, можна відключати в налаштуваннях), разом вони дозволяють RTX 4090 бути до 3 разів швидше за RTX 3080 Ti без використання DLSS, а з використанням генератора кадрів DLSS 3 перевага може досягати 5 разів.