enfrdepluk
Search find 4120  disqus socia  tg2 f2 lin2 in2 X icon 3 y2  p2 тільки steam2

Особливості архітектури GeForce 4 Ti 4200

GeForce 4 Ti - еволюція GeForce 3 Ti

Основні архітектурні нововведення NV25 (В порівнянні з NV20)

Два незалежні контролери відображення (CRTC). Гнучка підтримка різних режимів з виведенням двох незалежних за роздільною здатністю та змістом буферів кадру на будь-які доступні приймачі сигналу.
Два повноцінні інтегровані в чіп 350 МГц RAMDAC (з 10 бітною палітрою).
Інтегрований у чіп інтерфейс TV-Out.
Інтегрований в чіп трансмітер TDMS (для DVI інтерфейсу).
Два блоки інтерпретації та виконання вершинних шейдерів. Вони обіцяють суттєве збільшення швидкості обробки сцен зі складною геометрією. Блоки не можуть використовувати різний мікрокод шейдерів, єдине призначення подібного дублювання - обробка двох вершин одночасно - служить для збільшення продуктивності.
Удосконалені конвеєри забарвлення забезпечують апаратну підтримку піксельних шейдерів до версії 1.3 включно.
За заявами NVIDIA, збільшено ефективну швидкість забарвлення в режимах MSAA, тепер режими 2x AA та Quincunx AA викличуть значно менше падіння продуктивності. Трохи вдосконалено Quincunx AA (зміщені позиції вибірки семплів). З'явився новий метод AA – 4xS.
Удосконалена система роздільного кешування (4 роздільні кеші для геометрії, текстур, буфер кадру та Z буфер).
Удосконалений стиск без втрат (1:4) та швидке очищення Z буфера.
Удосконалений алгоритм відкидання невидимих ​​поверхонь (Z Cull HSR).

Підбиваючи підсумок цього списку, хочеться відзначити скоріше еволюційний, ніж революційний характер змін у порівнянні з попереднім твором NVIDIA (NV20). Втім, це не дивно - історично NVIDIA спочатку пропонувала продукт, що несе безліч нових технологій, а потім випускала більш досконалий (оптимізований) варіант на його основі, усуваючи недоліки, що привернули основну увагу (за час присутності продукту на ринку).

Структурна схема N25

nv251

За проведеним після виходу відеокарт тестування GeForce4 Ti виявлялася відчутно швидше за GeForce3 Ti. Такий вражаючий відрив у продуктивності NV25 був досягнутий не завдяки якійсь принципово новій технології, а через подальше налагодження та налаштування існуючих у GeForce3 (NV20) технологій. Мається на увазі, що ядро ​​GeForce4 було всього на 5% більше за ядро ​​NV20 при рівному техпроцесі (0,15 мкм).

chip_block1

Вершинні шейдери nfiniteFX II

Якщо GeForce3 мала лише один модуль вершинних шейдерів, то GeForce4 Ti їх вже два. Втім, навряд чи вас це здивує, оскільки в чіпі nVidia для Microsoft Xbox також є два модулі вершинних шейдерів. Хіба що у NV25 модулі були покращені.

Очевидно, що два паралельно працюючі модулі вершинних шейдерів могли обробити більше вершин в одиницю часу. Для цього чіп сам розкладав вершини на два потоки, тому новий механізм прозорий для додатків та API. Диспетчеризація інструкцій здійснюється NV25, при цьому чіп повинен переконатися, що кожен модуль вершинних шейдер працює над своєю вершиною. Поліпшення модулів вершинних шейдерів з часів GeForce3 призвело до зменшення затримок під час обробки інструкцій.

В результаті GeForce4 Ti4600 міг обробити приблизно в 3 рази більше вершин, ніж GeForce3 Ti500 через наявність двох модулів вершинних шейдерів, їх поліпшення та роботу на вищій тактовій частоті.

Піксельні шейдери nfiniteFX II

nVidia змогла покращити функціональність піксельних шейдерів у GeForce4 Ti.
Новий чіп підтримує піксельні шейдери 1.2 та 1.3, але не розширення ATi 1.4.

Нижче наведено нові режими піксельних шейдерів.
OFFSET_PROJECTIVE_TEXTURE_2D_NV
OFFSET_PROJECTIVE_TEXTURE_2D_SCALE_NV
OFFSET_PROJECTIVE_TEXTURE_RECTANGLE_NV
OFFSET_PROJECTIVE_TEXTURE_RECTANGLE_SCALE_NV
OFFSET_HILO_TEXTURE_2D_NV
OFFSET_HILO_TEXTURE_RECTANGLE_NV
OFFSET_HILO_PROJECTIVE_TEXTURE_2D_NV
OFFSET_HILO_PROJECTIVE_TEXTURE_RECTANGLE_NV
DEPENDENT_HILO_TEXTURE_2D_NV
DEPENDENT_RGB_TEXTURE_3D_NV
DEPENDENT_RGB_TEXTURE_CUBE_MAP_NV
DOT_PRODUCT_TEXTURE_1D_NV
DOT_PRODUCT_PASS_THROUGH_NV
DOT_PRODUCT_AFFINE_DEPTH_REPLACE_NV

Ми не будемо описувати кожен новий режим, але слід відзначити, що з'явилася в GeForce4 Ti підтримку скоригованого по z накладання нерівностей (z-correct bump mapping), що дозволяло усунути артефакти, що з'являються при дотику bump-тектури з іншою геометрією (наприклад, коли вода в озері або річці стикається із землею).

nVidia зрештою змогла покращити конвеєр піксельних шейдерів, що відчутно позначилося на швидкості рендерингу сцен із 3-4 текстурами на піксель.

29_s1

Accuview – покращене згладжування Під час випуску GeForce3 nVidia анонсувала згладжування HRAA - згладжування на високій роздільній здатності екрану, що базується на багатосемповому повноекранному згладжуванні. У GeForce4 було реалізовано згладжування Accuview, що по суті є покращеним багатосемпловим згладжуванням як щодо якості, так і продуктивності.
 nVidia змістила позиції семплів, що має покращити якість згладжування через накопичення меншої кількості помилок, особливо при використанні згладжування Quincunx. nVidia випустила документацію щодо цієї процедури, але навряд чи мала сенс її читати, оскільки вона мало що пояснювала. Нова технологія фільтрації включалася щоразу, коли семпли поєднувалися на фінальному згладженому кадрі, причому технологія дозволяла заощаджувати один повний запис у кадровий буфер, що значно позначалося на продуктивності згладжування.

nv25lma21

LMA II - нова архітектура пам'яті ІСаме завдяки покращенням в архітектурі пам'яті GeForce4 Ti показувала такий сильний відрив від GeForce3.

У GeForce3/GeForce4 контролер пам'яті поділявся на чотири незалежні контролери, кожен з яких використовує виділену 32-бітну DDR ​​шину. Усі запити до пам'яті поділялися між цими контролерами.

У LMA II практично кожен компонент зазнав поліпшень. Можна звернути увагу на чотири кеші. Але кешування - виняткова риса GeForce, оскільки в Radeon 8500 були також аналогічні кеші. Взагалі кешування в графічних чіпах приділялося набагато менше уваги, ніж кешам в процесорах, оскільки їх розмір не був настільки великий. Причина цього зрозуміла: графічні чіпи працювали тоді повільніше за шини пам'яті, тоді як центральні процесори працювали в 2-16 разів швидше, тому кеш грав там набагато важливішу роль.

Перехресний контролер пам'яті (crossbar memory controller)
У GeForce3 вже був присутній цей контролер, що дозволяє здійснювати 64-бітну, 128-бітову та звичайну 256-бітну передачу, що значно покращував пропускну здатність. У LMA II nVidia покращила алгоритми балансування навантаження для різних розділів пам'яті та модернізувала схему пріоритетів.

Візуальна підсистема (visibility subsystem) - відкидання перекритих пікселів
Ця технологія вже існувала в GeForce3, але в NV25 вона була покращена для більш точного відбракування пікселів з використанням меншої пропускної спроможності пам'яті. Відбраковування тоді проводилося за допомогою спеціального кешу на чіпі, що дозволяло зменшити звернення до зовнішньої пам'яті відеокарти. Як показало дослідження Anandtech, GeForce4 на 25% краще відбраковував пікселі, ніж GeForce3 за рівної тактової частоти.

Компресія Z-буфера без втрат
І знову ж таки, ця можливість існувала в GeForce3, але завдяки новому алгоритму стиснення в LMA II частіше досягалася успішна компресія 4:1.

Кеш вершин
Зберігає вершини після того, як вони були надіслані AGP. Завдяки кешу покращувалося використання AGP, оскільки він дозволяв уникнути передачі однакових вершин (наприклад, якщо примітиви мали спільні межі).

Кеш примітивів
Накопичував примітиви після їх обробки (після вершинного шейдера) фундаментальні примітиви для передачі на модуль установки трикутників.

Подвійний кеш текстур
Вже існував на GeForce3. Нові алгоритми краще працювали під час використання мультитекстурування або високоякісної фільтрації. Завдяки цьому у GeForce4 Ti була значно покращена продуктивність при накладенні 3-4 текстур.

Піксельний кеш
Кеш використовувався наприкінці конвеєра рендерингу для накопичення, дуже схожого на функцію процесорів Intel/AMD. Кеш накопичував кілька пікселів і потім у пакетному режимі записував їх на згадку.

Автоматична попередня зарядка (pre-charge)
Перед читанням з банку пам'яті необхідно зробити його попереднє заряджання, що призводить до затримок. GeForce4 Ti міг випереджаюче проводити зарядку, використовуючи спеціальний алгоритм передбачення.

Швидке Z-очищення (Z-clear)
Ця можливість вже деякий час була відома та використовувалася в інших чіпах. Вперше швидке Z-очищення було задіяно в чіпі ATi Radeon. Вона просто встановлювала прапор для певної ділянки кадрового буфера, тому замість заповнення цієї ділянки нулями, можна було лише виставити прапор, що дозволяло економити пропускну здатність пам'яті.

nfxii8_small1

Характеристики NVIDIA GeForce 4 Ti 4200

Найменування GeForce 4 Ti 4200
Ядро NV25
Техпроцес (мкм) 0,15
Транзисторів (млн) 63
Частота роботи ядра 250
Частота роботи пам'яті (DDR) 222 (444)
Шина та тип пам'яті DDR-128 bit
ПСП (Гб/с) 7,1
Піксельні конвеєри 4
TMU на конвеєр 2
Текстур за такт 8
Текстур за прохід 4
Вершинних конвеєрів 2
Піксельні шейдери 1,3
Vertex Shaders 1,1
Fill Rate (Mpix/s) 1000
Fill Rate (Mtex/s) 2000
DirectX 8.0
Anti-Aliasing (Max) MS - 4x
Анізотропна фільтрація (Max) 8x
Обсяг пам'яті 64 / 128 MB
Інтерфейс AGP 4x
RAMDAC 2x350 MHz

GeForce4 Ti 4200 - це полегшений варіант карт GeForce4 Ti 4600 або 4400, мав нижчу тактову частоту, але й коштував значно дешевше. 
Багато в чому карту GeForce4 Ti 4200 можна вважати потенційним "могильником" лінійки GeForce3 Ti 500. Якби відеокарта Ti 4200, що поєднує в собі високу продуктивність з низькою ціною, була б випущена одночасно з більш дорогими моделями GeForce4 Ti 4600 і 4400, не на користь останніх. Тому NVIDIA затримала випуск Ti 4200 до пізнішого терміну, поки не відбулося значного зниження обсягу продажу в лінійці GeForce3.

Мафія

mafia_colh_car_pursuit1