arzh-CNenfrdejakoplptesuk
Search find 4120  disqus socia  tg2 f2 lin2 in2 X icon 3 y2  p2 тільки steam2

Radeon X1800 XT особливості архітектури

1192781795_49490
ATI RADEON X1800 є першим у світі графічним процесором, що виробляється в комерційних масштабах з використанням 0.09-мкм техпроцесу на потужностях TSMC.

Простір для маневрів з назвами у ATI було небагато, і лише у старшому сегменті: вакантною залишалася лише назва RADEON X900, тоді як майже всі інші варіанти були вже зайняті, адже, на відміну від NVIDIA, ATI Technologies у разі лінійки RADEON X , оперувала тризначними числами у назвах своїх продуктів Вихід із становища знайшовся; він виявився простим і водночас досить елегантним – до числових позначень новинок було додано число 1000. Таким чином, нові графічні процесори ATI отримали імена RADEON X1800, RADEON X1600 та RADEON X1300. На наш погляд – досить вдалий хід, який залишає чимало місця для подальших маневрів із назвами, а також говорить про те, що перед нами архітектура нового покоління.

70083

Цього разу це справді так: ATI та NVIDIA помінялися ролями. Якщо NVIDIA G70 представляє собою не що інше, як значно покращений NV40 (еволюція), то RADEON X1000 дійсно є абсолютно новою архітектурою, що має мало спільного з архітектурами ATI попередніх поколінь (революція).
Більш того, старша модель у сімействі, чіп RADEON X1800 (R520), вийшов складнішим, ніж NVIDIA G70 – 320 проти 302 мільйонів транзисторів! При цьому RADEON X1600 (RV530), націлений на середні сегменти ринку, складається з 157 мільйонів тразисторів, тоді як RADEON X1300 (RV515) став, згідно з заявами розробників, першим чіпом початкового рівня, всередині якого близько 100 мільйонів транзисторів.

Причинами ускладнення архітектури став цілий набір новацій у чіпі, включаючи такі особливості як:
Підтримка Shader Model 3.0;
Модернізовані шейдерні процесори зі спеціальним блоком для виконання branch інструкцій;
Новий контролер пам'яті;
Модернізована система кешів;
Модернізована система внутрішніх з'єднань різних блоків чипа.

Тепер різні моделі RADEON X1000 відрізнялися не тільки кількістю піксельних і вершинних процесорів, що дозволило досягти оптимального співвідношення ціна/продуктивність. Як завжди, менш продуктивні версії нового GPU отримали назви, що починаються з RV.

Сімейство RADEON X1000 буде представлено на ринку такими моделями відеоадаптерів:
RADEON X1800 XT (R520, 625/1500MHz, 16pp, 8vp, 256-bit, 256MB/512MB, );
RADEON X1800 XL (R520, 500/1000MHz, 16pp, 8vp, 256-bit, 256MB,);
RADEON X1600 XT (RV530, 590/1380MHz, 12pp, 5vp, 128-bit, 128/256 MB);
RADEON X1600 XT (RV530, 500/780MHz, 12pp, 5vp, 128-bit, 128/256MB,);
RADEON X1300 PRO (RV515, 600/800MHz, 4pp, 2vp, 128-bit, 256MB,);
RADEON X1300 (RV515, 450/500MHz, 4pp, 2vp, 128-bit, 128/256MB, );
RADEON X1300 HyperMemory (RV515, 450/1000MHz, 4pp, 2vp, 128-bit, 32MB, до 128 MB HyperMemory, ).

Піксельні процесори

Оскільки ATI приділила величезну увагу функціям розподілу роботи між різними пристроями, нова архітектура RADEON X1000 стала по-справжньому мультипоточною, отримавши навіть спеціальну назву – Ultra-Threaded Architecture. Аналогія з Intel Hyper-Threading тут цілком доречна, оскільки цілі у цих технологій схожі: якомога ефективніше задіяння наявних потужностей процесора і максимально можливе скорочення часу простою виконавчих пристроїв.

70044

Архітектура RADEON X1000 (R5xx) має подібності як з архітектурами RADEON 9000 (R3xx) і RADEON X800 (R4xx), так і з новою архітектурою, що застосовується в GPU Xbox 360, однак, нові процесори ATI містять низку унікальних особливостей, які не мають аналогів в інших чіпах.

Зокрема, чіпи RADEON X1000 мають вбудований інтелектуальний комутатор – спеціальний блок, який називають Ultra-Threading Dispatch Processor, що відповідає за оптимальний розподіл навантаження між квадами піксельних процесорів (кожен квад складається з чотирьох піксельних процесорів, кожен з яких може обробити шейдер для блоку 2х2 пікселя за такт), а також текстурними модулями. Зокрема, Ultra-Threading Dispatch Processor розбиває роботу, пов'язану з однаковими піксельними шейдерами (pixel processing workload) у невеликі групи, або нитки (threads) із 4х4 пікселів.

Ultra-Threading Dispatch Processor розпізнає випадки, коли будь-які піксельні процесори всередині квадів простоюють і моментально призначають їм виконання нові завдання. Однак, якщо для продовження виконання шейдера потрібні ще не отримані дані, то подібна нитка зупиняється арбітражним процесором до їх отримання, таким чином вивільняючи арифметичні ресурси (Arithmetic Logic Unit, ALU) для інших ниток і маскуючи латентність, наприклад, вибірки , що знаходяться як у кеші, так і в пам'яті. Згідно з ATI, подібна організація роботи дозволяє досягати 90% ефективності залучення піксельних процесорів на будь-яких шейдерах.

Оскільки швидке перемикання між нитками вимагає збереження проміжних результатів кожної, ATI використовує для цього спеціальні регістри – General Purpose Register Array – з високошвидкісним з'єднанням з піксельними процесорами, що ми вже бачили у попередніх графічних процесорах. Поки що незрозуміло, яка кількість регістрів є у RADEON X1800, X1600 і X1300 і наскільки чутливі нові чіпи до складнощів піксельних шейдерів.

Відповідно до стандарту Shader Model 3.0, цикли, розгалуження та підпрограми підтримуються новими рішеннями ATI повною мірою, а застосування flow control дозволяє їм виконувати шейдери практично необмеженої довжини. Всі обчислення процесори сімейства RADEON X1000 виконують у форматі 128-bit FP, що практично унеможливлює накопичення помилок і, як наслідок, погіршення якості зображення.

Кількість ниток коду, що одночасно виконуються, було збільшено, а розмір кожної, навпаки, зменшений до 4х4 пікселів, що дозволило досягти більшої ефективності при використанні динамічного розгалуження, принцип якого добре ілюструє наступна діаграма:

70031

Перевага підходу ATI є – при більшому розмірі гілки ефективність динамічного розгалуження значно падає; у випадку з розміром 64х64 пікселі його застосування стає невиправданим. Старший представник сімейства, RADEON X1800 (R520) здатний виконувати до 512 ниток (потоків) шейдерного коду одночасно, тоді як менш потужні моделі обмежені 128 потоками.

Вершинні процесори

Пристрій вершинних процесорів RADEON X1000 дуже нагадує такий у NVIDIA GeForce 7 – кожен процесор складається з двох блоків, векторного та скалярного, з тією різницею, що обидва ALU у вершинному процесорі G70 є 32-бітними, а векторне ALU в аналогічному процесорі RADEON X1000 128 біт. Така перевага дає можливість використовувати графічний чіп для емуляції центральних процесорів.

70047

Нові вершинні процесори можуть виконувати 2 інструкції за такт, а довжина шейдера може досягати 1024 інструкцій у звичайному випадку і бути практично нескінченною при використанні flow control. Зрозуміло, що вершинні процесори RADEON X1000 повністю відповідають специфікаціям Shader Model 3.0.

Контролер пам'яті

Контролер пам'яті, що входить до складу нових графічних процесорів ATI, повністю перероблений. Тепер внутрішня шина пам'яті RADEON X1800 має кільцеву топологію і складається з двох 256-бітних протинаправлених кільцевих шин, тоді як кільцева топологія RADEON X1600 складається з кількох 128-бітних шин.

70042

Справа в тому, що кільцеві шини, що йдуть навколо всього кристала, дозволяють спростити та оптимізувати розведення провідників усередині нього, з'єднавши компоненти найкоротшим шляхом. Таке рішення, разом з використанням комутатора при операціях запису в пам'ять мінімізує затримки та спотворення сигналу. Завдяки технології Ring Bus, RADEON X1800/1600 можуть без проблем використовувати навіть саму високочастотну пам'ять, наприклад, GDDR4, що, у випадку традиційної архітектури, могло б призвести до нестабільної роботи через перешкоди, викликані неоптимальним розведенням відповідних провідників усередині. GPU.

Пам'ять підключена до шин за допомогою так званих "кільцевих зупинок" (Ring Stop). Усього таких зупинок чотири, кожна має два канали доступу до пам'яті шириною 32-біт кожен. Для порівняння, у RADEON X850 пам'ять підключалася до контролера чотирма 64-бітовими каналами. Кожен Ring Stop може передавати, згідно з інструкціями контролера пам'яті, який зажадав дані клієнту.

Принцип роботи Ring Bus підсистеми пам'яті є досить простим. Клієнт надсилає запит отримання даних контролеру пам'яті, що у середині чіпа. Контролер пам'яті визначає пріоритетність кожного із запитів за певним алгоритмом і дає пріоритет тому, який впливає на продуктивність більшою мірою, надсилаючи відповідний запит чіпам пам'яті і передаючи ці дані Ring Bus до найближчого для клієнта Ring Stop, який потім передає дані клієнту. Для оптимального доступу до пам'яті навколо безпосереднього контролера розташовується так звана Write Crossbar Switch, що дозволяє рівномірно розподілити запити.

Покращення торкнулися і технології HyperZ – тепер для визначення невидимих ​​областей, що підлягають відсіченню, використовуються більш просунутий алгоритм. Він збільшував ефективність відсікання прихованих поверхонь на 50% порівняно з RADEON X850.

HDR

Нове покоління графічних процесорів ATI отримало повноцінну підтримку режимів відображення з розширеним динамічним діапазоном, відомих під загальною назвою HDR.

Розробляючи нову архітектуру, ATI Technologies постаралася врахувати всі недоліки, і графічні процесори RADEON X1000 отримали найширші можливості по роботі з HDR, у тому числі підтримку різних форматів, у тому числі, нестандартних (custom). Крім того, у RADEON X1000 вперше з'явилася можливість використання HDR одночасно з повноекранним згладжуванням. У порівнянні з NVIDIA GeForce 6/7 це величезний крок уперед, але чи вистачить продуктивності нових GPU для забезпечення комфортної гри у цих режимах? Відповідь це питання можуть дати лише результати тестів. Принаймні тепер ясно, чому графічний процесор R520, старша модель у новому сімействі ATI вийшла складнішою, ніж NVIDIA G70 – всі вищеописані архітектурні інновації далися розробникам не задарма і зажадали своєї частки транзисторів на кристалі. В результаті, незважаючи на наявність 16 піксельних процесорів проти 24 вироби конкурента, загальна кількість транзисторів досягла 320 мільйонів, що зробило R520 найскладнішим графічним процесором у світі.

ATI RADEON X1800 був першим у світі графічним процесором, що виробляється у комерційних масштабах з використанням 0.09-мкм техпроцесу на потужностях TSMC. Також, цей чіп на той день є найскладнішим у 3D-індустрії – він складається з 320 мільйонів транзисторів, що дещо більше, ніж у найнебезпечнішого конкурента – NVIDIA G70. Хоча складність RADEON X1800 досить висока, більш тонкий техпроцес зробив можливим його роботу на частотах до 625 МГц, що раніше було недосяжним.

Незважаючи на те, що кількість транзисторів, з яких складається RADEON X1800, вдвічі перевищує кількість транзисторів попередника, RADEON X800 – кількість піксельних процесорів збільшено не було, і в новій родині їх, як і раніше, 16. Замість збільшення їхньої кількості ATI оснастила новий GPU спеціальним блоком, що має назву Ultra-Threading Dispatch Processor, який відповідає за ефективний розподіл навантаження між піксельними процесорами, і збільшує ефективність їх роботи. ATI заявила, що такий підхід дозволяє досягти 90% ефективності під час виконання будь-якого піксельного шейдера.

 

Характеристики ATI Radeon X1800 XT

Найменування Radeon X1800 XT
Ядро R520
Техпроцес (мкм) 0.09
Транзисторів (млн) 321
Частота роботи ядра 625
Частота роботи пам'яті (DDR) 750 (1500)
Шина та тип пам'яті GDDR3 256 Bit
ПСП (Гб/с) 48
Піксельні конвеєри 16
TMU на конвеєр 1
Текстур за такт 16
Текстур за прохід 16
Вершинних конвеєрів 8
Піксельні шейдери 3.0
Vertex Shaders 3.0
Fill Rate (Mpix/s) 10000
Fill Rate (Mtex/s) 10000
DirectX 9.0c
Anti-Aliasing (Max) MS-6x
Анізотропна фільтрація (Max) 16x Quality
Обсяг пам'яті 256/512
Інтерфейс PCI-E
RAMDAC 2x400

Хоча сімейство RADEON X1800 в цілому заслуговувало високої оцінки за продуктивність і набір можливостей, воно все ж таки запізнилося майже на квартал, в порівнянні з GeForce 7800 GTX, що володіє схожими можливостями і продуктивністю.

FEAR

10_fear