Особливості архітектури Radeon HD 4870
Якщо у випадку з RV670 (Radeon HD 38x0) правомірність присвоєння наступної цифри, що означає покоління, можна було поставити під сумнів, оскільки цей GPU мало чим відрізнявся від ядра попереднього покоління, R600 (Radeon HD 2900), то з RV770 таких сумнівів - Це дійсно новий продукт, нехай і успадкував більшість рис своїх попередників. Нове сімейство отримало назву ATI Radeon HD 4800, причому, схема найменування різних моделей графічних карт, вперше використана ATI у сімействі ATI Radeon HD 3800, збережена: перша цифра означає покоління графічної архітектури, друга – сімейство, а дві останні – модель конкретного відеоадаптера.
Ядро RV770 складається з 956 мільйонів транзисторів, що досить переконливо на перший погляд, однак, не є абсолютним рекордом в індустрії; пальма першості у цій галузі належить Nvidia з її чіпом GT200, що налічує 1.4 мільярди транзисторів. Першість можна назвати сумнівним, оскільки конкурент ATI використовує менш досконалий 65-нм техпроцес, що при величезній площі та складності такого ядра автоматично означає меншу кількість ядер на підкладці та менший вихід придатних, а, отже, значно вищу собівартість виробництва, проте подібний підхід є типовою тактикою Nvidia останніми роками. Карти на базі GT200 навряд чи стануть дешевими з часом, на відміну від нових рішень ATI, які використовують RV770. Таким чином, стратегія, обрана ATI Technologies, на перший погляд цілком виправдовує себе.
Слід зазначити, що частоти GPU були помітно знижені в порівнянні з картами на базі GPU попереднього покоління, RV670, що цілком зрозуміло збільшеної складності нового ядра. З урахуванням посиленої обчислювальної та текстурної потужності це повинно становити будь-якої проблеми. Ще одна цікава деталь, що заслуговує на увагу: застосування в старшій моделі ATI Radeon HD 4800 швидкої пам'яті GDDR5 дозволило досягти високої пропускної здатності, не вдаючись до розширення зовнішньої шини доступу, як це зробила ATI минулого року і робить Nvidia зараз. Збільшення розрядності шини пам'яті понад традиційних 256 біт призводить до значного ускладнення друкованої плати, отже, і її подорожчання. Зрозуміло, пам'ять GDDR5 коштує дорожче, ніж поширена GDDR3, але, мабуть, ця різниця з лишком компенсується більш простим дизайном PCB.
Добре видно, що топологія підсистеми доступу до пам'яті в цілому збережена, хоча тепер її не можна назвати кільцевою: майже кожен контролер пам'яті з'єднаний двонаправленим інтерфейсом з іншим, однак, саме «кільце» більше не замкнуте. Інтерфейс доступу до пам'яті, як і раніше, розташований по периметру кристала, і поряд з ним розташовані функціональні блоки, найбільш критичні до пропускної здатності:
Разом з тим, у складі ядра з'явився комутатор, що зв'язує між собою блоки, менш вимогливі до пропускної спроможності - інтерфейс шини PCI Express, CrossFireX інтерфейс, відеопроцесор UVD2, контролери дисплеїв і т.д. Ефективність використання ресурсів підсистеми пам'яті в попередніх поколіннях ATI Radeon HD і так досягала 85 % за даними ATI, а оптимізація топології RV770 дозволила довести її майже максимум. Разом з можливістю застосування швидкої пам'яті GDDR5 це позбавило розробників необхідності використання зовнішньої шини розрядністю більше 256 біт, що позитивно позначилося на простоті дизайну друкованих плат ATI Radeon HD 4800.
Ключовою частиною будь-якого графічного ядра із сучасною архітектурою є блок диспетчера завдань, на плечі якого покладено роботу з розподілу доступних ресурсів процесора в такий спосіб, щоб його частини були максимально завантажені, і, отже, продуктивність прагнула максимально можливої.
Блок диспетчера завдань вперше з'явився ще у складі сімейства ATI Radeon X1000, де він міг керувати 512 гілками коду по 16 пікселів. Друга версія процесора розподілу завдань була представлена у складі ATI Radeon HD 2000. Новий обробник не тільки міг обробляти більше гілок коду, але й робити це точніше та ефективніше – мінімальний розмір гілки було зменшено з 16 до 5 пікселів.
Обчислювальна частина R600 і RV670 складалася з 64 універсальних модулів, кожен з яких включав п'ять ALU, блок управління потоком і масиву регістрів загального призначення. Чотири ALU з п'яти були досить простими пристроями, здатними виконувати за такт одну інструкцію FP MAD, а четвертий - комплексний, що вміє працювати зі складними інструкціями SIN, COS, LOG, EXP і т.д. По суті, кожен обчислювальний модуль був процесором із п'ятистадійним конвеєром.
У теорії, така організація дозволяла говорити про наявність 320 виконавчих пристроїв, але насправді, це було справедливо тільки для повного завантаження всіх 64 конвеєрів, що на практиці забезпечувалося далеко не завжди: у тривимірних додатках багато операцій залежать від результатів виконання попередніх операцій, тому послідовної роботи конвеєра досягти непросто. Це вимагає значних оптимізації під конкретний додаток на рівні драйверів Catalyst, але отримати доступ до програмної «начинки» гри не завжди можливо принаймні до її офіційного випуску.
Як наслідок, на практиці нерідко виявлялося, що виконанням корисної роботи зайнято лише одне ALU у кожному обчислювальному модулі, що значно знижувало потенціал архітектури ATI Radeon HD та призводило до відставання в іграх від рішень на базі Nvidia G80/G92. Останні не тільки мали більше незалежних обчислювальних блоків, а й ці блоки функціонували на більш високих тактових частотах. Створюючи RV770, група розробників ATI вирішила проблему з можливою неефективністю суперскалярної архітектури, що називається, прямим шляхом, а саме – збільшивши кількість обчислювальних модулів з 64 до 160. Звичайно, це збільшило кількість транзисторів на ядрі, однак, використання 55-нм техпроцесу дозволило його площа у розумних межах.
Сама архітектура модулів помітних змін не зазнала, і вони, як і раніше, складаються з 5 ALU, блоку управління потоком та набору регістрів загального призначення:
Якщо вірити заявам ATI, ефективність обчислювальних модулів була збільшена на 40 %, але навіть просте нарощування їх кількості з 64 до 160 здатне зробити Radeon HD 4800 конкурентоспроможним рішенням навіть у не надто сприятливих для даної архітектури умовах. І це ще не все; як згадувалося вище, зміни є і більш глобальному рівні – рівні топології ядра. При частковому збереженні кільцевої топології розташування функціональних блоків оптимізовано. Обчислювальні модулі RV770 об'єднані в 10 SIMD-ядер (раніше таких ядер було 4), по 16 модулів (80 ALU) у кожному.
Основним вузьким місцем графічних ядер ATI R600 та RV670 була підсистема текстурних процесорів.
По-перше, їх було всього 16 (4 великі блоки), чого було явно недостатньо, навіть, незважаючи на тенденцію переважання математичних спецефектів над використанням складних текстур високої роздільної здатності, зумовлену орієнтацією розробників ігор на мультиплатформенність. По-друге, на кожні два блоки адресації текстур припадав лише один блок фільтрації, що суттєво знижувало ефективність текстурних блоків при виконанні текстурної фільтрації, особливо анізотропної, яка сьогодні використовується повсюдно, і немає жодних підстав припускати, що від її використання відмовляться в майбутньому.
При розробці RV770 ці недоліки були враховані, і нове ядро отримало нові текстурні процесори:
Їх дизайн був повністю перероблений, і тепер кожен TMU містить 16 блоків вибірки текстур FP32, 4 блоки адресації та 4 блоки фільтрації. Здавалося б, ефективність вибірки повинна впасти, однак це компенсується вдвічі збільшеною пропускною здатністю шини, що зв'язує TMU і текстурні кеші. ATI вдалося досягти 2.5-кратного збільшення швидкості фільтрації 32-бітових текстур і 1.5-кратного - 64 бітних, що в теорії виглядає дуже непогано, і, напевно, вкрай позитивно позначиться на продуктивності нового GPU в реальних умовах.
Текстурні процесори, як і раніше, об'єднані у великі модулі по 4 TMU, і кожен такий модуль обслуговує одне з 10 SIMD-ядер. Оптимізація, що виявилася у відмові від зайвих блоків, дозволила скоротити кількість транзисторів, що становлять TMU, і, відповідно, розмістити більшу їх кількість на кристалі порівняно малою кров'ю, утримавши складність і площу ядра в розумних межах.
Підсистема кешів є важливою частиною текстурної підсистеми графічного процесора, і в RV770 вона також зазнала суттєвої модернізації:
По-перше, треба відзначити зрослу пропускну здатність: тепер швидкість вибірки текстур з кешів першого рівня становить значні 480 ГБ/сек., а кеші першого і другого рівнів можуть спілкуватися на швидкості 384 ГБ/сек. По-друге, кожне SIMD-ядро має свій кеш першого рівня, що благотворно позначається на ефективності зберігання даних. По-третє, кеші другого рівня узгоджені з контролерами пам'яті, і, нарешті, по-четверте, у складі RV770 з'явився окремий кеш для зберігання вершинних даних. Поліпшення не такі очевидні, як у випадку з архітектурою текстурних процесорів, однак, вони, напевно, внесуть істотний внесок у приріст продуктивності ATI Radeon HD 4800 в іграх. Можна з упевненістю сказати, що новий графічний процесор ATI повністю позбавлений головного вузького місця архітектури ATI Radeon HD і тепер може посперечатися на рівних рішеннях Nvidia там, де останні були традиційно сильні, а саме, на операціях з текстурами. Тут найяскравіше проявляється підхід ATI до проектування графічних процесорів – оптимізація замість прямого нарощування потужностей.
Растрові процесори, в термінології ATI звані render back-ends, ніколи не були драматично вузьким місцем архітектури ATI Radeon HD, однак, у RV770 поліпшення торкнулися і їх, хоча загальна кількість цих модулів не змінилася: їх у складі ядра, як і раніше, чотири, що дозволяє говорити про еквівалент 16 класичних ROP.
Крім інших інновацій, що увійшли до складу ATI RV770, слід відзначити нові можливості відеодвигуна, зокрема новий звуковий контролер і деякі програмні поліпшення.
Головним поліпшенням щодо роботи з HD-контентом став восьмиканальний звуковий контролер Realtek, що підтримує аудіопотоки з бітрейтом до 6.144 Мб/сек., та частотою дискретизації до 192 КГц у форматах AC3, DTS, Dolby True-HD та DTS-HD. Розширені можливості нового аудіоядра мають величезну важливість для тих, хто планує використовувати ATI Radeon HD 4000 у складі домашнього мультимедійного центру. Більш того, на даний момент ATI Radeon HD 4800 є єдиними у світі графічними картами, що мають «рідну» підтримку восьмиканального HD-звуку, з можливістю його виведення через HDMI – істотна перевага над конкуруючими рішеннями Nvidia.
Для підключення живлення відеокарти Radeon HD4870 служать два 6-контактні роз'єми в хвості відеокарти, на відміну від молодшої Radeon HD4850, у якої всього один роз'єм. Посилена система живлення була потрібна для стабільної роботи відеокарти на підвищених частотах. Так, у порівнянні з відеокартою Radeon HD4850, у Radeon HD4870 частота графічного процесора вище на 125 МГц і дорівнює 750 МГц, а ефективна частота відеопам'яті GDDR5 дорівнює 3600 МГц, що значно вище 1986 МГц, на яких працює відеопам'ять. Правда, тут варто обмовитися, реальна частота нової пам'яті GDDR4850 дорівнює 5 МГц, просто за один такт у неї передається не вдвічі, а вчетверо більше інформації, порівняно з «звичайною» пам'яттю не-DDR.
Характеристики ATI Radeon HD 4870
Найменування | Radeon HD 4870 |
Ядро | RV770XT |
Техпроцес (мкм) | 55 |
Транзисторів (млн) | 956 |
Частота роботи ядра | 750 |
Частота роботи пам'яті (DDR) | 900 (3600 QDR) |
Шина та тип пам'яті | GDDR5 256-bit |
ПСП (Гб/с) | 115,2 |
Уніфіковані шейдерні блоки | 800 |
Частота уніфікованих шейдерних блоків | 750 |
TMU на конвеєр | 40 |
ROP | 16 |
Shaders Model | 4.1 |
Fill Rate (Mtex/s) | 30000 |
DirectX | 10.1 |
Обсяг пам'яті | 512/1024 |
Інтерфейс | PCIe 2.0 |
Відеокарта Radeon HD4870 виявилася не на словах, а насправді найбільш реальним конкурентом для відеокарти GeForce GTX 260 від компанії NVIDIA. Давно ми такого не спостерігали, адже «топові» представники двох попередніх сімейств відеокарт від компанії AMD могли конкурувати з продукцією NVIDIA лише на словах, а насправді були надто повільними. Очевидно, що новий шейдерний блок зі збільшеною кількістю потокових процесорів і зміненою архітектурою виявився потужнішим за шейдерний блок у відеокарті GeForce GTX 260. Правда, до GeForce GTX 280 новинка не дотягує, але при цьому забезпечує комфортний «геймплей» практично у всіх сучасних іграх.
Mass Effect