Aнoнс нoвыx ускoритeлeй сeмeйствa GeForce RTX нa бaзe aрxитeктуры Turing стaл, нe пoбoимся этoгo слoвa, выдaющeйся вexoй нa пути сaмoй кoмпaнии и индустрии пoтрeбитeльскoй 3D-грaфики в цeлoм. Кaждoe пo-нaстoящeму крупнoe oбнoвлeниe дискрeтныx GPU пoслeдниx лeт былo кульминaциeй тex неужели иныx тeчeний, нaпрaвлявшиx инжeнeрную (раз)мышление зa дoлгoe врeмя дo ee вoплoщeния в крeмнии. Нo Turing, исполнение) чтoбы читaтeли в пoлнoй мeрe oцeнили знaчимoсть тeкущeгo мoмeнтa, трeбуeт мaксимaльнo ширoкoгo кoнтeкстa, oxвaтывaющeгo всю истoрию игрoвoгo 3D нa пeрсoнaльныx кoмпьютeрax.
Сaйт 3DNews.ru в прoшлoм гoду oтмeтил свoй 20-лeтний юбилeй, a автор вспoминaли, кaк бурнo в тo врeмя эвoлюциoнирoвaлa тexникa. С кoмпaниeй NVIDIA, oснoвaннoй зa чeтырe гoдa дo нaшeгo издaния, связaнo мнoжeствo пoвoрoтныx тoчeк нa кривoй рaзвития кoмпьютeрнoй грaфики. Скaжeм, нeмнoгиe знaют, чтo имeннo NVIDIA, a нe 3dfx, в 1995 гoду выпустилa нa рынoк пeрвый мaссoвый 3D-ускoритeль нa чипe NV1. Дaльнeйшиe сoбытия извeстны нaмнoгo лучшe. Ужe чeрeз чeтырe гoдa GeForce 256 принeс нa пeрсoнaлки aппaрaтную oбрaбoтку трaнсфoрмaции и oсвeщeния пoлигoнoв (Transformation and Lighting, T&L), a зaтeм, силaми GeForce 3, пoявились прoгрaммируeмыe шeйдeры. Пoзднeйшим изо дoстижeний NVIDIA сoпoстaвимoй вaжнoсти стaл высoкoурoвнeвый интeрфeйс CUDA во (избежание выпoлнeния рaсчeтoв oбщeгo нaзнaчeния, кoтoрыe сo врeмeнeм стaли eдвa ли нe бoлee вaжнoй зaдaчeй ради GPU, чeм рeндeринг грaфики.
Впoслeдствии грaфичeскиe прoцeссoры oтпрaвились в спoкoйнoe плaвaниe, нe oтмeчeннoe рaдикaльными пeрeмeнaми в функцияx жeлeзa и принципax прoгрaммирoвaния. Нo вoт после 11 лeт пoслe aнoнсa CUDA oснoвaтeль NVIDIA Джeнсeн Xуaнг вынeс нa сцeну видeoкaрту пoд дeвизoм Graphics Reinvented, и, ваша сестра знaeтe, в дaннoм случae высoкoпaрныe слoвa сoвeршeннo умeстны. Вeдь Turing впeрвыe срeди пoтрeбитeльскиx GPU oбeспeчивaeт спeциaлизирoвaннoe ускoрeниe рaсчeтoв искусствeннoгo интeллeктa и трaссирoвки лучeй в рeaльнoм врeмeни. Мoжнo нe сoмнeвaться: eсли игрoвaя промышленность пoддeржит эти инициaтивы, a xвaткa NVIDIA нa рынкe сeйчaс кaк никoгдa сильнa, тo наш брат стaли oчeвидцaми oчeрeднoй смeны эпox.
Прeдстaвляeм пeрвую чaсть oбзoрa видeoкaрт сeмeйствa GeForce RTX, в кoтoрoй нaс ждeт пoдрoбный aнaлиз aрxитeктуры Turing и прeзeнтaция устрoйств нa ee oснoвe. Мaсштaб измeнeний пo срaвнeнию с прeдыдущим пoкoлeниeм, Pascal, впoлнe зaслуживaeт oтдeльнoй стaтьи, a эмпиричeскoe тeстирoвaниe GeForce RTX 2080 Ti в любoм случae придeтся oтлoжить дo 19 сeнтября, кoгдa истeкaeт зaпрeт нa публикaцию бeнчмaркoв и в нaшeм рaспoряжeнии пoявятся пeрвыe oбрaзцы устрoйств.
⇡#Грaфичeскиe прoцeссoры сeмeйствa Turing
Пeрeд глубoким пoгружeниeм в aрxитeктуру Turing сoстaвим oбщee прeдстaвлeниe o сaмoм жeлeзe, кoтoрoe выпустилa NVIDIA. Блaгo, нoвый крeмний пo-прeжнeму xaрaктeризуют мeтрики, примeнимыe к GPU прeдыдущиx поколений, а полипрагмазия и принцип работы специализированных функциональных блоков я изучим позже.
В отличие с Pascal и более ранних поколений GPU, Turing с первого дня существует в виде трех процессоров — TU102, TU104 и TU106. Наравне видим, компании пришлось заступить привычную номенклатуру, в которой первой буквой испокон (веку была G, а вторая означает шапка микроархитектуры, ведь сочетание GT уж занято старым семейством Tesla. Чипы выпускаются в соответствии с эксклюзивному контракту с фабрикой TSMC, идеже им выделен собственный технологичный узел 12 нм FFN (сие буквально означает FinFET NVIDIA).
Виновник
NVIDIA
Название
GP104
GP102
GP100
GV100
TU106
TU104
TU102
Микроархитектура
Pascal
Pascal
Pascal
Volta
Turing
Turing
Turing
Техпроцесс, нм
16 nm FinFET
16 nm FinFET
16 nm FinFET
12 нм FFN
12 нм FFN
12 нм FFN
12 нм FFN
Наличность транзисторов, млн
7 200
12 000
15 300
21 100
10 800
13 600
18 600
Район чипа, мм2
314
471
610
815
445
545
754
Взаимоположение SM/TPC/GPC
Число SM
20
30
60
84
36
48
72
Контингент TPC
20
30
30
42
18
24
36
Число GPC
4
6
6
6
3
6
6
Схема потокового мультипроцессора (SM)
FP32-ядра
128
128
64
64
64
64
64
FP64-ядра
4
4
32
32
2
2
2
INT32-ядра
Н/Д
Н/Д
Н/Д
64
64
64
64
Тензорные ядра
Н/Д
Н/Д
Н/Д
8
8
8
8
RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
1
1
1
Программируемые вычислительные блоки GPU
FP32-ядра
2 560
3 840
3 840
5 376
2 304
3 072
4 608
FP64-ядра
80
120
1 920
2 688
72
96
144
INT32-ядра
Н/Д
Н/Д
Н/Д
5 376
2 304
3 072
4 608
Тензорные ядра
Н/Д
Н/Д
Н/Д
672
288
384
576
RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
36
48
72
Блоки фиксированной функциональности
TMU (блоки наложения текстур)
160
240
240
336
144
192
288
ROP
64
96
128
128
64
64
96
Набор памяти
Объем иннокентий L1 / текстурного кеша, Кбайт
48
48
24
≤ 128 изо 128, общий с разделяемой памятью
32/64 изо 96 (общий с разделяемой памятью)
32/64 с 96 (общий с разделяемой памятью)
32/64 с 96 (общий с разделяемой памятью)
Количество разделяемой памяти / SM, Кбайт
96
96
64
≤ 96 изо 128 (общий с кешем L1)
32/64 изо 96 (общий с кешем L1)
32/64 с 96 (общий с кешем L1)
32/64 с 96 (общий с кешем L1)
Параметры регистрового файла / SM, Кбайт
256
256
256
256
256
256
256
Диапазон регистрового файла / GPU, Кбайт
5 120
7 680
15 360
21 504
9 216
12 288
18 432
Совокупность кеша L2, Кбайт
2 048
3 072
4 096
6 144
4 096
4 096
6 144
Разрядность шины RAM, двоичная единица информации
256
384
4 096
4 096
256
256
384
Тип микросхем RAM
GDDR5/GDDR5X
GDDR5X
HBM2
HBM2
GDDR6
GDDR6
GDDR6
Автомобильная обувь NVLINK
Н/Д
Н/Д
4 × NVLink 1.0 x8
6 × NVLink 2.0 x8
Н/Д
1 × NVLink 2.0 x8
2 × NVLink 2.0 x8
В действительности «нанометраж» фотолитографического процесса эпизодически соответствует своему прямому смыслу — длине транзисторного затвора, а та, в свою последовательность, ничего не говорит о зазорах посередине элементами и реальной плотности их размещения. В данной ситуации TSMC малограмотный скрывает того факта, точно ее технология 12 нм является вариантом узла 16 нм FinFET+ с повышенной плотностью и сниженными утечками тока. Благодаря этому не удивительно, что вдоль отношению декларируемого числа транзисторов к площади кристалла постоянно три чипа Turing без малого не отличаются от старшего Pascal (GP100), какой-либо был получен на «чистом» техпроцессе 16 нм. Все-таки, по сравнению GP104 (GeForce GTX 1070/1080) у Turing безвыездно же наблюдается прирост плотности примерно 6%.
Согласно количеству элементов не грех распределить три «Тьюринга» числом весовым категориям, заданным процессорами поколения Pascal. TU104 ближе просто-напросто к GP102 (GeForce GTX 1080 Ti), а меньшой чип, TU106, за неимением ближайшего аналога, соответствует GP104. Заметьте, до какой степени при смене поколений выросли площади кремния и транзисторные бюджеты (получи и распишись 42 и 50% соответственно в паре GP104-TU106 и нате 16 и 13% у GP102-TU104).
В авангарде модельного ряда Turing находится TU102. Прибытие чипа с таким номером в первые отрезок времени новой архитектуры уже экстравагантно, если вспомнить, сколько времени понадобилось NVIDIA, с целью запусть в игровой сектор старших представителей предыдущих поколений. Однако помимо этого, сам GPU беспрецедентно велосипед по действующим стандартам массового рынка. Рядом площади 754 мм2 и транзисторном бюджете 18,6 млрд некто уступает лишь своему серверному предшественнику GV100 (815 мм2 и 21,1 млрд транзисторов) возьми архитектуре Volta, а GP102 (471 мм2 и 12 млрд транзисторов) превосходит возьми 60 и 55% соответственно. К слову, место TU100, которую по аналогии с Pascal и Volta был в состоянии бы занять еще больше амбициозный чип для датацентров для базе Turing (со всеми полагающимися атрибутами в виде памяти HBM2 и NVLink в качестве превалирующий шины), пока вакантна.
Возле сравнении с Pascal по количеству 32-битных ядер CUDA и блоков фиксированной функциональности (TMU и ROP) становится самоочевидно, что в лице Turing да мы с тобой имеем дело с кардинально отличной архитектурой, все же TU106 и TU104 заметно уступают своим предкам GP104 и GP102. Не более старший Turing не отлично на компромисс по количеству ядер CUDA и блоков наложения текстур упрощенно за счет колоссальных размеров чипа.
Якобы получилось, что столь крупные GPU оказались против небогаты CUDA-ядрами, объясняется валом факторов, среди которых ведущую предназначение играет появление вычислительных блоков трех новых типов: тензорных ядрер, ядер трассировки лучей (RT в таблице), а вот и все ядер целочисленных вычислений (INT32). В довершение всего того, у новых GPU в полтора-пара раза разбух кеш второго уровня и увеличилась ристалище управляющей логики за цифирь реорганизации CUDA-ядер в пределах потокового мультипроцессора (SM). Тутти эти изменения мы вдобавок обсудим в следующих разделах обзора.
Потому как смена техпроцесса на условные 12 нм навряд ли радикально подействовала в рабочие частоты GPU, может скинуться впечатление, что создатели Turing пожертвовали стандартной шейдерной производительностью в пользу новых специализированных функций. Только не стоит делать выводы до табличным данным. При подробном рассмотрении да мы с тобой убедимся, даже если маловыгодный брать в расчет долю транзисторов, которую съели тензорные и RT-ядра, в чем дело? Turing в целом стал побольше сложной и «широкой» архитектурой числом сравнению с Pascal, и это, числом крайней мере в теории, способствует повышенной эффективности в шейдерных вычислениях.
Завершая лаконический обзор кремния Turing, отметим приход чрезвычайно быстрого интерфейса NVLink, какой-либо используется в кластерах HPC-ускорителей Tesla возьми основе чипов GP100 и GV100, и, соответствующе, новых аппаратных мостиков. Чипок TU104 несет один морские ворота NVLink второго поколения с пропускной способностью 50 Гбайт/с (вдоль 25 Гбайт/с в каждую сторону), а TU102 — пара порта. Новый стандарт после этого выступает в качестве замены выделенной шины SLI (возможные конфигурации вдоль-прежнему ограничены двумя GPU), и скорости одного такого порта в полном объеме достаточно для передачи кадрового женские груди с разрешением 8К в режиме AFR (Alternate Frame Rendering).
Так обратите внимание, что близ использовании двух портов пропускная жилка NVLink уже находится в зоне возможностей оперативной памяти бюджетных игровых видеокарт. Рядом неграфических вычислениях с помощью нескольких чипов в связке NVLink эйдетизм соседнего ускорителя уже имеется возможность рассматривать как дальний отрезок локальной RAM и в перспективе такой подходец применим для реализации сложных алгоритмов мультиадаптерного рендеринга почти Direct3D 12 (конвейеризация кадров). В знак от старого интерфейса SLI, какой-либо используется только для передачи кадровых буферов, средство сообщения нескольких GPU по такой шине, т. е. NVLink, разрешена в рамках эксплицитного режима Multi-Adapter почти Direct3D 12.
⇡#Модельный ряд GeForce RTX 20
Род GeForce RTX на данном этапе представлено тремя устройствами — RTX 2070, RTX 2080 и RTX 2080 Ti, основанными возьми чипах TU106, TU104 и TU102 в соответствии с. Среди них только RTX 2070 достался до конца функциональный графический процессор, в в таком случае время как TU104 и TU102 оказались тем иначе иным образом «порезаны» в своих потребительских воплощениях. RTX 2080 и RTX 2080 Ti лишились соразмерно 2 и 4 из 48 и 72 SM, которые вкушать в оригинальных GPU.
Опираясь на заявленные частоты и конфигурацию CUDA-ядер да мы с тобой можем сравнить теоретическое быстродействие GeForce RTX и ускорителей поколения Pascal в 32-битных операциях с плавающей запятой. В этом отношении RTX 2070 находится в промежутке посередине GTX 1070 и GTX 1080. Следующая по части старшинству новинка, RTX 2080, заняла околица между GTX 1080 и GTX 1080 Ti, а RTX 2080 Ti, равно как и положено флагману, оставил GTX 1080 Ti по-за.
Сказывается преимущество по количеству активных CUDA-ядер, как ни говори верхние значения тактовых частот Turing находятся в примерном соответствии с показателями GeForce GTX 1070/1080 и GTX 1080 Ti. Последнее само вдоль себе приятно, если восстановить в памяти, насколько крупнее GPU в новых видеокартах, как ни NVIDIA пришлось немного уменьшить базовые частоты трех чипов, с целью оставить в термопакете запас получай комбинированную нагрузку с участием тензорных и RT-ядер, а TDP ускорителей (исключая старшей модели) предсказуемо увеличился.
Виновник
NVIDIA
Модель
GeForce GTX 1070
GeForce GTX 1080
GeForce GTX 1080 Ti
GeForce RTX 2070
GeForce RTX 2080
GeForce RTX 2080 Ti
Графичный процессор
Название
GP104
GP104
GP102
TU106
TU104
TU102
Микроархитектура
Pascal
Pascal
Pascal
Turing
Turing
Turing
Техпроцесс, нм
16 нм FinFET
16 нм FinFET
16 нм FinFET
12 нм FFN
12 нм FFN
12 нм FFN
Семьдесят транзисторов, млн
7 200
7 200
12 000
10 800
13 600
18 600
Тактовая гармоника, МГц: Base Clock / Boost Clock
1 506 / 1 683
1 607 / 1 733
1 480 / 1 582
1 410 / 1 620 (Founders Edition: 1 410 / 1 710)
1 515 / 1 710 (Founders Edition: 1 515 / 1 800)
1 350 / 1 545 (Founders Edition: 1 350 / 1 545)
Семьдесят шейдерных ALU
1 920
2 560
3 584
2304
2944
4352
Число блоков наложения текстур
120
160
224
144
184
272
Тысяча ROP
64
64
88
64
64
88
Оперативная память
Разрядность шины, двоичная единица информации
256
256
352
256
256
352
Тип микросхем
GDDR5 SDRAM
GDDR5X SDRAM
GDDR5X SDRAM
GDDR6 SDRAM
GDDR6 SDRAM
GDDR6 SDRAM
Тактовая колебание, МГц (пропускная способность получай контакт, Мбит/с)
2 000 (8 000)
1 250 (10 000)
1 376,25 (11 010)
1 750 (14 000)
1 750 (14 000)
1 750 (14 000)
Количество, Мбайт
8 192
8 192
11 264
8 192
8 192
11 264
Шина ввода/вывода
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
Выработка. Ant. неэффективность
Пиковая производительность FP32, GFLOPS (изо расчета максимальной указанной частоты)
6 463
8 873
11 340
7 465 / 7 880 (Founders Edition)
10 069 / 10 598 (Founders Edition)
13 448 / 14 231 (Founders Edition)
Мощность FP32/FP64
1/32
1/32
1/32
1/32
1/32
1/32
Пропускная способность оперативной памяти, Гбайт/с
256
320
484
448
448
616
Энтимема изображения
Интерфейсы вывода изображения
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
TDP, Вт
150
180
250
175/185 (Founders Edition)
215/225 (Founders Edition)
250/260 (Founders Edition)
Розничная расценка (США, без налога), $
349 (рекомендованная) / 399 (Founders Edition, nvidia.com)
499 (рекомендованная) / 549 (Founders Edition, nvidia.com)
НД (рекомендованная) / 699 (Founders Edition, nvidia.com)
499 (рекомендованная) / 599 (Founders Edition, nvidia.com)
699 (рекомендованная) / 799 (Founders Edition, nvidia.com)
999 (рекомендованная) / 1 199 (Founders Edition, nvidia.com)
Розничная плата (Россия), руб.
НД (рекомендованная) / 31 590 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 45 790 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 52 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 47 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 63 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 95 990 (Founders Edition, nvidia.ru)
⇡#Оперативная кэш GDDR6
Во всем семействе GeForce RTX применяются чипы памяти GDDR6 с пропускной способностью 14 Гбит/с сверху контакт. При этом сам-друг младших чипа имеют 256-битую, а TU102 — 384-битную шину памяти. В потребительские Turing NVIDIA устанавливает сообразно одной микросхеме объемом 1 Гбайт получи и распишись каждый 32-битный регулятор. Как следствие, объем RAM достигает 8 Гбайт в RTX 2070/2080 и 11 Гбайт в RTX 2080 Ti. Сермяга, в RTX 2080 Ti отключили один с двенадцати контроллеров памяти, которые усиживать в кремнии GP102, из-вслед чего вся шина памяти сжалась с 384 давно 352 бит и был потерян 1 Гбайт RAM.
Что-что касается самой GDDR6, в таком случае новый тип микросхем имеет чуточку принципиальных отличий от GDDR5X и, в сухом остатке, предлагает чуть более высокие тактовые частоты возле таком же стандартном напряжении питания (1,35 В). Ключевая признак стандарта GDDR6 в том, сколько он подразумевает наличие в каждом чипе двух сполна независимых 16-битных каналов с собственными шинами команд и данных (в орден от единого 32-битного интерфейса GDDR5 и псевдо-независимых каналов GDDR5X). Сие открывает массу возможностей угоду кому) эффективного использования пропускной пар. Ведь чем больше каналов, тем не в такой мере данных (при должном управлении со стороны GPU) «застревает» в ожидании обновления страниц и прочих длительных операций. Далее того, узкая 16-битная обувь для автомобиля в два раза по сравнению с 32-битной шиной GDDR5X сокращает размер кванта данных (32 и 64 байт адекватно при характеристике Prefetch 16n), тот или иной процессор при обращении к RAM помещает в кеш второго уровня, а стало, системы кешей с длиной трепология в 32 байт (судя точно по всему, это как коль скоро относится к чипам NVIDIA) безграмотный заполняются «мусорными» данными и работают побольше эффективно.
Другой отличительной чертой стандарта GDDR6 является эвенту работать в режимах DDR либо QDR (с передачей двух и четырех двоичный знак данных на цикл сигнала в соответствии с) при неизменной пропускной талантливость памяти (ПСП). Только в режиме DDR контроллеру придется оказывать содействие вдвое более высокую частоту шины данных и, за правде говоря, с ПСП исполнение) GDDR6 на уровне 14-16 Гбит/с в контакт частота шины данных в в 7 ГГц не кажется реальной возможностью интересах современных GPU.
GDDR6 обеспечивает массивную ПСП, недоступную ускорителям серии GeForce 10 с памятью GDDR5 и GDDR5X. Хотя (бы) с «урезанной» шиной GeForce RTX 2080 Ti достигает 616 Гбайт/с. А сие, на минуточку, больше, нежели у Radeon RX Vega 64 (484 Гбайт/с), которая использует больше дорогую и сложную память HBM2. Затем того, NVIDIA продолжила подвижка алгоритмов компрессии данных в шине памяти, вследствие которым эффективная ПСП GeForce RTX 2080 Ti оценивается получи 50% больше (с учетом «отсырелый» ПСП шины GDDR6) в соответствии с сравнению с GeForce GTX 1080 Ti.
⇡#Видеокарты Founders Edition, цены
Обратите уважение, что для видеокарт подо маркой Founders Edition в таблице указаны маловыгодный только отдельные цены, а и собственные тактовые частоты и данные TDP. Еще в прошлом поколении игра в карты Founders Edition, которыми NVIDIA насытила первую волну поставок и впоследствии времени оставила в собственном интернет-магазине, для порядка не считались референсными моделями. Только в данном случае с первого дня бери рынок поступит множество видеокарт оригинального дизайна, и Founders Edition станется лишь одним из равноправных предложений с заводским разгоном и качественной системой охлаждения. В конечном счете референсные характеристики станут ориентиром к упрощенных модификаций GeForce RTX с сторонних производителей, не претендующих держи серьезный оверклокинг.
Старт розничных продаж GeForce RTX 2080 и RTX 2080 Ti назначен сверху 20 сентября, а прибытие RTX 2070 предвидится в следующем месяце. Но с трудом ли не главная сенсация всего анонса Turing — сие возмутительные цены новинок. Если нет сравнивать новые видеокарты со старыми в соответствии с их положением в модельном ряду, так 70-я модель стала желаннее на $150 (с $349 после $499), а 80-я — получи $200 (с $499 до $699). Наценка бери Founders Edition тоже возросла, задолго. Ant. с $100 за соответствующие версии RTX 2070 и RTX 2080.
Безусловно, GeForce RTX обладает заведомо сильнее высокой производительностью, не говоря о новых функциях рендеринга, хотя ведь в прошлые годы ты да я привыкли пожинать плоды прогресса «халява» относительно цен уходящего поколения. Не откладывая же получается, что GeForce RTX 2070 является денежным эквивалентом GTX 1080, а RTX 2080, в свою цепочка, GTX 1080 Ti. При всем этом сообразно теоретическому быстродействию без учета оптимизаций, а равно как тензорных и RT-вычислений, в пересчете в доллар Turing не есть ни шага вперед вдоль сравнению с Pascal и даже уступает последнему. Однако, помня о значительной разнице в среде архитектурами, все-таки оставим последнее словцо в этом вопросе за бенчмарками.
Ась? касается GeForce RTX 2080 Ti, так по цене это ни принести ни взять уровень серии TITAN, фактически рекомендованная стоимость флагмана составляет $999, а Founders Edition — $1199. В России сие будет первый GeForce, какой-либо подошел к отметке в 100 тыс. рублей. Получай этой звонкой ноте наш брат прервем разговор о самих видеокартах задолго. Ant. с публикации второй части статьи с результатами тестирования и приступим к анализу архитектурных особенностей чипов Turing. Закачаешься всяком случае, если GeForce RTX прелюдий) не оправдает возложенных получай него надежд, возможность сметь с прилавка ускоритель семейства GeForce 10 останется до сих пор, как минимум до конца текущего лета.
⇡#Архитектура Turing: потоковый мультипроцессор
Большая дробь нововведений Turing сосредоточена (во)внутрь потокового мультипроцессора (Streaming Multiprocessor, SM). Однако для начала рассмотрим архитектуру GPU, си сказать, с высоты птичьего полета. По образу и в Pascal, несколько потоковых мультипроцессоров находятся среди блока TPC (Texture Processing Cluster) вкупе с PolyMorph Engine, выполняющим функции извлечение вершин и тесселяции. Turing обладает таким но соотношением между числом ядер CUDA и геометрических движков, в качестве кого Pascal, но сами PolyMorph Engine претерпели определенные изменения, о которых автор расскажем позже. В свою хвост, несколько TPC входят в состав сугубо крупной организационной единицы — GPC (Graphics Processing Cluster), непохожий частью которой является пакет Raster Engine, который выполняет самые ранние стадии рендеринга: ампутация невидимых пикселов и растеризацию полигонов.
Числом структуре SM новая архитектура в отдалении ушла от Pascal и умереть и не встать многом повторяет Volta, что-что довольно неожиданно в свете стремления NVIDIA обзавестись свои продукты по серверной и потребительской нишам. (до поры) до времени мы изучим изменения, которые относятся к исполнению операций по-над числами с плавающей запятой одинарной точности (FP32) и отнюдь не затрагивают вычислительных блоков нового подобно (тензорных и RT).
В потребительских GPU семейства Pascal потоковый мультипроцессор разделен для четыре секции, каждая изо которых содержит 32 ядра CUDA, снабженных собственным планировщиком и двумя портами диспетчера команд. Вслед за один такт процессора откосопланировщик отправляет на исполнение одну инструкцию в (видах обработки ряда данных с группы 32 независимых потоков (последняя называется warp в терминологии NVIDIA) согласно принципу SIMT (Single Instruction, Multiple Threads), а ассоциация CUDA-ядер исполняет ее и за один такт. Хотя благодаря второму порту диспетчера в Pascal благопристойно одновременное исполнение следующей инструкции с того же warp’а получи тех ядрах секции SM, которые малограмотный были заняты первой порцией данных. Таким образом, Pascal является суперскалярной архитектурой, которая на равных условиях с потоковым параллелизмом (Thread Level Parallelism, TSP), неотъемлемым угоду кому) GPU как массивно-параллельных процессоров, извлекает изо нагрузки параллелизм команд (Instruction Level Parallelism, ILP).
В Volta и Turing до сего времени так же есть четверка секции на один SM, так одна секция содержит 16 ядер FP32 — в двойном размере меньше, чем в Pascal. Поелику warp в модели программирования NVIDIA по части-прежнему состоит из 32 потоков, разработчикам пришлось вернуться к принципу, характерному пользу кого давнишней архитектуры Fermi: братство из 16 CUDA-ядер исполняет одну инструкцию ради два такта процессора. Следовать счет уменьшенного объема SM в Volta и Turing возросло контингент планировщиков в пересчете на всесветный массив CUDA-ядер. Делать за скольких следствие, GPU может генерировать побольше потоков, что при благоприятном типе задач позволяет приставить TLP, эффективно загружая вычислительные блоки.
Альтернативный особенностью, которую Turing получил в имущество от Volta, является более или менее независимая планировка потоков (Independent Thread Scheduling, ITS). В общем виде сие означает, что процессор отслеживает ситуация выполнения каждого потока, в так время как в Pascal такие понятки, как счетчик команд и стека вызовов, являются общими исполнение) всех потоков warp’a. Планировщики Volta и Turing позволяют числом отдельности завершать, приостанавливать и сначала группировать выполнение потоков — равно как для максимального насыщения CUDA-ядер.
Выравниватель внутри секции SM теперь имеет не более того один порт диспетчера. В результате разор второго порта у Volta и Turing пострадала средство извлекать из задачи ILP вслед счет отправки двух инструкций вслед за один такт. Впрочем, искусство GPU по-прежнему является суперскалярной, т.к. блоку CUDA-ядер в секции SM надо два такта, чтобы ма инструкцию, которую за Водан такт отдает планировщик, а в перемещение следующего такта могут составлять отдана еще одна, которая догрузит простаивающие ядра. Урок, какой тип параллелизма больше выгоден для типичной работы GPU, неважный (=маловажный) имеет простого ответа, однако резонно предположить, что в свете общего усложнения структуры SM убыток транзисторного бюджета на логику дополнительного диспетчера инженеры NVIDIA упрощенно сочли неоправданной инвестицией.
Наконец, архитектуры Volta и Turing роднит осуществимость одновременного исполнения операций с вещественными (FP) и целочисленными (INT) данными. Целочисленные выкладки используются в задачах применения заблаговременно сформированных сетей машинного обучения (Inference), только также занимают большую долю операций типичной шейдерной нагрузки (соответственно оценке NVIDIA, на каждые 100 операций FP32 в современных приложениях необходимо 36 целочисленных операций). В предшествующих архитектурах целочисленные ALU и ALU для того операций с плавающей запятой связаны в пределах одного CUDA-ядра и пользовались общими путями передачи данных, из-за этого весь блок ядер в секции SM может в рамках такта реализовывать либо операции с плавающей запятой, либо целочисленные. В Volta и Turing целочисленные ALU выделены в принадлежащий тип ядер, за приговор чего допустима смешанная мощность с одновременной работой над данными двух разных форматов. Дата INT- и FP-ядер в секции SM равно 16, потому-то однопортовый диспетчер инструкций, раздающий за такт по одной инструкции чтобы обработки 32 чисел, может в курс двух тактов полностью найти работу блоки INT-и FP-ядер, каждому с которых также требуется двушничек такта, чтобы исполнить команды. Зримым результатом выделения целочисленных ядер в Volta и Turing является сниженная с 6 предварительно 4 циклов латентность FMA (Fused Multiply Add) — надо думать, наиболее востребованной операции в современных GPU.
Взяв следовать основу шейдерный мультипроцессор Volta, разработчики Turing освободили мало ли транзисторов, исключив большую осколки логики, выполняющей расчеты двучленный точности, хотя в Turing по сей день еще есть символическое контингент ядер FP64 (два сверху каждый SM) для совместимости с соответствующим Объединение. При этом сохранилась удвоенная пропускная струнка в расчетах FP16, свойственная Volta и GP100, так урезанная в прочих чипах Pascal. Сие в очередной раз говорит об уверенности NVIDIA в перспективах глубинного обучения, которое частенько оперирует данными половинной точности, согласно к игровым продуктам. Но хором с тем, полная поддержка FP16 позволит разработчикам активнее эксплуатнуть этот формат данных в шейдерных программах.
В структуре набортной памяти графического процессора Turing в который раз повторяет Volta. Здесь главным изменением новых GPU за сравнению с Pascal стало синойкизм кеша L1 с разделяемой памятью (Shared Memory). Отличка между этими типами памяти состоит в книжка, что содержимое Shared Memory эксплицитно определяет адрес исполняемой на GPU программы, в в таком случае время как данные, попадающие в L1, сердце компьютера выбирает на свое усматривание. Shared Memory в предыдущих архитектурах отличается сильнее высокой пропускной способностью и сравнительно низкой латентностью по сравнению с L1, однако Volta и Turing распространили сии преимущества на кеш первого уровня.
Ведомо, что Volta способна эластично регулировать соотношение объемов L1 и Shared Memory, вплоть перед полного отсутствия последней. В документации NVIDIA далеко не вполне очевидно, как сие работает в Turing, но складывается ощущение, что допустимы только двое варианта разбивки — 32 и 64 Кбайт изо общих 96 Кбайт в пользу того иначе иного типа памяти. В довершение всего того, кеш L1 в Volta может прятать операции записи (store), только, опять таки, осталось почти вопросом, есть ли такая способ в Turing.
Объем регистрового файла вот всех чипах Volta и Turing составляет 256 Кбайт бери SM — столько же, что (а что слышалось птиц!) в Pascal, но поскольку стек с SM вдвое сократили по числу ядер CUDA, совокупный объем регистрового файла много вырос. Кроме того, NVIDIA внедрила в каждой секции SM смешн кеш инструкций L0 вместо общего с целью SM буфера инструкций. И, наконец, кеши второго уровня выросли по 4 Мбайт в чипах TU104/TU106 и 6 Мбайт в TU102.
Весь век оптимизации архитектуры, которые NVIDIA внедрила в Turing, в области собственным тестам компании, повысили поспешность выполнения шейдерной нагрузки возьми 50% по сравнению с Pascal в пересчете сверху ядро CUDA при равной тактовой частоте.
Следующая фронтиспис →