Русский
Русский
English
Статистика
Реклама

Amd

Apple M1. Если Intel ничего не предпримет, то мы можем увидеть его закат

18.11.2020 12:16:11 | Автор: admin


То что сейчас происходит это выбивание стула из под Intel, никак иначе. Еще и AMD может зацепить, хотя они показывают хороший прогресс. Если Intel продолжит свою текущую политику, продолжит считать себя монополией и диктовать цены на свои процессоры, то ее, веряотно, ждет закат. Почему? Я проанализировал первые тесты Apple M1 и они сделали первый серьезный удар.

Сразу скажу Я не фанат Apple, хоть и пользуюсь Apple MacBook Pro 13 еще 2015 года, а недавно выбирал супруге ноутбук и остановился на Apple MaCbook Pro 16, хотя и перебрал множество других недешевых ноутбуков. Я не в восторге от политики компании, от многочисленных багов в MacOS и если бы для меня существовала альтернатива, то я бы с радостью сьехал на Xubuntu. Потому я не являюсь ярым фанатом, потому не пытайтесь меня уличить в предвзятости =)

Сегодня появились в продаже новые MacBook Air, MacBook Pro 13 и Mac mini. Есть первые тесты производительности.

По тесту Geekbench 5 в тесте на 1 ядре Apple M1 3.2 GHz уделывает MacBook Pro 16 на топовом Intel Core i9-9880H 2.6 Ghz и даже iMac 2020 года на топовом Intel Core i9-10910 3.6 GHz. Результаты синтетических тестов 1689 vs 1251 vs 1095.



В multi-core тесте результаты 7288 vs 9021 vs 6869. При этом, у iMac 10 ядер, а у остальных по 8 ядер.



Но! Эти тесты без эмуляции x86, а у M1 архитектура ARM, потому тот же Premier Pro для x86 систем будет медленнее работать. Ранее на Geekbench были замеры в режиме эмуляции и там результаты single core/multi-core были куда скромнее: 1313 и 5888. Но потом с Geekbench данные этих тестов удалили и оставили нативные тесты. Но интернеты помнят все. Даже с эмуляцией это быстрее чем Core i7 и Core i9. А что будет когда Premier Pro и прочие сделают поддержку нативную ARM?



Эти тесты это синтетика, стоит помнить. У MacBook Air нет вентилятора, а у MacBook Pro есть, потому я предполагал возможность перегрева при длительной нагрузке и будет происходить снижение производительности. Но я уже видел экспорт H264 4K@60fps видео длиной в 20 минут, которые не привели к снижению производительности. Производительность не падает! На этом видео, кстати, видно, что экспорт занял 24 минуты, а топовый MBP 14 года проиграл 4%. Разница не так велика, но это Air vs Pro, без вентилятора и базового уровня, дальше Apple обещает более мощные чипы.

Еще под полной нагрузкой M1 нагрелся до 33 градусов по цельсию на корпусе на Air без вентилятора! Что повергло прямо в шок, ибо MacBook Pro 16 греется до 46-50 градусов, жужа как пылесос.

Работа в Davinci, Final Cut и Premiere Pro с 4K видео работает как нативно (Final Cut), так и с Premiere Pro в режиме эмуляции x86 (Rosetta 2). При x4 воспроизведении 4К не наблюдалось тормозов.

Тесты Cinebench R23 показали преимущество над Core i9-9880, 1498 vs 1183 в single core тесте. Правда Ryzen лидирует в multi-core тесте.





Affinity тест: M1 дает жару iMac с AMD 580X.



Утром подьехали тесты компиляции WebKit.





Числа выше говорят за себя. Но вот что еще Apple подняла цены на официальном сайте на версии с Intel процессорами. Для примера, MacBook Pro 16 с Core i9-9880H, 16Gb RAM и 512Gb SSD стоит $2699. В то время как Apple MacBook Air с M1, 16Gb RAM и 512Gb SSD стоит $1499. При почти одинаковой производительности Базовый Air entry level против топового Pro Давление ценой и качеством. Что же, это мощный удар.

Что может последовать дальше? Волна хайпа вдохновит других вендоров и разработчиков OS пересмотреть свой подход. ARM позволяет запускать сотни тысяч приложений с мобильного AppStore и пользователи смогут запускать тот же Instagram уже на Mac. У Google тоже есть своя большая экосистема на ARM и это может подстегнуть Google активней разрабатывать свою OS, либо даже посмотреть в сторону производства своих устройств. Если сойдутся звезды, то и MS присоединиться к гонке. Выиграет от этого покупатель в любом случае. А что думаете вы? Пишите в комментариях!

Материал подготовелен на базе моей публикаций в авторском телеграм канале Об IT без галстуков. Правда о менеджменте, действиях и мотиваторах топ-менеджмента, про то как расти в компании и что ценят собственники бизнеса. Ну и авторский материал про современную разработку!


Изображение на обложку взято с ixbt.com, ну очень в тему)
Подробнее..

Семь дней и один сервер как мы тестировали машины на базе AMD

26.11.2020 10:08:34 | Автор: admin

У нас был один сервер на базе нового процессора AMD, куча тестов, которые мы хотели прогнать, и неделя, чтобы проверить работу машины под реальной нагрузкой. Не то чтобы это был достаточный срок для близкого знакомства со свежей железкой, но когда постоянно тестируешь новинки и кастомизируешь сервисы, сложно остановиться.

Какие тесты мы все-таки успели прогнать, в каких задачах новичок переиграл нашу рабочую лошадку из флагманского пула, а где уступил рассказываем под катом.

Представляем испытуемых

Мы давно ждали возможности взять на тесты сервер с последним поколением процессоров AMD. Совсем недавно такая возможность нам представилась. Встречайте: Dell EMC PowerEdge R6515 на базе процессора AMD EPYC 7742.

Ключевые характеристики CPU:

  • 64 ядра;

  • 128 потоков;

  • базовая частота 2.25GHz;

  • максимальная частота на ядро (boost) до 3.4GHz;

  • L1 cache 4MiB;

  • L2 cache 32MiB;

  • L3 cache 256MiB.

Согласитесь, выглядит многообещающе. Недавно мы уже брали на тест серверы с процессорами от AMD прошлого поколения. Результат, увы, не впечатлил приблизительно на уровне Intel пятилетней давности.

А потом в интернете стали появляться восторженные статьи о новых CPU. Это разожгло в нас скепсис разговоров много, а объективных тестовых показателей ни у кого нет. Все писали, что стало больше производительности, сократилось энергопотребление. Что серверы Dell EMC PowerEdge на базе процессором AMD подойдут для работы с требовательными ресурсоемкими приложениями и облачными сервисами (они используют чипы AMD EPYC, имеющие от 8 до 64 ядер и поддерживают высокоскоростной интерфейс PCIe 4.0). Поэтому мы решили любой ценой заполучить свежие процессоры и прогнать на них хотя бы основной набор тестов. Поскольку мы занимаемся виртуализацией грубо говоря, отдаем заказчикам ядра нам было интересно, как CPU поведет себя под нагрузкой.

Сравнивать этот сервер мы будем с нашей текущей рабочей лошадкой Dell Poweredge R740 с двумя Intel Xeon Gold 6254 на борту. Мы активно используем эти серверы уже около года. Процессоры там отличные и подходят под любые задачи. Кроме, разве что, 1С. Здесь нужны более высокочастотные CPU. Для 1C используем Intel Xeon Gold 6244. Тут писали, как проводили на них тесты Гилёва.

Пул тестовых задач

Наша стандартная процедура тестирования проходит на двух уровнях:

  • серия тестов на самом сервере, глазами провайдера;

  • тестирование из виртуальных машин, размещенных на сервере глазами клиента.

К сожалению, процесс отладки сервера внутри нашей инфраструктуры отнял часть драгоценного времени, и мы успели осуществить только несколько sysbench-тестов. Тем не менее, результаты получились весьма любопытные.

Набор тестов

Тест

cmdline

sysbench, max prime, one core

taskset -c 0 sysbench --test=cpu --cpu-max-prime=20000 run

sysbench, max prime, all cores

sysbench --test=cpu --cpu-max-prime=100000 --num-threads=8 run

sysbench, oltp-mysql, i thread

sysbench --test=oltp --db-driver=mysql --mysql-db=test --mysql-user=root --mysql-socket=/var/lib/mysql/mysql.sock --mysql-table-engine=innodb --max-requests=0 --oltp-table-size=1000000 --max-time=300 --num-threads=$i run

Все тесты проводились на виртуальной машине с 8 vCPU и 32Gb RAM.

Результаты: стандартный пул КРОК

Для затравки посмотрим на цифры с референсного Dell EMC PowerEdge R740:

Тест

Результат

sysbench, max prime, one core

total time: 19.1545s

sysbench, max prime, all cores

total time: 22.1102s

sysbench, oltp-mysql, 1 thread

828.69 tr. per sec.

sysbench, oltp-mysql, 2 threads

1605.72 tr. per sec.

sysbench, oltp-mysql, 4 threads

2992.22 tr. per sec.

sysbench, oltp-mysql, 8 threads

5927.20 tr. per sec.

Результаты: сервер на базе AMD

Результаты тестируемого Dell R6515 c AMD EPYC 7742:

Тест

Результат

sysbench, max prime, one core

total time: 15.6657s

sysbench, max prime, all cores

total time: 18.9329s

sysbench, oltp-mysql, 1 thread

1023.46 tr. per sec.

sysbench, oltp-mysql, 2 threads

1709.39 tr. per sec.

sysbench, oltp-mysql, 4 threads

3231.34 tr. per sec.

sysbench, oltp-mysql, 8 threads

4533.65 tr. per sec.

Как видно из результатов, виртуальная машина на R6515 показала себя лучше, чем на R740, кроме OLTP теста на 8 тредов здесь преимущество осталось за референсной машиной. Именно OLTP тестирование открыло небольшой подводный камушек: в 1, 2 и 4 тредах производительность отличная, а в 8 потоках процессор уже зарывается.

Почему так происходит, сказать пока сложно. Чтобы понять процессор и научиться с ним работать, одной недели явно недостаточно. Хотелось бы провести дополнительные тесты в различных вариациях: например, погонять ВМ с 4 ядрами в четыре потока. Это позволило бы понять особенности работы CPU.

Было бы очень интересно прогнать любимый всеми тест Гилёва и сравнить полученные результаты. Увы, время у нас было ограничено, поэтому тестировали самое основное.

Выводы

Давайте обсудим особенности каждого из наших испытуемых и попробуем подвести итог.

Сервер Dell EMC R6515 c AMD EPYC 7742 однозначно интересен. У него высокая плотность ядер на юнит, хорошая производительность и несколько меньшая стоимость по сравнению с Dell из нашего флагманского пула: выгода около 40% в расчете на vCPU и 20% с учетом фактической производительности (price/performance).

К минусам можно отнести высокое тепловыделение, но здесь всё зависит от системы кондиционирования в вашем ЦОДе.

На выходе получился мощный комбайн для больших объемных задач, способный без проблем переваривать серьезные аналитические расчеты, CRM-системы, базы данных или множество виртуальных машин. Если говорить о стоимости один этот процессор стоит дешевле, чем два Intelа из нашего стандартного пула. Да и сам сервер стоит дешевле используемого сейчас R740. На выходе получается более высокая производительность за меньшие деньги.

Мы с коллегами пришли к выводу, что процессор у AMD получился действительно хороший . Он отлично подойдет для реализации типовых сценариев. Возможно, AMD EPYC 7742 появятся в нашем облаке мы постоянно кастомизируем сервисы, поэтому такой зверек может оказаться очень кстати.

Разумеется, однозначно рекомендовать их мы не можем. Выбор железа основывается на задачах. Тестируйте разные варианты и выбирайте то, что лучше всего подойдет именно вам.

По традиции, ждем ваших комментариев. Если у вас остались какие-то вопросы будем рады ответить на них.

Подробнее..

В борьбе синих и красных победа присуждается радужным! Или все-таки не присуждается? Ну противостояние-то хоть было?

20.12.2020 16:19:50 | Автор: admin


Уже прошло более месяца с момента официальной презентации корпорацией Apple обновленной линейки MacBook. Краеугольным камнем новшеств стали камни вычислительные процессоры. Для последователей продукции Apple переоценить данное событие довольно сложно, ведь мир увидел не просто улучшение существующего техпроцесса, изменения затронули саму архитектуру процессоров новых MacBook. Постепенный отказ от сотрудничества Apple с Intel, и как результат появление нового яблочного процессора М1 уже сейчас многие называют эпохальным событием.

На протяжении месяца мы с вами являемся свидетелями всевозможных Benchmark тестов, обсуждений, прогнозов, а порою и откровенных срачей между сектами последователей/хейтеров упомянутых выше корпораций. Особой пикантности ситуации предает тот факт, что в этот раз Apple смогла задеть не только чувства верующих от Intel, Apple и AMD, к разборкам также подключились еще два не менее буйных лагеря свидетелей архитектуры ARM/x86. Ведь основным мотивом отказа от использования в своих МасBook продукции синих стала не банальная интрижка на стороне у красных, а радикальный уход процессоров М1 на совершенно отличную от х86 архитектуру ARM, что само по себе уже чревато самыми интересными последствиями.

Так все таки кто кого? Кто на коне, а кого ждет скорое забвение? Станет ли Apple законодателем моды на ARM процессоры в полноценных рабочих станциях со своим all-in в процесорную систему Apple Silicon, или мир еще не готов к столь радикальным переменам? О всем этом и не только пойдет далее речь в статье.

Легкая предыстория


Забегая немного вперед можно констатировать, что действительно наибольшее число революций в разработке и производстве процессоров произошло в 60-70х годах ХХ столетия. Первый центральный процессор в нашем современном их понимании Intel 4004, впервые объединивший в себе возможность исполнять логический и арифметические функции, первый 8-битный процессор Intel 8006, который в том числе, впервые, дал возможность пользователям ЭВМ работать с буквенной кодировкой, и конечно же легендарный Intel 8086 разработанная под него архитектура набора команд дала название архитектуре х86, на база которой и сегодня выпускают свои прорывные решения Intel и AMD. Да собственно и сами вышеупомянутые компании, с их противостоянием, также берут свое начало из конца 60-х, как ушедшие в свободный полет птенцы из общего гнезда одного из основателей кремневой долины Fairchild Semiconductor International Inc.


Вероломная восьмерка в скором будущем присутствующие здесь люди создадут Intel и AMD

Несколько иной от х86 подход к набору команд внутри центрального процессора породил архитектуру ARM, однако и она не является достижение последних десятилетий. Первые рабочие станции на ARM увидели свет в первой половине 80-х. Архитектура, с первых лет своего существования, зарекомендовала себя как крайне эффективная, ответить же на вопрос: Почему мы увидели полноценную рабочую станцию от Apple на ARM только сейчас? довольно сложно. Во-первых полноценным компьютером на базе ARM процессора стал ПК из семейства Acorn Archimedes еще в далеком 1987 году, а во-вторых станет ли новинка от Apple действительно эффективным решением, в отличии от своих ARM предшественников, это все еще уравнение с целым рядом неизвестных.

AMD и Intel: враги, конкуренты, или вовсе партнеры?


Компании с переменным успехом существуют уже на протяжении 50 лет. И это в мире хайтека где каждый год появляются и уходят в забвение десятки не только мелких стартапов но порою и заслуженных ИТ-гигантов. Более того общие истоки Intel и AMD, как и их перманентная кооперация на протяжении всей их истории такого бескомпромиссного соперничества как минимум наталкивает на размышления.



С первых дней своего существования Intel и AMD шли рука об руку и скорее дополняли друг друга нежели соперничали. Подписав с Intel крос-лицензионное соглашение на использование взаимных патентов, представленный в 1975 году процессор от команды AMD Am9080, был точной копией Intel 8086. По сути и все дальнейшее развитие собственной процессорной продукции у коллектива AMD всегда попадало в фарватер Intel. Улучался тех процесс, усовершенствовался набор команд, вводились изменения в компоновку железной составной, однако в принципиальных вопросах построения самой архитектуры процессора никаких разногласий у конкурирующих флагманов ИТ-рынка никогда не возникало. Давайте лишь вспомним, что кроме широко известных сейчас архитектур под х86 и ARM CISC и RISC, существуют VLIW, EPIC, SIMD, MIMD и многие другие. Разбор особенностей всех этих архитектур, и споры об их реальной эффективности это тема для отдельной дискуссии но тот факт, что ни Intel ни AMD до их пор не представили сколько либо конкурентного решения на базе процессоров ARM, уже сейчас завоевавших абсолютное лидерство на рынке носимой электроники, вызывает откровенное недоумение. Недоумение, если воспринимать двух вышеупомянутых ИТ-гигантов как действительно конкурентов.

Общее прошлое, взаимовыгодная работа на развитие и продвижение х86 совместимой архитектуры синими и красными точно также как и интеграции их продукции со сторонними производителями железа и программного продукта весьма показательны. К всему вышеупомянутому стоит еще добавить и о прямых финансовых вливаниях Intel в стан смертельного конкурента. В 2009 году, после длительных судовых разбирательств, по результатам решения антимонопольной комиссии ЕС, Intel без лишних сожалений, согласился выплатить AMD компенсацию в размере 1,25 миллиарда долларов. Можно долго спорить на сколько сильно синие провинились перед свободным рынком и персонально AMD занимаясь демпингом ( к слову о дороговизне решений от Intel ), и незаконно использовали некоторые патенты красных, однако феноменальная сумма выплаченная компании в период ее не самых лучших времен говорит о многом.


Котировки акций AMD на фондовой бирже по годам. До триумфального появления Ryzen еще долгих 7 лет, а жить-то как-то надо сейчас

Но даже если вовсе откинуть все эти полуконспирологические теории о сговоре и взглянуть на выпускаемую двумя компаниями продукцию можно также увидеть небезынтересные закономерности. Процессоры от AMD или копировали существующие Intel, или дополняли ее линейку собственными разработками. Несколько иное позиционирование на рынке обоих компаний позволило до самого последнего времени целиком контролировать многомиллиардный рынок процессорных решений для ПК.

По сути продукция от Intel была всегда нацелена на потребителя желающего получить готовое решение из коробки, соответственно и публика отдававшая бренду свое предпочтения готова была за это дело переплачивать не слишком заморачиваясь техническими подробностями систем обладателями которых они стали. В тоже время целевая аудитория для AMD это в основном люди у которых не слишком большой бюджет, зато есть время и желание заниматься апгрейдами системы обновление сокета под красные камни происходило куда реже нежели у их аналогов от Intel, разгоном процессоров AMD никогда особо не блокировала эту возможность. Видимо именно из этих особенностей и берет свое начало та религиозная война между двумя антиподами сторонниками дорогих холодных процессоров и Кулибиных готовых за минимальную сумму слепить высокопродуктивную станцию на базе продукта от AMD.

АRM М1 от Apple не первая ласточка


Пока Intel и AMD методично окучивали х86 архитектуру, на шестом десятке лет этого достойного занятия они фактически перестали быть монополистами на рынке процессорных решений. Поскольку без центрального процессора в современном мире сложно представить даже банальный чайник, фактическая распространенность ARM процессоров давно уже превзошла коллег с х86. Тем самым создав еще одну линию боесоприкосновения. Если еще лет 10 назад конкуренция двух архитектур не воспринималась массами ИТ-шников слишком серьезно, то сейчас уже накал страстей при обсуждениях вышеупомянутой темы может взлететь выше неба.

Фактическая картина использования обоих типов процессоров расставляет все на свои места, вроде как. Энергоэффективные ARM завоевали рынок компактной, носимой электроники где на первом месте всегда стоял уровень расхода энергии, а не максимальное быстродействие. Производительные же х86, с их набором исполнительных инструкций CISK, оккупировали наши домашние ПК, ноутбуки, серверные платформы где объем потребляемый энергии был не столь важен против максимальной производительности процессора. Однако, самое удивительное в этой истории то, что фактическое положение вещей стало результатом целого ряда факторов, из которых реальная производительность ARM процессоров была отодвинута на задний план.


В свое время фигурировала информация, что Минпромторг СССР в начале 90х проводил с правительством Великобритании переговоры о возможности покупки полного лицензированного производства линейки ПК Acorn Archimedes на территории Союза. Что бы из этого могло выйти где то в параллельной вселенной, где покупка была одобрена и страна советов не канула в лету, сейчас можно лишь фантазировать

История с производством, в начале 90-х, ПК на базе ARM процессоров Acorn Archimedes показало, что многомиллиардный бизнес это не только разговор о фактической продуктивности систем для конечного потребителя. Инстинкт самосохранения у существующих производителей однозначно победил, вследствие чего Intel с AMD и далее продолжили развивать свою архитектуру, а ARM процессорам пришлось перекачивать на слаборазвитый, малобюджетный, не слишком перспективный ( в те далекие времена ) рынок портативной электроники. В тоже время для Intel и AMD стало очевидным, что набор исполнительных инструкций используемый для функционирования их архитектуры х86, в большинстве реальных задач, проигрывает набору инструкций RISC, применяемый в ARM процессорах, и он должен быть модернизирован в сторону конкурента. По истечению 30 лет работы над ошибками два ИТ-гиганта смогли добиться результата при котором оставшись формально правообладателями и единственными производителями процессоров х86, фактически, оптимизировали исполнение инструкций внутри процессора по образу и подобию конкурента на RISC.

В 1992 году Apple презентовала инновационный продукт, планшет под управлением ARM процессоров Newton. Хотя сам по себе продукт оказался провальным для корпорации, процессорная архитектура зарекомендовала себя достойно и с тех времен все более широко стала использоваться в портативных гаджетах, став на данный момент абсолютным лидером. Лидером, однако не монополистом. В отличии от своих конкурентов компания ARM Limited обладающая правами на ARM, пошла по пути общедоступности, отказавшись от собственного монопольного производства ARM процессоров, британские учредители сделали архитектуру открытой для сторонних разработчиков и производителей. Продавая на нее права всем желающим компаниям, при этом сделав весьма гибкий прейскурант зависящий от конкретного функционала и количества выпускаемых партнерами процессоров, линейка ARM решений постепенно захватила целые направления в мире окружающих нас гаджетов.


А в это время на просторах СНГ все еще дрались за шанс половить яйца на Электроника ИМ-02

В 2012 году компания Microsoft осуществила хорошую попытку выйти на рынок ПК со своим новым продуктом Surface. Ноутбук трансформирующийся в планшет был создан на базе процессора ARM и должен был бросить вызов альянсу красно-синих на их территории. Забегая вперед можно констатировать, что и этот блин вышел комом, но что ж тогда вы спросите хорошего было в этой попытке? Дело в том, что в Microsoft учли ошибки прошлого и подошли к делу всесторонне.

Первой и самой главной проблемой первых ПК на базе всевозможных процессорных архитектур, на заре становления цифровой эры, являлась слабая программная поддержка. Простыми словами вы могли создать самый прелестный процессор с самой совершенной архитектурой, однако не имея за собой огромных капиталовложений в разработку и продвижение ПО на базе вашего продукта вы были обречены на забвение. Собственно это и случилось с Acorn Archimedes в 90-х. Тем более, что как конкурент х86 в конце концов была не так уж и плоха.

Имея солидный бюджет, а что еще не менее важно колоссальный опыт в разработке ПО, Microsoft решил, что в 2012 году мир готов к новым ПК. Имея за плечами опыт разработки ПО под мобильные ARM решения Windows Mobile, со всеми его потомками Windows Phone вплоть до Windows 10 Mobile, Surface так и не смог завоевать хоть сколько-либо видимой доли рынка. Попытки создать единую программную платформу для носимых гаджетов и ПК, покупка в 2011 году за 8,5 миллиардов долларов Skype, кооперация, а потом и покупка в 2014 году за 6 миллиардов долларов Nokia, сложно рассчитываемые инвестиции в сопутствующие сервисы типа OneDrive увенчались полнейшим фиаско Мелкомягких. Почему все эти титанические усилия оказался провальными вопрос довольно спорный. С одной стороны сумасшедшая инерция архитектуры х86, плюс посредственная производительность встраиваемых в Surface процессоров NVIDIA Tegra 3, в то время как автономность гаджета возрасла весьма незначительно, если сравнивать с конкурентами от Intel. С другой стороны был выбран не слишком удачный/новый процессор под систему, да и по отзывам пользователей откровенно плохая оптимизация ПО под железо превращала работу с ним в перманентное мучение, очевидно это был сырой продукт.


А ведь идея была хорошая

Apple третий переход


Объявленная на крайней презентации Apple революция, с переходом MacBook на процессоры новой архитектуры, для корпорации стала действительно революцией, хотя и не первой. Даже тот факт, что в Купертино уже более 10 лет используют ARM архитектуру в процессорах для своих мобильных устройствах не умиляет размера события. Почему для радужных это действительно революция становится понятным если взглянуть на ту модель бизнеса которую исповедуют радужные. Apple это не про гаражные поделки на коленке, компания реализует комплексные решения на базе собственной экосистемы. Если в 1994 году уход от процессоров IBM на новую перспективную архитектуру PowerPC был еще достаточно рядовым событием, не столь травмирующим приверженцев бренда, то в 2005 году выбор в пользу процессоров от Intel стал уже настоящим вызовом и проверкой на прочность самой компании. Смягчить переход помог разработанный в строжайшей секретности программный комплекс Rosetta по сути динамический транслятор бинарного кода, позволяющий на лету преобразовывать код приложений PowerPC для работы под Intel. Это решение позволило адаптировать и легко использовать программы изначально не совместимые с новой системой.


Гладко было на бумаге, да забыли про овраги

Озвученный третий переход на новую ARM архитектуру в нынешнем 2020 году очевидно станет еще тем квестом, в чем уверен мы с вами еще не раз убедимся, однако встроенный в новую ОС эмулятор Rosseta 2, в теории, должен решить большинство проблем связанных с использованием не адаптированного ПО под новые радужные процессоры. Хотя позитивный опыт предыдущего перехода и вселяет оптимизм, однако уже сейчас понятно, что новым процессорам M1 ближайший год-два придется вывозить на себе все тягости и лишения переходного периода пока App store не обзаведется достойным набором приложений под новую архитектуру.

Выводы


Презентация новых процессоров от Apple, это однозначно то не многое из позитива который принес нам незабвенный 2020 год. Возможно еще не все оценили масштаб данного события, однако со временем его размер будет становится все более очевидным. Фактически в 2020 году мы получили третьего полноценного игрока на рынке высокопродуктивной процессорной техники, который неоднократно показывал присутствие необходимых знаний и умений добиваться успеха в поставленных задачах. Ближайшие несколько лет станут несомненно решающими не только для Apple, с их ва-банком на ARM, но и явно подпортят кровь так крепко обосновавшимся на ниве производства процессоров компаниям Intel и AMD.

Уже сейчас мы видим как MacBook с номинально более производительным и энергоэффективным М1 стоит дешевле идентичного аппарата на процесcоре Intel i5. Неужели на смену внутрикланновой конкуренции наконец-то придет настоящая борьба за клиента? Клиента у которого наконец-то появится альтернатива застойным тик-так-так-так инновационным процессорам из 2014 года от Intel и изделиям от их заграничного филиала AMD с порою откровенно сырыми, не оптимизированными продуктами. Я уверен не мало профессиональных комментаторов с легкостью расставят точки над I в этой не такой уж простой, как казалось бы на первый взгляд, теме. Всем же остальным предлагаю запастись попкорном и наблюдать за тем куда нас приведет кривая дорога технического прогресса.



Немного рекламы


Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Equinix Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?
Подробнее..

Перевод Threadripper 3990X компилируем 1 миллиард строк C на 64 ядрах

05.02.2021 14:16:53 | Автор: admin


RAD Studio состоит из Delphi и C++Builder. Компилятор Object Pascal в Delphi является однопроходным компилятором, и сам компилятор не является параллельным, однако при компиляции нескольких проектов параллельно он оказался способен скомпилировать 1 миллиард строк кода Object Pascal за 5 минут на машине с 16-ядерным AMD Ryzen 9 5950x. Я хотел выяснить, возможно ли сделать что-то подобное для C++. Этот пост является частью серии статей, в которой мы исследуем значительный прирост производительности, которого можно достичь на самых быстрых на начало 2021 года процессорах. Сколько это 1 миллиард строк кода? Взгляните сюда.

Параллельная компиляция в C++Builder


C++Builder имеет несколько различных компиляторов, в том числе классический компилятор Borland и современные компиляторы на основе Clang для нескольких платформ. Кроме того, Embarcadero спонсирует среду Dev-C++ с открытыми исходниками, содержащую в комплекте компилятор TDM-GCC 9.2.0. GCC 9.2.0 содержит MAKE, поддерживающий параллельную компиляцию при помощи параметра командной строки -j (Jobs). У C++Builder есть аддон под названием TwineCompile, реализующий в C++Builder параллельное компилирование. И C++Builder, и Dev-C++ созданы с помощью Delphi.

Насколько я понял из своих исследований, TwineCompile обеспечивает более широкую функциональность, чем MAKE Jobs, потому что TwineCompile поддерживает компиляцию в фоновом режиме и другие функции улучшения производительности. Поддержка дополнительных функций типа компиляции в фоновом режиме зависит от IDE: Dev-C++ его не поддерживает, а C++Builder поддерживает с помощью TwineCompile. Dev-C++ это отличная нативная IDE C++ для разработки под Windows, а C++Builder повышает производительность работы благодаря визуальному конструктору, мощному встроенному VCL RTL и расширенных функций параллельной компиляции. Кроме того, они основаны на разных компиляторах C++, поэтому это не совсем прямое сравнение; на самом деле, они дополняют друг друга.

Сторонние бенчмарки (не относящиеся к проекту из поста) для 3990X с TwineCompile:


  • Параметры машины: AMD Ryzen Threadripper 3990X (2,9 ГГц, 64 ядра, 128 потоков)
  • Конфигурация: IDE Compile.
  • Результаты: без TwineCompile, с TwineCompile
  • 3:35:02, 0:05:44

Параллельная компиляция в Dev-C++


В начале нашего квеста Dev-C++ не поддерживал флаг -j MAKE, поэтому эту задачу нужно было решить в первую очередь. Мне удалось обновить Dev-C++ и выпустить новую версию v6.3 со встроенным флагом -j для параллельной компиляции. Кроме того, теперь он по умолчанию используется для релизных сборок, что должно значительно снизить время компиляции для пользователей Dev-C++. Обновление необходимо было выпустить, потому что флаг командной строки нужно было добавить в MAKE, а не в командную строку компилятора. На реализацию потребовалось несколько дней, после чего была выпущена новая версия v6.3. В комплекте с этим релизом были выпущены все исправления ошибок за последние два месяца и вторая новая функций выбора произвольных встроенных консольных приложений. Вот примечания к версии Dev-C++ v6.3:

Версия 6.3 30 января 2021 года

  • Добавлено: по умолчанию для релизных сборок включена параллельная компиляция при помощи MAKE Jobs.
  • Добавлено: 3 кнопки для настройки пользовательских вкладок командной строки.
  • Обновлено: завершение кода и меню для тёмных тем.
  • Обновлено: обтекание выбора вкладки редактора по CTRL-TAB.
  • Исправлено: проблема с удалением файла Make clean.
  • Исправлено: в строке состояния не отображается весь текст.
  • Исправлено: проблема столбца hex окна Debug/CPU.
  • Исправлено: закрытие вкладок в редакторе в режиме side by side.

Получив IDE Dev-C++, способную параллельно компилировать 1 миллиард строк на C++, мне нужно было добыть сам AMD Threadripper 3990X с 64 ядрами и 128 потоками. Threadripper имеет меньшие оценки на каждое ядро по PassMark, чем 5950X, но поскольку он имеет больше ядер, в сумме оценка выше. Показанный ниже скриншот сделан в PassMark и демонстрирует сравнение двух процессоров. Как видите, бенчмарк одного ядра 5950x равен 3491, а у 3990x он равен 2553. Однако общий многоядерный бенчмарк 3990x равен 80752, а у 5950x всего 46045.




Примечание: в видео не упоминается более мощный 64-ядерный Threadripper 3990X, использованный в этом посте.

У ReliableSite.net есть облачные машины на основе AMD Threadripper 3990X с 256 ГБ ОЗУ, удовлетворяющие требованиям нашего проекта. Можно выбрать два варианта конфигурации Windows: Windows Standard 2016 и Windows Standard 2019. Я выбрал Windows 2016 и сервис попытался установить на машину эту ОС, но не смог этого сделать ни на одном релизе; вероятно, это связано с проблемой лицензирования Microsoft процессоров и ядер в Windows Standard 2016. Как бы то ни было, ОС сменили на Windows Standard 2019 и всё установилось нормально.


Итак, у нас есть работающая машина с Windows 2019 на Threadripper и C++Builder с TwineCompile, плюс Dev-C++ v6.3 со встроенной поддержкой параллельной компиляции. Всё тестируется и работает замечательно. C++Builder смог скомпилировать 1 миллион строк на C++ из предыдущего поста в четыре раза быстрее, чем на 5950x, а Delphi смогла скомпилировать 1 миллиард строк проектов Object Pascal в 2,5 раза быстрее. Эти два сравнения мы оставим на следующие посты.

Одним из инструментов, используемых для замера использования процессорных ресурсов, стал Task Manager DeLuxe компании MiTeC. Task Manager DeLuxe удивляет объёмом предоставляемой о Windows информации. В TMX есть тёмный (актуальный для 2021 года) и светлый режим. TMX производит компания MiTeC, также создающая широкий ассортимент компонентов Delphi, предоставляющих доступ к большому объёму информации, которую можно найти в TMX. Вероятно, бОльшую часть информации из TMX можно использовать в своём приложении при помощи MiTeC System Information Component Suite.

Когда я впервые запустил Task Manager DeLuxe на машине с 64-ядерным Threadripper 3990x, он не смог отобразить графики для отдельных процессоров и выдал ошибку. У меня коммерческая лицензия на Task Manager DeLuxe, поэтому я отправил письмо Михалу из MiTeC и ему удалось быстро решить проблему. Он выпустил новую версию Task Manager DeLuxe, которая теперь отлично запускается и работает на машине с 64 ядрами.


Следующей задачей стало непосредственное создание проекта из 1 миллиарда строк на C++, чтобы его можно было скомпилировать. Я начал с этого проекта Scimark2 для Dev-C++ и разработал приложение на Delphi для быстрой генерации нужного количества строк кода. В конечном итоге я хотел запустить приложение, созданное из 1 миллиардов строк C++. Delphi-приложение берёт файлы LU.c и LU.h и дублирует последнюю функцию LU_factor() столько раз, чтобы получилось нужное количество строк. Сама функция состоит из 69 строк, и чтобы избежать коллизий имён, каждая сгенерированная функция имеет имя файла и номер итерации.


Я попробовал несколько разных способов нарезки файлов проекта на C++, чтобы получить больше файлов и меньше строк или больше строк и меньше файлов. В проекте Delphi я создал 4 миллиона строк, разбросанных по 250 проектам. Для проекта на C++ один из способов нарезки заключался в создании 32 000 файлов из 31 250 строк на файл. Я пришёл к этому числу после тестирования, потому что мне показалось, что Dev-C++ лучше работает с мелкими файлами, большим количеством файлов для большого количества ядер, и что большое количество мелких файлов лучше имитирует реальный проект. Второй способ 10 666 файлов по 93 750 строк на файл. Третий способ 1000 файлов и 1000000 строк C++ на файл. Список файлов добавляется в файл проекта Dev-C++ после их генерации, то есть среде Dev-C++ нужно будет загрузить этот список файлов в свой список проекта.

Я обнаружил здесь узкое место в Dev-C++ есть функции автодополнения кода и символов. Эти функции парсят файлы в проекте при его открытии, и достаточно сказать, что этот процесс ещё не распараллелен. Рано или поздно Dev-C++ загружается, но на обработку 32 тысяч файлов уходит довольно много времени (и даже 10 666 файлов). После того, как я с этим разобрался, я отключил автодополнения кода и символов, что позволило быстро загрузить проект с 1 миллиардом строк кода на C++. Похоже, Dev-C++ не испытывает никаких проблем с редактированием файла из 1 миллиона строк и работа ощущается довольно плавной.

Я столкнулся со второй проблемой процедура Delphi System.CPUCount сообщает, что есть не 128, а 32 потока. Вероятно, когда писали процедуру System.CPUCount, казалось, что 32 ядер будет достаточно, но мы уже давно миновали этот рубеж. В случае 5950X, имеющего 16 ядер и 32 потоков, процедура работает отлично, но в случае 3990X ошибается. Я сообщил об этой проблеме на портале Embarcadero Quality, однако уже существует сторонняя библиотека NumCPULib4Pascal, которая должна сообщать правильное значение. А пока я создал свою сборку исполняемого файла Dev-C++ и жёстко прописал в нём 128 потоков.

Мы уже почти готовы приступать к компиляции 1 миллиарда строк кода! У нас есть оборудование, есть IDE, готовые компиляторы и проекты (нарезанные разным образом). В течение всего процесса я компилировал версии проекта на 1 миллиард строк C++ с разными размерами, чтобы выявить и устранить вышеупомянутые проблемы.


Давайте начнём с проекта на 1 миллиард строк, разделённого на 32 000 по 31 250 строк. Этот проект компилируется. Как и следует, он использует все ядра, но когда дело доходит до компоновки 32 000 файлов в один исполняемый, он начинает простаивать. Существует ограничение командную строки, не позволяющее передать компоновщику 32 000 файлов. Максимальная длина командной строки Windows составляет 32768 байт, то есть USHORT в Windows API. Второй проект с 10 666 файлами и 93 750 строками на файл тоже компилируется, но простаивает по той же причине.

Третий проект с 1000 файлами и 1 000 000 строк на файл компилируется, но более медленно. В процессе компиляции он не использует все 128 ядер. При выборе -j64, -j128 и -j (автоматический выбор) в MAKE видно, что реально работают только примерно 34 из 64 ядер, хоть и исполняют 64 процесса g++. Во время этого процесса задействуется 81 ГБ ОЗУ, так что хорошо, что машина имеет 256 ГБ. Хотя после исполнения командной строки все файлы компилируются, сам компоновщик вылетает с ошибкой, пытаясь объединить все объектные файлы в исполняемый. Пока все найденные на StackOverflow советы по использованию различных аргументов командной строки не позволили решить проблему.

g++.exe scimark2.o FFT.o LU.o MonteCarlo.o SOR.o SparseCompRow.o Stopwatch.o Random.o kernel.o array.o LU0.o LU1.o LU2.o LU3.o LU4.o LU5.o LU6.o LU7.o LU8.o LU9.o LU10.o LU11.o LU12.o LU13.o LU14.o LU15.o LU16.o LU17.o LU18.o LU19.o LU20.o LU21.o LU22.o LU23.o LU24.o LU25.o LU26.o LU27.o LU28.o LU29.o LU30.o LU31.o LU32.o LU33.o LU34.o LU35.o LU36.o LU37.o LU38.o LU39.o LU40.o LU41.o LU42.o LU43.o LU44.o LU45.o LU46.o LU47.o LU48.o LU49.o LU50.o LU51.o LU52.o LU53.o LU54.o LU55.o LU56.o LU57.o LU58.o LU59.o LU60.o LU61.o LU62.o LU63.o LU64.o LU65.o LU66.o LU67.o LU68.o LU69.o LU70.o LU71.o LU72.o LU73.o LU74.o LU75.o LU76.o LU77.o LU78.o LU79.o LU80.o LU81.o LU82.o LU83.o LU84.o LU85.o LU86.o LU87.o LU88.o LU89.o LU90.o LU91.o LU92.o LU93.o LU94.o LU95.o LU96.o LU97.o LU98.o LU99.o LU100.o LU101.o LU102.o LU103.o LU104.o LU105.o LU106.o LU107.o LU108.o LU109.o LU110.o LU111.o LU112.o LU113.o LU114.o LU115.o LU116.o LU117.o LU118.o LU119.o LU120.o LU121.o LU122.o LU123.o LU124.o LU125.o LU126.o LU127.o LU128.o LU129.o LU130.o LU131.o LU132.o LU133.o LU134.o LU135.o LU136.o LU137.o LU138.o LU139.o LU140.o LU141.o LU142.o LU143.o LU144.o LU145.o LU146.o LU147.o LU148.o LU149.o LU150.o LU151.o LU152.o LU153.o LU154.o LU155.o LU156.o LU157.o LU158.o LU159.o LU160.o LU161.o LU162.o LU163.o LU164.o LU165.o LU166.o LU167.o LU168.o LU169.o LU170.o LU171.o LU172.o LU173.o LU174.o LU175.o LU176.o LU177.o LU178.o LU179.o LU180.o LU181.o LU182.o LU183.o LU184.o LU185.o LU186.o LU187.o LU188.o LU189.o LU190.o LU191.o LU192.o LU193.o LU194.o LU195.o LU196.o LU197.o LU198.o LU199.o LU200.o LU201.o LU202.o LU203.o LU204.o LU205.o LU206.o LU207.o LU208.o LU209.o LU210.o LU211.o LU212.o LU213.o LU214.o LU215.o LU216.o LU217.o LU218.o LU219.o LU220.o LU221.o LU222.o LU223.o LU224.o LU225.o LU226.o LU227.o LU228.o LU229.o LU230.o LU231.o LU232.o LU233.o LU234.o LU235.o LU236.o LU237.o LU238.o LU239.o LU240.o LU241.o LU242.o LU243.o LU244.o LU245.o LU246.o LU247.o LU248.o LU249.o LU250.o LU251.o LU252.o LU253.o LU254.o LU255.o LU256.o LU257.o LU258.o LU259.o LU260.o LU261.o LU262.o LU263.o LU264.o LU265.o LU266.o LU267.o LU268.o LU269.o LU270.o LU271.o LU272.o LU273.o LU274.o LU275.o LU276.o LU277.o LU278.o LU279.o LU280.o LU281.o LU282.o LU283.o LU284.o LU285.o LU286.o LU287.o LU288.o LU289.o LU290.o LU291.o LU292.o LU293.o LU294.o LU295.o LU296.o LU297.o LU298.o LU299.o LU300.o LU301.o LU302.o LU303.o LU304.o LU305.o LU306.o LU307.o LU308.o LU309.o LU310.o LU311.o LU312.o LU313.o LU314.o LU315.o LU316.o LU317.o LU318.o LU319.o LU320.o LU321.o LU322.o LU323.o LU324.o LU325.o LU326.o LU327.o LU328.o LU329.o LU330.o LU331.o LU332.o LU333.o LU334.o LU335.o LU336.o LU337.o LU338.o LU339.o LU340.o LU341.o LU342.o LU343.o LU344.o LU345.o LU346.o LU347.o LU348.o LU349.o LU350.o LU351.o LU352.o LU353.o LU354.o LU355.o LU356.o LU357.o LU358.o LU359.o LU360.o LU361.o LU362.o LU363.o LU364.o LU365.o LU366.o LU367.o LU368.o LU369.o LU370.o LU371.o LU372.o LU373.o LU374.o LU375.o LU376.o LU377.o LU378.o LU379.o LU380.o LU381.o LU382.o LU383.o LU384.o LU385.o LU386.o LU387.o LU388.o LU389.o LU390.o LU391.o LU392.o LU393.o LU394.o LU395.o LU396.o LU397.o LU398.o LU399.o LU400.o LU401.o LU402.o LU403.o LU404.o LU405.o LU406.o LU407.o LU408.o LU409.o LU410.o LU411.o LU412.o LU413.o LU414.o LU415.o LU416.o LU417.o LU418.o LU419.o LU420.o LU421.o LU422.o LU423.o LU424.o LU425.o LU426.o LU427.o LU428.o LU429.o LU430.o LU431.o LU432.o LU433.o LU434.o LU435.o LU436.o LU437.o LU438.o LU439.o LU440.o LU441.o LU442.o LU443.o LU444.o LU445.o LU446.o LU447.o LU448.o LU449.o LU450.o LU451.o LU452.o LU453.o LU454.o LU455.o LU456.o LU457.o LU458.o LU459.o LU460.o LU461.o LU462.o LU463.o LU464.o LU465.o LU466.o LU467.o LU468.o LU469.o LU470.o LU471.o LU472.o LU473.o LU474.o LU475.o LU476.o LU477.o LU478.o LU479.o LU480.o LU481.o LU482.o LU483.o LU484.o LU485.o LU486.o LU487.o LU488.o LU489.o LU490.o LU491.o LU492.o LU493.o LU494.o LU495.o LU496.o LU497.o LU498.o LU499.o LU500.o LU501.o LU502.o LU503.o LU504.o LU505.o LU506.o LU507.o LU508.o LU509.o LU510.o LU511.o LU512.o LU513.o LU514.o LU515.o LU516.o LU517.o LU518.o LU519.o LU520.o LU521.o LU522.o LU523.o LU524.o LU525.o LU526.o LU527.o LU528.o LU529.o LU530.o LU531.o LU532.o LU533.o LU534.o LU535.o LU536.o LU537.o LU538.o LU539.o LU540.o LU541.o LU542.o LU543.o LU544.o LU545.o LU546.o LU547.o LU548.o LU549.o LU550.o LU551.o LU552.o LU553.o LU554.o LU555.o LU556.o LU557.o LU558.o LU559.o LU560.o LU561.o LU562.o LU563.o LU564.o LU565.o LU566.o LU567.o LU568.o LU569.o LU570.o LU571.o LU572.o LU573.o LU574.o LU575.o LU576.o LU577.o LU578.o LU579.o LU580.o LU581.o LU582.o LU583.o LU584.o LU585.o LU586.o LU587.o LU588.o LU589.o LU590.o LU591.o LU592.o LU593.o LU594.o LU595.o LU596.o LU597.o LU598.o LU599.o LU600.o LU601.o LU602.o LU603.o LU604.o LU605.o LU606.o LU607.o LU608.o LU609.o LU610.o LU611.o LU612.o LU613.o LU614.o LU615.o LU616.o LU617.o LU618.o LU619.o LU620.o LU621.o LU622.o LU623.o LU624.o LU625.o LU626.o LU627.o LU628.o LU629.o LU630.o LU631.o LU632.o LU633.o LU634.o LU635.o LU636.o LU637.o LU638.o LU639.o LU640.o LU641.o LU642.o LU643.o LU644.o LU645.o LU646.o LU647.o LU648.o LU649.o LU650.o LU651.o LU652.o LU653.o LU654.o LU655.o LU656.o LU657.o LU658.o LU659.o LU660.o LU661.o LU662.o LU663.o LU664.o LU665.o LU666.o LU667.o LU668.o LU669.o LU670.o LU671.o LU672.o LU673.o LU674.o LU675.o LU676.o LU677.o LU678.o LU679.o LU680.o LU681.o LU682.o LU683.o LU684.o LU685.o LU686.o LU687.o LU688.o LU689.o LU690.o LU691.o LU692.o LU693.o LU694.o LU695.o LU696.o LU697.o LU698.o LU699.o LU700.o LU701.o LU702.o LU703.o LU704.o LU705.o LU706.o LU707.o LU708.o LU709.o LU710.o LU711.o LU712.o LU713.o LU714.o LU715.o LU716.o LU717.o LU718.o LU719.o LU720.o LU721.o LU722.o LU723.o LU724.o LU725.o LU726.o LU727.o LU728.o LU729.o LU730.o LU731.o LU732.o LU733.o LU734.o LU735.o LU736.o LU737.o LU738.o LU739.o LU740.o LU741.o LU742.o LU743.o LU744.o LU745.o LU746.o LU747.o LU748.o LU749.o LU750.o LU751.o LU752.o LU753.o LU754.o LU755.o LU756.o LU757.o LU758.o LU759.o LU760.o LU761.o LU762.o LU763.o LU764.o LU765.o LU766.o LU767.o LU768.o LU769.o LU770.o LU771.o LU772.o LU773.o LU774.o LU775.o LU776.o LU777.o LU778.o LU779.o LU780.o LU781.o LU782.o LU783.o LU784.o LU785.o LU786.o LU787.o LU788.o LU789.o LU790.o LU791.o LU792.o LU793.o LU794.o LU795.o LU796.o LU797.o LU798.o LU799.o LU800.o LU801.o LU802.o LU803.o LU804.o LU805.o LU806.o LU807.o LU808.o LU809.o LU810.o LU811.o LU812.o LU813.o LU814.o LU815.o LU816.o LU817.o LU818.o LU819.o LU820.o LU821.o LU822.o LU823.o LU824.o LU825.o LU826.o LU827.o LU828.o LU829.o LU830.o LU831.o LU832.o LU833.o LU834.o LU835.o LU836.o LU837.o LU838.o LU839.o LU840.o LU841.o LU842.o LU843.o LU844.o LU845.o LU846.o LU847.o LU848.o LU849.o LU850.o LU851.o LU852.o LU853.o LU854.o LU855.o LU856.o LU857.o LU858.o LU859.o LU860.o LU861.o LU862.o LU863.o LU864.o LU865.o LU866.o LU867.o LU868.o LU869.o LU870.o LU871.o LU872.o LU873.o LU874.o LU875.o LU876.o LU877.o LU878.o LU879.o LU880.o LU881.o LU882.o LU883.o LU884.o LU885.o LU886.o LU887.o LU888.o LU889.o LU890.o LU891.o LU892.o LU893.o LU894.o LU895.o LU896.o LU897.o LU898.o LU899.o LU900.o LU901.o LU902.o LU903.o LU904.o LU905.o LU906.o LU907.o LU908.o LU909.o LU910.o LU911.o LU912.o LU913.o LU914.o LU915.o LU916.o LU917.o LU918.o LU919.o LU920.o LU921.o LU922.o LU923.o LU924.o LU925.o LU926.o LU927.o LU928.o LU929.o LU930.o LU931.o LU932.o LU933.o LU934.o LU935.o LU936.o LU937.o LU938.o LU939.o LU940.o LU941.o LU942.o LU943.o LU944.o LU945.o LU946.o LU947.o LU948.o LU949.o LU950.o LU951.o LU952.o LU953.o LU954.o LU955.o LU956.o LU957.o LU958.o LU959.o LU960.o LU961.o LU962.o LU963.o LU964.o LU965.o LU966.o LU967.o LU968.o LU969.o LU970.o LU971.o LU972.o LU973.o LU974.o LU975.o LU976.o LU977.o LU978.o LU979.o LU980.o LU981.o LU982.o LU983.o LU984.o LU985.o LU986.o LU987.o LU988.o LU989.o LU990.o LU991.o LU992.o LU993.o LU994.o LU995.o LU996.o LU997.o LU998.o LU999.o -o Scimark2.exe -L"C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/lib" -L"C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/x86_64-w64-mingw32/lib" -static-libgcc -mcmodel=large -fPIC -Wl,--image-base -Wl,0x10000000C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.o: in function `check_managed_app':C:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:364:(.text+0x17): relocation truncated to fit: R_X86_64_PC32 against symbol `.refptr.mingw_initltsdrot_force' defined in .rdata$.refptr.mingw_initltsdrot_force[.refptr.mingw_initltsdrot_force] section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.oC:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:365:(.text+0x26): relocation truncated to fit: R_X86_64_PC32 against symbol `.refptr.mingw_initltsdyn_force' defined in .rdata$.refptr.mingw_initltsdyn_force[.refptr.mingw_initltsdyn_force] section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.oC:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:366:(.text+0x33): relocation truncated to fit: R_X86_64_PC32 against symbol `.refptr.mingw_initltssuo_force' defined in .rdata$.refptr.mingw_initltssuo_force[.refptr.mingw_initltssuo_force] section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.oC:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:367:(.text+0x40): relocation truncated to fit: R_X86_64_PC32 against symbol `.refptr.mingw_initcharmax' defined in .rdata$.refptr.mingw_initcharmax[.refptr.mingw_initcharmax] section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.oC:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:370:(.text+0x4d): relocation truncated to fit: R_X86_64_PC32 against symbol `.refptr.__image_base__' defined in .rdata$.refptr.__image_base__[.refptr.__image_base__] section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.oC:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.o: in function `pre_c_init':C:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:141:(.text+0x6a): relocation truncated to fit: R_X86_64_PC32 against symbol `.refptr.mingw_app_type' defined in .rdata$.refptr.mingw_app_type[.refptr.mingw_app_type] section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.oC:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:140:(.text+0x70): relocation truncated to fit: R_X86_64_PC32 against `.bss'C:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:144:(.text+0x80): relocation truncated to fit: R_X86_64_PC32 against symbol `__set_app_type' defined in .text section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/x86_64-w64-mingw32/lib/libmsvcrt.a(dwngs00096.o)C:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:146:(.text+0x85): relocation truncated to fit: R_X86_64_PC32 against symbol `__p__fmode' defined in .text section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/x86_64-w64-mingw32/lib/libmsvcrt.a(lib64_libmsvcrt_os_a-__p__fmode.o)C:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:146:(.text+0x8c): relocation truncated to fit: R_X86_64_PC32 against symbol `.refptr._fmode' defined in .rdata$.refptr._fmode[.refptr._fmode] section in C:/Program Files (x86)/Embarcadero/Dev-Cpp/TDM-GCC-64/bin/../lib/gcc/x86_64-w64-mingw32/9.2.0/../../../../x86_64-w64-mingw32/lib/../lib/crt2.oC:/crossdev/src/mingw-w64-v7-git20191109/mingw-w64-crt/crt/crtexe.c:152:(.text+0x95): additional relocation overflows omitted from the outputcollect2.exe: error: ld returned 1 exit statusC:DScimark2-Dev-Cpp-masterMakefile.win:25: recipe for target 'Scimark2.exe' failedmingw32-make.exe: *** [Scimark2.exe] Error 1

После тестирования становится очевидно, что препятствием, вызывающим данную ошибку, является ограничение в 2 ГБ на размер исполняемого файла (несмотря на использование -mcmodel=medium или -mcmodel=large). Мне удалось заставить компилироваться 100 файлов с 1 000 000 строк на файл, и сгенерировался исполняемый файл размером примерно 1,1 ГБ. Я начал использовать флаг -Os (оптимизирующий размер), и это сдвинуло проект немного вперёд. Здесь стоит заметить, что чем больше исполняемый файл, тем хуже бенчмарк Scimark2, и это интересно. Первая успешная компиляция 1 миллиарда строк из 1000 файлов по 1 000 000 строк с флагом -Os сгенерировала за 1483 секунд (24,7 минуты) исполняемый файл размером 359 МБ. Также я попробовал 500 файлов по 2 000 000 строк и компиляция заняла больше времени. Стандартный проект Scimark2 в четыре раза быстрее, чем проект с дополнительным 1 миллиардом строк, когда исполняемый файл больше и применяется флаг -Os.


500 файлов по 2 000 000 строк использовало до 156 ГБ, но не все 64 ядра.

Мне не кажется, что это время компиляции точно характеризует Threadripper 3990x, поскольку при 1 миллионе и 2 миллионах строк кода на файл использовались не все ядра. Не знаю, проблема ли это MAKE и G++, или параметра -j, при котором количество ядер выбирается автоматически. Возможно, даже существует узкое место ввода-вывода машины, не позволяющее ей справляться с нагрузкой. Чем мельче файлы, тем больше ядер использует комбинация из MAKE/G++ и -j. Я также попробовал сравнить работу с флагом -pipe и без него (он позволяет использовать во время компиляции вместо файлов конвейеры). Любопытно здесь и то, что TwineCompile в C++Builder, похоже, не имеет такого ограничения. При использовании его при параллельной компиляции мгновенно запускаются все ядра.

Четверная компиляция


Попытавшись ускорить компиляцию 1 миллиарда строк кода на C++, я загрузил 4 экземпляра Dev-C++ с 250 файлами по 1 000 000 строк в проекте и скомпилировал все четыре проекта одновременно. Это похоже на проект с 1 миллиардом строк на Object Pascal, потому что в нём компилировалось 250 проектов с 4 миллионами строк кода на проект. Ниже показаны результаты четверной компиляции.


Четыре экземпляра Dev-C++



Примечание: на этом скриншоте есть баг отображается всего 32 ядра и 64 потока, хотя на самом деле должно быть 64 ядра и 128 потоков.





Результаты компиляции


  • Ошибок: 0
  • Предупреждений: 0
  • Файл вывода: C:DScimark2-Dev-Cpp-master_250_1m_DScimark2.exe
  • Размер вывода: 90,0009765625 МиБ
  • Время компиляции: 906,58 с

Результаты компиляции


  • Ошибки: 0
  • Предупреждения: 0
  • Файл вывода: C:DScimark2-Dev-Cpp-master_250_1m_CScimark2.exe
  • Размер вывода: 90,0009765625 МиБ
  • Время компиляции: 909,45 с

Результаты компиляции


  • Ошибки: 0
  • Предупреждения: 0
  • Файл вывода: C:DScimark2-Dev-Cpp-master_250_1m_AScimark2.exe
  • Размер вывода: 90,0009765625 МиБ
  • Время компиляции: 915,17 с

Результаты компиляции


  • Ошибки: 0
  • Предупреждения: 0
  • Файл вывода: C:DScimark2-Dev-Cpp-master_250_1m_BScimark2.exe
  • Размер вывода: 90,0009765625 МиБ
  • Время компиляции: 918,05 с


1 миллиард строк кода на C++ за 15 минут на AMD Threadripper 3990X


Этот проект был очень интересным. Есть целая куча флагов C++ для компилятора TDM-GCC наподобие -mtune=native, -mtune=znver2 и -mtune=znver3, которые я в этой конфигурации не пробовал. Как мы увидели из поста, программная поддержка современной машины с 64 ядрами и 128 потоками всё ещё требует совершенствования, но в целом работает и обеспечивает довольно серьёзную вычислительную мощь.



На правах рекламы


Прямо сейчас вы можете заказать мощные серверы, которые используют новейшие процессоры AMD Epyc. Гибкие тарифы от 1 ядра CPU до безумных 128 ядер CPU, 512 ГБ RAM, 4000 ГБ NVMe.

Подробнее..

Перевод NVIDIA Ampere против AMD RDNA 2 битва архитектур

05.03.2021 14:13:31 | Автор: admin

Спустя два года после запуска Turing в сентябре 2020 года NVIDIA сменила архитектуру своих видеокарт на Ampere. AMD не осталась в стороне и вскоре после этого тоже обновила архитектуру RDNA до второй версии.

Всем хотелось, чтобы новые видеокарты RX 6000 могли составить конкуренцию лучшим продуктам NVIDIA. И теперь, когда обе серии вышли в продажу, геймеры оказались избалованы выбором (по крайней мере, теоретически), куда вложить свои деньги.

Но что насчет чипов, лежащих в их основе? Какой из них лучше?

Размеры кристаллов

На протяжении долгих лет графические процессоры были больше центральных и продолжают неуклонно расти. Площадь последнего ГП AMD составляет примерно 520 мм2, что более чем в два раза больше их предыдущего чипа Navi. При этом он все еще не самый большой: эта честь принадлежит графическому процессору в новом ускорителе Instinct MI100 с площадью порядка 750 мм2.

В последний раз AMD производила игровой процессор размером примерно с Navi 21 для карт Radeon R9 Fury и Nano, которые имели архитектуру GCN 3.0 в чипе Fiji. Его площадь составляла 596 мм2.

С 2018 года AMD использует в работе 7-нм процесс от TSMC, и самым большим чипом из этой производственной линейки был Vega 20 (из Radeon VII) с площадью 331 мм2. Все графические процессоры Navi созданы на основе слегка обновленной версии этого процесса, называемой N7P.

И все же, что касается размеров кристалла, корона остается за NVIDIA, но не то чтобы это было хорошо. Последний чип на базе Ampere, GA102, имеет площадь 628 мм2. Это примерно на 17% меньше, чем у его предка, TU102: он имел ошеломляющую площадь кристалла в 754 мм2. Но все это ничто по сравнению с монструозным чипом NVIDIA GA100: используемый в ИИ и обработке данных, этот 7-нм графический процессор имеет площадь 826 мм2. Он наглядно показывает, каких размеров может достичь графический процессор.

По сравнению с ГП NVIDIA Navi 21 выглядит довольно стройно, хотя стоит помнить, что процессор это не только кристалл. GA102 содержит около 28,3 миллиарда транзисторов, тогда как новый чип AMD на 5% меньше 26,8 миллиарда.

Мы не знаем, из скольких слоев состоит каждый из этих ГП, поэтому все, что мы можем сравнить, это отношение транзисторов к площади кристалла, обычно называемое плотностью кристалла. Navi 21 имеет примерно 51,5 млн транзисторов на квадратный мм, в GA102 она заметно ниже 41,1 млн.

Navi 21 производится у TSMC в соответствии с процессом N7P, который дает небольшое увеличение производительности по сравнению с N7. Свои новые чипы GA102 NVIDIA предпочла производить у Samsung. В них используется модифицированная специально для NVIDIA версия так называемого 8-нм узла (обозначаемого как 8N или 8NN). Значения узлов 7 и 8 имеют мало общего с фактическим размером компонентов: это просто маркетинговые термины, используемые для различения производственных технологий.

Теперь давайте углубимся в компоновку каждого графического процессора и посмотрим, что находится у них под капотами.

Внутри кристаллов

Общая структура Ampere GA102 и RDNA 2 Navi 21

Схемы ниже не обязательно показывают, как все устроено физически, но они дают четкое представление о том, из каких компонентов состоят процессоры.

В обоих случаях макеты очень знакомы, поскольку они по сути являются расширенными версиями своих предшественников. Добавление большего количества компонентов повышает производительность, что особенно полезно при условии, что при высоких разрешениях в современных 3D-приложениях рабочие нагрузки рендеринга включают огромное число параллельных вычислений.

Такие схемы полезны, но для нашего анализа интереснее посмотреть, где находятся различные компоненты внутри самих кристаллов. При проектировании крупномасштабного процессора обычно требуется, чтобы общие ресурсы, такие как контроллеры и кэш, находились в центре, чтобы гарантировать, что все компоненты имеют одинаковый путь к ним.

Интерфейсные системы вроде контроллеров локальной памяти или видеовыходов должны располагаться по краям микросхемы, чтобы упростить их подключение к тысячам отдельных проводов, соединяющих графический процессор с остальной частью карты.

Ниже приведены изображения кристаллов AMD Navi 21 и NVIDIA GA102 в искусственных цветах. Оба изображения были подчищены и показывают только один слой внутри чипа, однако при этом дают хорошее представление о внутренностях современного графического процессора

Наиболее очевидное различие между конструкциями заключается в том, что NVIDIA не следует централизованному подходу к компоновке микросхем: все системные контроллеры и основной кэш находятся внизу, а логические блоки расположены в длинных столбцах. Они проделывали это и раньше, но только с моделями среднего и нижнего ценового сегмента.

Например, Pascal GP106 (используемый в GeForce GTX 1060) был буквально вдвое меньше GP104 (из GeForce GTX 1070). В более ранней версии размер кристалла был больше, а кэш-память и контроллер располагались посередине. У младшего брата они переместились в сторону.

Pascal GP104 и GP106Pascal GP104 и GP106

Для всех предыдущих топовых ГП NVIDIA использовала классическую централизованную компоновку. Зачем же было менять подход? Интерфейсы здесь ни при чем, ведь контроллеры памяти и PCI Express работают на краю кристалла. С тепловыми проблемами это тоже не связано, ведь даже если кэш-часть или контроллер кристалла будут нагреваться сильнее, чем логические секции, вам наверняка захочется, чтобы посередине схемы было больше теплопоглощающего кремния. Хотя причина этого изменения не вполне понятна, есть подозрение, что она связана с реализацией блоков вывода рендеринга (ROP).

Позже мы рассмотрим их более подробно, а пока просто скажем, что, хотя изменение макета выглядит странно, оно не оказывает существенного влияния на производительность. Это связано с тем, что 3D-рендеринг сопровождается большим количеством длительных задержек как правило, из-за необходимости ожидания данных. Таким образом, дополнительные наносекунды, добавленные за счет того, что некоторые логические блоки находятся дальше от кэша, скрываются в общей схеме чипа.

Прежде чем мы продолжим, стоит отметить инженерные изменения, реализованные AMD в компоновке Navi 21 по сравнению с Navi 10, установленном в Radeon RX 5700 XT. Несмотря на то, что новый чип в два раза больше предыдущего как по площади, так и по количеству транзисторов, разработчикам удалось улучшить тактовые частоты без значительного увеличения энергопотребления. Например, Radeon RX 6800 XT имеет базовую частоту и частоту разгона 1825 и 2250 МГц, соответственно, при TDP, равном 300 Вт. Те же показатели для Radeon RX 5700 XT: 1605 МГц, 1905 МГц и 225 Вт.

Исследование производительности на ватт карт Ampere и RDNA 2 показало, что оба производителя добились значительных улучшений в этой области, но AMD и TSMC достигли чего-то весьма примечательного сравните разницу между Radeon RX 6800 и Radeon VII на графике выше.

Radeon VII первая коллаборация AMD и TSMC с использованием 7-нм технологии, и менее чем за два года они увеличили производительность на ватт на 64%. Отсюда возникает вопрос: насколько лучше мог бы быть Ampere GA102, если бы NVIDIA осталась с TSMC.

Управление ГП

Как все устроено внутри чипов

Драйверы, которые AMD и NVIDIA создают для своих чипов, по сути работают как трансляторы: они преобразуют процедуры, выданные через API, в последовательность операций, понятную графическим процессорам. Затем все зависит от аппаратного обеспечения: какие инструкции выполняются в первую очередь, какая часть микросхемы их выполняет и так далее.

Этот начальный этап управления инструкциями обрабатывается набором модулей в микросхеме. В RDNA 2 графические и вычислительные шейдеры маршрутизируются через отдельные конвейеры, которые планируют и отправляют инструкции остальной части микросхемы: первый называется Graphics Command Processor, второй асинхронными вычислительными блоками (ACE).

Графические процессоры достигают высокой производительности за счет параллельного выполнения задач, поэтому следующий уровень организации дублируется в чипе. Если проводить аналогию с реальным заводом, это будет похоже на компанию с центральным офисом в одном месте, но производством в нескольких других местах.

AMD называет это Shader Engine (SE), тогда как в NVIDIA они имеют название графических кластеров (GPC): названия разные, но суть одна.

Причина такого разделения проста: блоки обработки графики просто не могут справиться со всем и сразу. Так что имеет смысл продвинуть некоторые обязанности по планированию и организации дальше. Это также означает, что каждый блок может делать что-то независимо от других: скажем, один обрабатывать графические, другой вычислительные шейдеры.

В случае RDNA 2 каждый SE содержит собственный набор фиксированных функциональных блоков схем, предназначенных для выполнения одной конкретной задачи:

  • Блок Primitive Setup подготавливает вершины к обработке, а также генерирует больше вершин (тесселяция) и отбраковывает их;

  • Растеризатор преобразует трехмерный мир треугольников в двухмерную сетку пикселей;

  • Блоки вывода рендеринга (ROP) считывают, записывают и смешивают пиксели.

Блок Primitive Setup работает с частотой 1 треугольник за такт. Параметр может показаться не очень большим, но не забывайте, что эти чипы работают на частотах между 1,8 и 2,2 ГГц, и эта настройка не должна оказываться узким местом ГП. Для Ampere этот блок находится на следующем уровне организации, и об этом мы еще поговорим позже.

Ни AMD, ни NVIDIA не особенно распространяются о своих растеризаторах. NVIDIA называют их Raster Engines. Мы знаем, что они обрабатывают 1 треугольник за такт, но больше никакой информации о них нет например, о субпиксельной точности.

Каждый SE в чипе Navi 21 содержит 128 ROP; GA102 от NVIDIA включает в себя 112 ROP. Может показаться, что у AMD здесь есть преимущество, ведь большее количество ROP означает, что за такт может обрабатываться больше пикселей. Но такие устройства нуждаются в хорошем доступе к кэш-памяти и локальной памяти, и мы поговорим об этом позже в этой статье. А пока давайте дальше рассмотрим на разделение SE/GPC.

Shader Engines AMD разделены на то, что они сами называют двойными вычислительными блоками (DCU), при этом чип Navi 21 использует десять DCU для каждого SE обратите внимание, что в некоторых документах они также классифицируются как Workgroup Processors (WGP). В случае Ampere и GA102 они называются кластерами обработки текстур (TPC), причем каждый графический процессор содержит 6 TPC. Они также работают со скоростью 1 треугольник за такт, и хотя графические процессоры NVIDIA работают на меньшей частоте, чем AMD, и у них намного больше TPC, чем у Navi 21 SE. Таким образом, при той же тактовой частоте GA102 имеет здесь заметное преимущество, поскольку весь чип содержит 42 блока Primitive Setup, тогда как новый RDNA 2 от AMD только 4. Но поскольку на один Raster Engine приходится шесть TPC, GA102 фактически имеет 7 систем примитивов, в то время как Navi 21 четыре. Кажется, что NVIDIA имеет здесь явное лидерство.

Последний уровень организации чипов вычислительные блоки (CU) в RDNA 2 и потоковые мультипроцессоры (SM) в Ampere производственные линии в наших ГП-заводах.

В значительной степени они составляют основную начинку ГП, поскольку содержат все программируемые блоки, используемые для обработки графики, вычислений, а теперь еще и трассировки лучей. На изображении выше видно, что каждый из них занимает очень небольшую часть общего пространства кристалла, но они по-прежнему чрезвычайно сложны и очень важны для общей производительности чипа.

Итак, номенклатура у чипов разная, но функции во многом схожи. И поскольку многое из того, что они делают, ограничивается программируемостью и гибкостью, любые преимущества одного из них по сравнению с другим сводятся к простому ощущению масштаба.

Но в случае с CU и SM AMD и NVIDIA используют разные подходы к обработке шейдеров. И пусть в некоторых областях у них много общего, но много и различий.

Подсчет ядер по методу NVIDIA

Если Turing имела множество существенных отличий от Pascal, то Ampere кажется довольно мягким обновлением предыдущей архитектуры по крайней мере, на первый взгляд. Впрочем, мы точно знаем, что по сравнению с Turing новая архитектура имеет более чем в два раза большее количество ядер CUDA в каждом SM.

В Turing потоковые мультипроцессоры содержат четыре раздела (иногда называемых блоками обработки), каждый из которых содержит логические блоки 16x INT32 и 16x FP32. Эти схемы предназначены для выполнения очень специфических математических операций с 32-битными значениями данных: блоки INT обрабатывают целые числа, а FP числа с плавающей запятой.

NVIDIA заявляет, что SM Ampere имеет в общей сложности 128 ядер CUDA, но, строго говоря, это неправда или с таким же успехом можно считать, что у Turing их было столько же. Блоки INT32 действительно могли обрабатывать значения с плавающей запятой, но только в очень небольшом количестве простых операций. Для Ampere NVIDIA увеличила поддерживаемый диапазон математических операций с плавающей запятой, чтобы соответствовать другим модулям FP32. Это означает, что общее количество ядер CUDA на SM действительно не изменилось, просто половина из них теперь имеет больше возможностей.

Поскольку блоки INT/FP могут работать независимо, SM Ampere может обрабатывать до 128 вычислений FP32 за цикл или 64 операций FP32 и 64 операций INT32 одновременно. Turing же умела делать только последнее.

Таким образом, новый графический процессор может потенциально вдвое увеличить производительность FP32 по сравнению с предшественником. Для вычислительных рабочих нагрузок это большой шаг вперед, но для игр польза окажется гораздо меньшей. Это стало очевидно после тестирования GeForce RTX 3080, в которой используется чип GA102 с 68 включенными SM.

Несмотря на то, что пиковая пропускная способность FP32 составляет 121% по сравнению с GeForce 2080 Ti, в среднем она увеличивает частоту кадров только на 31%. Так почему же вся эта вычислительная мощность тратится зря?

Простой ответ: зря она не тратится, просто игры не всегда запускают инструкции FP32.

Когда NVIDIA выпустила Turing в 2018 году, компания отметила, что в среднем около 36% инструкций, обрабатываемых графическим процессором, связаны с процедурами INT32. Эти вычисления обычно выполняются для определения адресов памяти, сравнения двух значений и логического управления.

Таким образом, для этих операций функция двойной скорости FP32 не используется, поскольку блоки с двумя путями данных могут работать только с целыми числами или с плавающей запятой. SM переключится в этот режим только в том случае, если все выстроенные в очередь 32 потока, обрабатываемые им в данный момент, выполняют одну и ту же операцию FP32. Во всех остальных случаях SM в Ampere работают так же, как и в Turing.

Это означает, что GeForce RTX 3080 имеет только 11-процентное преимущество FP32 над 2080 Ti при работе в режиме INT+FP. Вот почему реальный прирост производительности в играх не так высок, как предполагают исходные данные.

Какие тут еще улучшения? На каждый SM приходится меньше тензорных ядер, но каждое из них оказывается намного более мощным, чем в Turing. Эти схемы выполняют очень специфические вычисления (например, умножают два значения FP16 и складывают ответ с другим FP16), и теперь каждое ядро выполняет 32 таких операции за цикл.

Также есть поддержка новой функции Fine-Grained Structured Sparsity. Если кратко, то с ее помощью математическая скорость может быть удвоена путем удаления данных, которые не влияют на ответ. Опять же, это хорошая новость для профессионалов, работающих с нейронными сетями и искусственным интеллектом, но на данный момент в этом нет никаких значительных преимуществ для игровых разработчиков.

Ядра трассировки лучей также претерпели доработки: теперь они могут работать независимо от ядер CUDA, поэтому, пока они выполняют обход BVH или математику пересечения примитивов лучей, остальная часть SM все еще может обрабатывать шейдеры. Часть ядер трассировки лучей, отвечающая за проверку пересечений, также имеет вдвое большую производительность.

Ядра трассировки лучей также оснащены дополнительным оборудованием, которое помогает применять трассировку лучей к размытию движения, но эта функция в настоящее время доступна только через собственный Optix API от NVIDIA.

Есть и другие хитрости, но в целом подход основан на разумной, но неуклонной эволюции, а не на совершенно новом дизайне. Но учитывая, что в исходных возможностях Turing с самого начала не было ничего особенно плохого, это и неудивительно.

Что же насчет AMD что они сделали с вычислительными модулями в RDNA 2?

Трассировка лучей по-особенному

На первый взгляд, AMD не сильно изменила вычислительные блоки: они по-прежнему содержат два набора векторных блоков SIMD32, скалярный блок SISD, блоки наложения текстур и стек различных кэшей. Произошли некоторые изменения в отношении того, какие типы данных и связанные с ними математические операции они могут выполнять. Но наиболее заметным изменением для обычного потребителя является то, что AMD теперь предлагает аппаратное ускорение для определенных процедур трассировки лучей.

Эта часть вычислительных блоков выполняет проверки пересечения лучевого бокса или лучевого треугольника то же самое, что и ядра трассировки лучей в Ampere. Однако последние также ускоряют алгоритмы обхода BVH, тогда как в RDNA 2 это делается с помощью вычислительных шейдеров с использованием модулей SIMD 32.

Независимо от того, сколько у вас шейдерных ядер или насколько высоки их тактовые частоты, использование специализированных схем, предназначенных для выполнения только одной задачи, всегда будет предпочтительнее, чем обобщенный подход. Именно поэтому и были изобретены графические процессоры: все в мире рендеринга можно сделать с помощью ЦП, но общий характер делает их непригодными для графических применений.

Блоки Ray Accelerator находятся рядом с текстурными процессорами, поскольку они фактически являются частью одной и той же структуры. Хотя эта система действительно предлагает большую гибкость и устраняет необходимость в том, чтобы части кристалла занимались только трассировкой лучей и ничем другим одновременно с ней, первая реализация ее имеет некоторые недостатки. Наиболее примечательным из них является то, что текстурные процессоры могут обрабатывать только операции, связанные с текстурами или пересечениями примитивов лучей. Учитывая, что ядра трассировки лучей NVIDIA теперь работают полностью независимо от остальной части SM, это дает Ampere явное преимущество по сравнению с RDNA 2 в проработке структур ускорения и тестах пересечений, необходимых для трассировки лучей.

Пока производительность трассировки лучей в новейших видеокартах AMD была исследована лишь вкратце, но уже заметно, что влияние трассировки лучей очень зависит от игры.

Например, в Gears 5 видеокарта Radeon RX 6800 (в которой используется вариант графического процессора Navi 21 с 60 CU) при включении трассировки лучей снизила частоту кадров только на 17%, тогда как в Shadow of the Tomb Raider аж на 52%. Для сравнения, у NVIDIA RTX 3080 (с использованием 68 SM GA102) средняя потеря частоты кадров в этих двух играх составила 23% и 40% соответственно.

Чтобы больше рассказать о реализации AMD, необходим более подробный анализ трассировки лучей, однако в качестве первой итерации технологии она кажется вполне конкурентоспособной, но чувствительной к тому, какое приложение выполняет трассировку.

Как упоминалось ранее, вычислительные блоки в RDNA 2 теперь поддерживают больше типов данных: наиболее заметными из них являются типы данных с низкой точностью, такие как INT4 и INT8. Они используются для тензорных операций в алгоритмах машинного обучения, и хотя AMD имеет отдельную архитектуру (CDNA) для ИИ и центров обработки данных, это обновление предназначено для использования с DirectML.

Этот API является недавним дополнением к семейству Microsoft DirectX 12. Комбинация аппаратного и программного обеспечения обеспечивает лучшее ускорение шумоподавления в алгоритмах трассировки лучей и временного масштабирования. В случае с последним у NVIDIA, конечно же, есть своя технология под названием DLSS. Она использует тензорные ядра в SM для выполнения части вычислений но учитывая, что аналогичный процесс может быть построен и через DirectML, может показаться, что эти компоненты в некоторой степени избыточны. Однако и в Turing, и в Ampere тензорные ядра также обрабатывают все математические операции, связанные с форматами данных FP16.

В RDNA 2 такие вычисления выполняются с использованием шейдерных блоков и упакованных форматов то есть, каждый 32-битный векторный регистр содержит два 16-битных.

Какой же подход лучше?

AMD преподносит свои блоки SIMD32 как векторные процессоры, поскольку они выдают одну инструкцию для нескольких значений данных. Один векторный блок содержит 32 потоковых процессора, и поскольку каждый из них работает только с одним фрагментом данных, по факту операции носят скалярный характер. По сути, это то же самое, что и SM в Ampere, где каждый блок обработки также применяет одну инструкцию для 32 значений данных.

Но если у NVIDIA весь SM может обрабатывать до 128 вычислений FMA FP32 за цикл , один вычислительный блок RDNA 2 производит только 64 таких вычисления. Использование FP16 увеличивает это значение до 128 FMA за цикл, что совпадает с тем, что делают тензорные ядра в Ampere при стандартных вычислениях FP16.

SM NVIDIA могут выполнять инструкции для одновременной обработки целочисленных значений и значений с плавающей запятой (например, 64 FP32 и 64 INT32) и имеют независимые блоки для операций FP16, тензорной математики и процедур трассировки лучей. Блоки управления AMD выполняют большую часть рабочей нагрузки блоков SIMD32, хотя у них есть отдельные скалярные блоки, которые поддерживают простую целочисленную математику.

Таким образом, может показаться, что у Ampere здесь преимущество: у GA102 больше SM, чем у Navi 21, и у них больше возможностей, когда дело доходит до пиковой пропускной способности, гибкости и предлагаемых функций. Но у AMD есть свой джокер в рукаве.

Система памяти и многоуровневые кэши

Давайте сначала взглянем на Ampere. В целом, внутри произошли некоторые заметные изменения: объем кэша 2-го уровня увеличился на 50% (Turing TU102 имел 4096 КБ, соответственно), а кэши 1-го уровня в каждом SM увеличились вдвое.

Как и раньше, кэш-память L1 здесь настраивается с точки зрения того, сколько места в кэше можно выделить для данных, текстур или общих вычислений. Для графических шейдеров (например, вершинных или пиксельных) и асинхронных вычислений кэш фактически установлен на:

  • 64 КБ для данных и текстур;

  • 48 КБ для общей памяти;

  • 16 КБ для конкретных операций.

Остальная часть внутренней памяти осталась прежней, но за пределами графического процессора ждет приятный сюрприз. NVIDIA стала работать с Micron и теперь использует модифицированную версию GDDR6 для своих потребностей в локальной памяти. По сути, это тот же GDDR6, но шина данных полностью заменена. Вместо того, чтобы использовать обычную настройку 1 бит на вывод, при которой сигнал очень быстро колеблется между двумя значениями напряжения (PAM), GDDR6X использует четыре значения напряжения:

PAM2 в GDDR6 (сверху) и PAM4 в GDDR6X (снизу)PAM2 в GDDR6 (сверху) и PAM4 в GDDR6X (снизу)

Благодаря этому GDDR6X эффективно передает 2 бита данных на вывод за цикл, поэтому при той же тактовой частоте и количестве выводов полоса пропускания удваивается. GeForce RTX 3090 поддерживает 24 модуля GDDR6X, работающих в одноканальном режиме и рассчитанных на 19 Гбит/с, что дает пиковую пропускную способность 936 ГБ/с. Это на 52% больше, чем у GeForce RTX 2080 Ti. Таких показателей пропускной способности в прошлом можно было достигнуть только при помощи HBM2, реализация которого может быть куда более дорогостоящей, чем GDDR6.

Однако такую память производит только Micron, а использование PAM4 добавляет дополнительной сложности производственному процессу, требуя гораздо более жестких допусков при передаче сигналов. AMD пошла по другому пути: вместо того, чтобы обращаться за помощью к стороннему поставщику, они использовали свое подразделение ЦП, чтобы изобрести что-то новое. Общая система памяти в RDNA 2 не сильно преобразилась по сравнению с предшественницей но есть два существенных изменения.

Каждый шейдерный движок теперь имеет два набора кэшей первого уровня. Но как можно втиснуть в графический процессор 128 МБ кэш-памяти третьего уровня? Используя конструкцию SRAM для кэша L3, AMD встроила в чип два набора кэш-памяти высокой плотности объемом 64 МБ. Транзакции данных обрабатываются 16 наборами интерфейсов, каждый из них сдвигает 64 байта за такт.

Так называемый Infinity Cache имеет свой собственный тактовый домен и может работать на частоте 1,94 ГГц, что дает пиковую внутреннюю пропускную способность 1986,6 ГБ/с. И поскольку это не внешняя DRAM, задержки здесь исключительно низкие. Такой кэш идеально подходит для хранения структур ускорения трассировки лучей, и поскольку обход BVH включает в себя множество проверок данных, Infinity Cache должен в этом особенно помочь.

На данный момент не ясно, работает ли кеш третьего уровня в RDNA 2 так же, как в ЦП Zen 2: то есть, как кэш жертвы (victim cache) второго уровня. Обычно, когда необходимо очистить последний уровень кэша, чтобы освободить место для новых данных, любые новые запросы этой информации должны поступать в DRAM.

В кэше жертвы хранятся данные, помеченные для удаления из следующего уровня памяти, и имея под рукой 128 МБ, Infinity Cache потенциально может хранить 32 полных набора кэша L2. Эта система снижает нагрузку на контроллеры GDDR6 и DRAM.

Старые конструкции графических процессоров AMD боролись с нехваткой внутренней пропускной способности особенно после увеличения тактовой частоты, но дополнительный кэш во многом поможет при решении этой проблемы.

Так что же лучше?

Использование GDDR6X дает GA102 огромную полосу пропускания для локальной памяти, а большие кэши помогают уменьшить влияние промахов кэша. Массивная кэш-память 3-го уровня Navi 21 позволяет реже использовать DRAM, при этом графический процессор может работать на более высоких тактовых частотах без дефицита данных.

Решение AMD придерживаться GDDR6 означает, что сторонним поставщикам доступно больше источников памяти, в то время как любая компания, производящая GeForce RTX 3080 или 3090, будет вынуждена использовать Micron. И хотя GDDR6 поставляется с модулями различной плотности, GDDR6X в настоящее время ограничен 8 Гб.

Система кэширования в RDNA 2, возможно, является лучшим подходом, чем та, что используется в Ampere, поскольку использование нескольких уровней встроенной SRAM всегда обеспечивает более низкие задержки и лучшую производительность для заданного диапазона мощности, чем внешняя DRAM, независимо от пропускной способности последней.

Пайплайны рендеринга

Обе архитектуры содержат множество обновлений для фронтэнда и бэкэнда пайплайнов рендеринга. Ampere и RDNA 2 полностью поддерживают mesh-шейдеры и variable rate-шейдеры в DirectX12 Ultimate, хотя чип NVIDIA обладает большей геометрической производительностью благодаря большему количеству процессоров для этих задач.

Хотя использование mesh-шейдеров позволит разработчикам создавать еще более реалистичное окружение, ни в одной игре никогда не будет полной привязки производительности к этому этапу процесса рендеринга. Это связано с тем, что основная часть самой сложной работы приходится на этапы трассировки пикселей или лучей.

Именно здесь вступает в игру использование variable rate-шейдеров. В основном этот процесс включает применение шейдеров для освещения и цвета на блоке пикселей, а не на отдельных пикселях. Это похоже на уменьшение разрешения игры для повышения производительности, но, поскольку его можно применить только к выбранным областям, потеря визуального качества не всегда очевидна.

Обе архитектуры также получили обновление для блоков вывода рендеринга (ROP), поскольку это улучшит производительность при высоких разрешениях независимо от того, используются ли variable rate-шейдеры. Во всех предыдущих поколениях своих графических процессоров NVIDIA привязывала ROP к контроллерам памяти и кэшу 2-го уровня.

В Turing восемь блоков ROP были напрямую связаны с одним контроллером и фрагментом кэша размером 512 КБ. Добавление большего количества ROP представляется проблематичным, поскольку для этого требуется больше контроллеров и кэша, поэтому для Ampere ROP теперь полностью выделены для GPC. GA102 поддерживает 12 ROP на один GPC (каждый обрабатывает 1 пиксель за такт), что дает в общей сложности 112 блоков для всего чипа.

AMD следует системе, аналогичной старому подходу NVIDIA (т. е. привязке к контроллеру памяти и кэш-памяти L2), хотя их ROP в основном используют кэш первого уровня для чтения/записи и смешивания пикселей. В чипе Navi 21 ROP теперь обрабатывает 8 пикселей за цикл в 32-битном цвете и 4 пикселя в 64-битном.

RTX IO в NVIDIA система обработки данных, которая позволяет графическому процессору напрямую обращаться к накопителю, копировать необходимые данные, а затем распаковывать их с помощью ядер CUDA.

Современные методы предполагают, что всем этим управляет центральный процессор: он получает запрос данных от драйверов графического процессора, копирует данные с накопителя в системную память, распаковывает их, а затем копирует в DRAM графической карты.

Этот механизм по своей природе является последовательным: ЦП обрабатывает один запрос за раз. NVIDIA заявляет о таких цифрах, как 100-кратная пропускная способность и 20-кратное снижение нагрузки на ЦП, но до тех пор, пока система не будет протестирована в реальных условиях, их никак нельзя будет исследовать дальше.

Когда AMD представила RDNA 2 и новые видеокарты Radeon RX 6000, вместе с ними была представлена и так называемая Smart Access Memory. Это не ответ на RTX IO на самом деле, это даже не новая функция. По умолчанию контроллер PCI Express в ЦП может адресовать до 256 МБ памяти видеокарты для каждого отдельного запроса доступа. Это значение устанавливается размером регистра базового адреса (BAR), и еще в 2008 году в спецификации PCI Express 2.0 была дополнительная функция, позволяющая изменять его размер. Преимущество его состоит в том, что нет нужды обрабатывать большое количество запросов на доступ, чтобы адресовать всю DRAM карты.

Функция требует поддержки операционной системой, центральным процессором, материнской платой, графическим процессором и его драйверами. В настоящее время на ПК с Windows система ограничена определенной комбинацией процессоров Ryzen 5000, материнских плат серии 500 и видеокарт Radeon RX 6000.

Эта простая функция дала поразительные результаты на тестах: повышение производительности на 15% при разрешении 4K. Неудивительно, что вскоре NVIDIA заявила, что реализует эту функцию для RTX 3000 в ближайшем будущем.

Мультимедиа-движок и видеовыход

Обе архитектуры обеспечивают вывод изображения через HDMI 2.1 и DisplayPort 1.4a. Первый предлагает более широкую полосу пропускания сигнала, но оба они рассчитаны на 4K при 240 Гц с HDR и 8K при 60 Гц. Это достигается при помощи либо цветовой субдискретизации 4:2:0, либо DSC 1.2a. Это алгоритмы сжатия видеосигнала, обеспечивающие значительное снижение требований к полосе пропускания без большой потери визуального качества. Без них даже пиковой пропускной способности HDMI 2.1 в 6 ГБ/с было бы недостаточно для передачи изображений 4K с частотой 6 Гц.

48-дюймовый OLED-монитор LG CK: 4K при 120 Гц требует HDMI 2.148-дюймовый OLED-монитор LG CK: 4K при 120 Гц требует HDMI 2.1

Ampere и RDNA 2 также поддерживают системы с переменной частотой обновления (FreeSync для AMD, G-Sync для NVIDIA), в кодировании и декодировании видеосигналов между ними также нет заметной разницы.

Независимо от того, какой процессор рассматривать, в обоих есть поддержка декодирования 8K AV1, 4K H.264 и 8K H.265, хотя и еще не было тщательно изучено, насколько хорошо они оба работают в таких ситуациях. Ни одна из компаний не раскрывает подробностей о внутреннем устройстве в этих областях. Какими бы важными они ни были в наши дни, все внимание по-прежнему привлекают другие аспекты графических процессоров.

Созданы для вычислений, созданы для игр

Раньше AMD и NVIDIA использовали разные подходы к выбору архитектуры и конфигурации. Но по мере того, как 3D-графика набирала все большую популярность, они становились все более похожими.

На данный момент у NVIDIA есть три чипа, использующих технологию Ampere: GA100, GA102 и GA104.

GA104 используется в GeForce RTX 3060 TiGA104 используется в GeForce RTX 3060 Ti

Последний урезанная версия GA102. GA100 совсем другое дело.

В нем нет ядер трассировки лучей и CUDA с поддержкой INT32+FP32 вместо этого он содержит множество дополнительных модулей FP64, еще больше load/store систем и огромный объем кэш-памяти L1/L2. Все это объясняется тем, что он разработан для вычислений ИИ и анализа данных.

GA102/104, в свою очередь, должны охватывать все остальные рынки, на которые нацелена NVIDIA: геймеров, профессиональных графических художников и инженеров, а также маломасштабный ИИ и вычислительные системы. Ampere должен быть мастером на все руки а это задача не из легких.

Arcturus CDNA площадью 750 мм2Arcturus CDNA площадью 750 мм2

RDNA 2 была разработана только для игр на ПК и консолях, хотя могла с таким же успехом работать в тех же областях, что и Ampere. Однако AMD решила сохранить свою архитектуру GCN и обновить ее в соответствии с требованиями сегодняшних клиентов.

Там, где RDNA 2 породила Big Navi, можно сказать, что CDNA породила Big Vega: в Instinct MI100 находится их чип Arcturus 50-миллиардный транзисторный графический процессор с 128 вычислительными блоками.

Хотя NVIDIA в значительной степени доминирует на профессиональном рынке с моделями Quadro и Tesla, Navi 21 просто не нацелена на конкуренцию с ними. Ограничивает ли это каким-либо образом требование, чтобы Ampere вписалась на несколько рынков?

Правильный ответ: нет.

Скоро AMD выпустит Radeon RX 6900 XT, в котором используется полная версия Navi 21 (без отключенных CU), которая сможет работать так же хорошо, как GeForce RTX 3090 или даже лучше. Но GA102 на этой карте также не полностью включен, поэтому у NVIDIA всегда есть возможность обновить эту модель до супер-версии, как они это сделали с Turing в прошлом году.

Можно утверждать, что, поскольку RDNA 2 используется в Xbox Series X/S и PlayStation 5, разработчики игр будут отдавать предпочтение этой архитектуре для своих игровых движков. Но стоит просто вспомнить времена, когда GCN использовался в Xbox One и PlayStation 4, чтобы получить представление, как это, вероятно, будет происходить.

Первая версия, выпущенная в 2013 году, использовала графический процессор, построенный на архитектуре GCN 1.0, не появлявшийся в видеокартах для настольных ПК вплоть до следующего года. Xbox One X, выпущенный в 2017 году, использовал GCN 2.0, которому к тому времени было уже более 3 лет.

Так что же все игры, созданные для Xbox One или PS4, а затем портированные на ПК, по умолчанию лучше работали на видеокартах AMD? А вот и нет. Поэтому мы не можем предположить, что на этот раз с RDNA 2 все будет иначе, несмотря на впечатляющий набор функций.

Но все это в конечном итоге не имеет значения, поскольку оба графических процессора обладают исключительными возможностями и представляют собой чудо того, что может быть достигнуто в производстве полупроводников. NVIDIA и AMD предлагают разные инструменты, поскольку пытаются решать разные проблемы: Ampere стремится быть всем для всех, RDNA 2 только для игр.

На этот раз битва зашла в тупик, хотя каждый может претендовать на победу в определенной области. Войны ГП еще продолжатся в течение следующего года, когда в бой вступит новый участник: Intel со своей серией Xe. По крайней мере, нам не придется ждать еще два года, чтобы увидеть, как протекает эта борьба.

Подробнее..

Перевод Как работает рендеринг 3D-игр сглаживание с помощью SSAA, MSAA, FXAA, TAA и других методик

28.05.2021 10:14:13 | Автор: admin
image

3D-игры состоят из тысяч, если не миллионов разноцветных прямых линий и других рёбер. А из-за того, как происходит их обработка для вывода на экран, эти линии иногда могут выглядеть изломанными и искажёнными. В пятой части нашего исследования рендеринга в 3D-играх мы расскажем, какие методики используются для сглаживания рёбер миров, в которые мы играем. Хорошие новости на этот раз математики будет не так много!

Часть 1: обработка вершин

Часть 2: растеризация и трассировка лучей

Часть 3: текстурирование и фильтрация текстур

Часть 4: освещение и тени

Кто виноват


С математической точки зрения, искажение возникает при преобразовании непрерывного сигнала в дискретный набор значений при помощи сэмплирования. Растеризация прямых или искривлённых линий вызывает пространственные искажения эти геометрические формы, по сути, состоят из бесконечного количества точек между двумя точками пространства, и их отображение при помощи фиксированного количества пикселей всегда приводит к аппроксимации этой линии вне зависимости от количества используемых пикселей.

Так как пикселизированная версия линии больше не является истинной линией, её перемещение или размещение рядом с другими фигурами создаёт множество визуальных артефактов, которые мы и называем искажениями (aliasing).

Можно задаться вопросом, действительно ли нужен этот процесс, но он возник из необходимости: отрендеренное изображение должно отображаться на экране. Из чего бы он ни был собран, будь то электронно-лучевая трубка, жидкокристаллический дисплей, или плазменная панель, этот экран отрисовывает изображение при помощи массива разноцветных элементов.


Разрешения 10 x 7 пикселей не совсем хватает для отображения этого треугольника без искажений

Некоторые сигналы меняются не в пространстве, а во времени, и здесь мы тоже получаем искажения при сэмплировании с заданными интервалами. Например, для преобразования аналоговой аудиодорожки в цифровую требуется измерять уровень звука через определённые доли секунды (допустим, в случае CD audio это каждые 0,02 миллисекунды).

Различия между сигналом, созданным из сэмпла, и оригинальным сигналом создают временные искажения, с которыми обычно справляются благодаря повышению частоты сэмплирования. Но что если сигнал на самом деле является последовательностью движений? Когда мы следим за реальным миром, окружающие нас предметы движутся без дискретности, поэтому когда это движение преобразуется в поток снимков, получаются искажения.

В мире кинематографа это приводит к странно выглядящим движениям, например, колёса автомобиля как будто вращаются в обратном направлении. Это проявляется и в 3D-графике, когда частота кадров рендеринга сцены недостаточна для полной передачи движения объектов и персонажей, из-за чего края выглядят размытыми или зазубренными; последний дефект усугубляется пространственным искажением.

Хотя методики, используемые для решения этих проблем, имеют общее название anti-aliasing (AA), способы их решения в фильмах совершенно отличаются от способов в 3D-игре. В последних применяется множество методик, имеющих всевозможные названия. Но прежде чем мы приступим к общему обзору самых популярных алгоритмов, давайте поговорим о разрешении кадра и частоте кадров.

Зачем? Потому, что если бы и то, и другое было чрезвычайно велико, то искажение не представляло бы проблемы. Если взять старый бенчмарк, например 3DMark03, и запустить его на современной системе, то мы сможем сфокусироваться исключительно на пространственных искажениях.


Показанное выше изображение, взятое из первого теста Wings of Fury, сделано с разрешением 1280 x 720 пикселей. Четырнадцать лет назад, когда лучшими графическими картами были ATI Radeon 9800 XT и Nvidia GeForce FX 5900 Ultra, самые большие мониторы имели разрешение примерно 1600 x 1200, поэтому разрешение теста можно считать примерно низким или средним разрешением (сродни современному 1080p).


Но взглянув на крылья самолётов, можно чётко увидеть искажения, и особенно заметны они в движении. Большой контраст между цветом пикселей крыла и фона из неба и облаков создаёт мерцание при перемещении самолёта.

В этом следует винить относительно низкую степень сэмплирования, поэтому логичнее всего будет её увеличить; давайте теперь рассмотрим ту же сцену в 4K (3840 x 2160 пикселей).


Края крыльев стали заметно плавнее, но если увеличить изображение, то мы увидим, что искажения всё равно присутствуют. Можно продолжать увеличивать разрешение вплоть до того, что искажения невозможно будет разглядеть, но это имеет свою цену.

Если в коде не написано иное, обычно обработке должен подвергаться каждый пиксель растра: для вычисления окончательного цвета накладывается множество текстур и выполняется вычисление кучи шейдеров. В большинстве игр это является узким местом, поэтому частота кадров имеет обратную зависимость от разрешения растра.

В случае такой старой программы, как 3DMark03, на современном PC переход от 1280 x 768 к 3840 x 2160 снизил среднюю частоту кадров с 1670 до 1274 FPS, то есть увеличение количества пикселей на 740% снизило производительность всего на 24%. Однако в более новых программах ситуация будет иной.

Это легко продемонстрировать, запустив современный 3DMark при различных разрешениях; на графике ниже показана средняя частота кадров первого теста графики в бенчмарке Time Spy.


Переход с 720p на 4K это повышение разрешения на 800%, но частота кадров упала на 81%. Хотя игры могут и не демонстрировать этот паттерн в точности, но современные AAA-игры не очень от него отличаются. Это говорит нам, что если мы хотим максимально снизить влияние искажений, нам нужен способ получше, чем повышение разрешения растра чем ниже частота кадров, тем хуже становятся временные искажения.

К сожалению, первый алгоритм, разработанный для устранения пространственного искажения, делал именно это, но прежде чем мы приступим к его рассмотрению, надо указать на его особенности, о которых мы поговорим в этой статье. Техники устранения искажений многие годы разрабатывались независимыми научными исследователями, а также разработчиками систем в компаниях наподобие ATi, Intel и Nvidia.

Из-за отсутствия центральной организации, определяющей терминологию, существует большое разнообразие названий. Поэтому мы будем использовать самые общие названия алгоритмов, а также расскажем, как работают лежащие в их основе техники. У каждой из них есть множество модифицированных и расширенных версий со своими названиями.

Supersampling anti-aliasing (SSAA)


Этот способ, часто называемый также full scene anti-aliasing самый старый и простой из всех. Он заключается в рендеринге сцены с повышенным разрешением, с последующим сэмплированием и смешением результата в меньшее количество пикселей. Например, монитор может иметь максимальное разрешение 1920 x 1080, но игра рендерится с разрешением 3840 x 2160, а затем картинка масштабируется и передаётся на экран.

В качестве паттерна сэмплирования обычно используются ближайшие соседние пиксели (по сути, окружающий пиксель квадрат), а математика смешивания заключается в простом арифметическом усреднении сэмплов.

Разумеется, мощности современных GPU позволяют использовать более сложные алгоритмы сэмплирования и смешения. Но давайте вкратце рассмотрим, как это работает. На изображении ниже показано действие классического 4x SSAA. 4x означает, что вычислением арифметического среднего смешивается вместе 4 сэмпла (также называемых taps) для получения окончательного цвета. Для этого растровое разрешение увеличивается по каждой из осей в два раза.


Заметили, что сэмплы в этом примере расположены точно в центрах пикселей? Так как сами пиксели имеют дискретную площадь, позиции сэмплов можно установить в любой точке этой области. Много лет назад AMD и Nvidia экспериментировали со всевозможными паттернами сэмплирования для обеспечения наилучшего сглаживания.

Описанный выше паттерн и способ смешения называется box filter, однако существует его популярное улучшение с использованием повёрнутой сетки позиций сэмплов (RGSS). Проблема SSAA заключается в том, что все эти дополнительные пиксели необходимо обрабатывать, и как мы видели из тестов 3DMark, повышение разрешения растра запросто может сильно снизить частоту кадров.

По большей части суперсэмплирование можно заменить более эффективными алгоритмами, однако оно обрело новую жизнь в качестве параметра драйверов графических карт AMD и Nvidia. AMD называет свою технологию Virtual Super Resolution (VSR), а Nvidia Dynamic Super Resolution (DSR).

Их можно использовать для включения сглаживания в некоторых старых играх без встроенных систем сглаживания, или для улучшения уже имеющейся в игре системы.

Multisample anti-aliasing (MSAA)


Этот способ возник как результат работы исследовательских лабораторий Silicon Graphics в начале 90-х. По сути, это SSAA, но применённая только там, где это на самом деле нужно. Ну, на самом деле, внутри технологии есть не только это, но такое объяснение поможет вам понять, как работает алгоритм.

Основное преимущество суперсэмплирования одновременно является и проблемой, потому что сглаживается всё: края примитивов, плоские текстурированные поверхности, прозрачные полигоны, всё сразу. Учитывая то, что фильтрация текстур уже обработала то, что находится внутри треугольников рендеринга, нам нужна система, применяемая только к рёбрам, потому что они создают наиболее заметную проблему искажений.

Но как это сделать? Оказывается, что необходимая для этого информация уже есть. Когда 3D-мир вершины преобразуется в 2D-плоскость растра, пиксели, создающие форму всевозможных разных примитивов в сцене, содержат не только информацию о цвете и текстурах, но и глубину.


Эту информацию можно сохранить в z-буфер (иногда называемый буфером глубин), а затем использовать для определения видимости рёбер. В приведённом выше примере простой примитив расположен передней поверхностью к камере, поэтому значения глубин центров соответствующих пикселей определить легко: белый это фон, чёрный примитив.

Так как GPU могут получать дополнительные сэмплы внутри пикселя, можно создать версию чёрно-белой сетки из квадратиков в более высоком разрешении. Мы снова просто фиксируем глубину примитива в позициях сэмплов, а готовый результат будет выглядеть примерно так:


Обратите внимание, как множественные сэмплы (multiple samples, вот отсюда и взялось название технологии) дают нам более точную карту глубин примитива. А теперь начинается хитрость. Сохранив эту подробную карту глубин, мы возвращаемся к кадру с исходным разрешением и выполняем все нужные шейдеры для получения окончательного цвета.

Потом мы возвращаемся к детализированному буферу глубин и каждому пикселю, находящемуся внутри примитива (т.е. чёрному), назначаем выходной цвет шейдера. Очевидно, что его нужно где-то хранить, поэтому необходимо создать ещё один буфер высокого разрешения, или же отдельный, но относительно малый буфер для каждой точки сэмпла в пикселе.

Затем, как и в случае с SSAA, мы сэмплируем и смешиваем детализированный буфер, приводя его к требуемому разрешению, и всё! Мы получили кадр без искажений. С точки зрения производительности, мы выполняли пиксельные шейдеры только для относительно малого количества точек, но для этого нам понадобилось создать и хранить пару буферов высокого разрешения.

Поэтому для multisample anti-aliasing требуется много видеопамяти и широкий канал передачи данных (плюс возможность быстрого считывания/записи в z-буферы), зато эта методика не требует большой вычислительной нагрузки на шейдеры. Давайте воспользуемся старым примером кода AMD, чтобы посмотреть, как она выглядит и чем отличается от SSAA.


Код запускает сцену с простыми текстурами и освещением, но со множеством геометрии, поэтому искажения на её рёбрах бросаются в глаза намного сильнее. В верхнем левом углу есть любопытная информация для рендеринга каждого кадра в среднем требуется 0,18 миллисекунд, а для смешивания в окончательный результат всего 0,02 мс. Буфер цвета (тот, который мы видим) занимает 7,4 МБ, как и буфер глубин.

Также можно приблизить отдельные области картинки, чтобы увидеть всю ужасность искажений. Не забывайте, что мы могли бы отрендерить всё это в более высоком разрешении, но это просто увеличит время рендеринга. Но если мы применим к сцене 4x SSAA, то именно это и произойдёт.


Обратите внимание, что в представленном выше изображении время рендеринга увеличилось до 0,4 мс (рост на 122%), а время смешивания (под названием Resolve) удвоилось. Кроме того, размер буферов цвета и глубин увеличился в четыре раза. Такова цена использования SSAA, и хотя любой современный GPU с лёгкостью справится с этой сценой, в новых 3D-играх ситуация окажется ужасной.

Однако посмотрите на увеличенную часть изображения. Заметили, насколько более гладкими стали линии? Да, в изображении ещё довольно много искажений, но оно заметно лучше. Вот если бы эта техника была не такой затратной! Ну, несколькими нажатиями мы можем переключиться на MSAA, и посмотреть, что изменится.


Показатели времени рендеринга сцены почти вернулись к тем, когда не применялось сглаживание, что хорошо, однако ещё больше стало время смешивания. Общий занятый объём памяти тоже находится примерно посередине между отсутствием AA и 4xSSAA, поэтому, похоже, что MSAA определённо стоит использовать.

Даже искажения на рёбрах примитивов кажутся меньшими, однако это больше связано с использованным паттерном сэмплирования, а не с самим принципом работы MSAA. На самом деле, если посмотреть на текстуру стены в увеличенной области, становится очевидным один недостаток multisample AA.

SSAA улучшает всё, а MSAA влияет только на рёбра полигонов, и хотя для статических изображений это не так важно, движение обычно делает разницу между сглаженными линиями и размытыми текстурами чуть более заметной. Ещё одна проблема заключается в том, что алгоритм плохо сочетается с отложенным рендерингом и хотя эту проблему можно обойти, все способы её решения имеют свою цену с точки зрения производительности.

Что же делать, если методики supersampling и multisampling anti-aliasing неидеальны?

Fast approximate anti-aliasing (FXAA)


В 2009 году Nvidia представила другой способ улучшения изломанных краёв фигур в 3D-сцене. SSAA пользуется исключительно грубой силой, MSAA аппаратными функциями и трюками в коде. FXAA спроектирована так, чтобы выполняться исключительно через шейдеры. После появления этой методики её несколько раз совершенствовали и сегодня она активно применяется в играх.

Код выполняется как этап постобработки (т.е. после завершения большинства операций рендеринга, но до наложения элементов наподобие интерфейса), обычно в виде единственного пиксельного шейдера. Первоначальная версия алгоритма работала так: сначала сэмплируем буфер, содержащий отображаемое изображение, и преобразуем sRGB в линейную оценку яркости этого пикселя (это величина количества света, проходящего через заданную площадь в указанном направлении).

Эта часть шейдера состоит всего из нескольких строк, она даже может использовать зелёный канал для вычисления уровня освещения. Зачем ему это нужно? На следующем этапе шейдера выполняется проверка относительного контраста пикселей, окружающих сэмплируемый пиксель если разница велика, то это место с большой вероятностью является ребром.


Последовательность выполнения FXAA: нахождение пикселей на рёбрах, определение ориентации, их сдвиг, размытие готового изображения.

Пиксели, прошедшие тест, проходят ещё одну проверку для определения ориентации ребра. После его вычисления пара пикселей (под углом 90 к ребру), имеющая максимальную разность яркости, используется для сканирования вдоль ребра для поиска его концов. Они определяются по достаточно большому изменению средней яркости этой пары пикселей.

После того, как будут полностью определены все рёбра, все позиции пикселей вдоль этих рёбер сдвигаются: вверх или вниз в случае горизонтальных рёбер, или в стороны для вертикальных. Они сдвигаются на крошечную величину, настолько малую, что новая позиция находится в пределах площади исходного пикселя. После такого незначительного размазывания на основании новых точек сэмплируется исходный буфер кадров пиксели внутри примитивов останутся на прежнем месте, а те, которые задают ребро, будут изменены, способствуя снижению влияния искажений.

FXAA имеет серьёзные преимущества по сравнению с SSAA и MSAA. Во-первых, это настолько простой фрагмент кода, что его способен выполнить практически любой GPU; даже дешёвые модели способны выполнить эту процедуру всего за несколько миллисекунд.

Во-вторых, она сглаживает все рёбра, а не только периметры фигур. Например, текстуры с прозрачностью (часто используемые для дыма, мусора и листвы) будут сглажены, на что MSAA не способна.


Без AA (слева) и FXAA (справа) обратите внимание, что деревья и элероны крыла выглядят намного плавнее

А какие недостатки есть у этой методики? Если в кадре есть множество областей с высокой контрастностью, например, с яркими пикселями на тёмной фоне, они смешиваются, вне зависимости от необходимости.

Точность этого способа не так высока, как у SSAA или MSAA, потому что он не может передавать субпиксельные детали по сути, это просто хитрый фильтр, который может создавать довольно бесформенно выглядящие текстуры. Но благодаря своей малозатратности и создаю достаточно эффективных результатов, FXAA по-прежнему используется спустя 12 лет, хотя и в переработанном виде.

Существуют и другие полноэкранные алгоритмы поиска рёбер. Источником вдохновения для разработчиков FXAA стало созданная Intel Morphological anti-aliasing (MLAA); эта методика была усовершенствована разработчиком игр Crytek и испанским Университетом Сарагосы, которые дали ей название Enhanced Sub-pixel MLAA (сокращённо SMAA).

Лучше всего во всех этих методиках то, что, в отличие от SSAA и MSAA, их можно постоянно обновлять и модифицировать, подстраивая под конкретные приложения или игры.

Temporal anti-aliasing (TAA)


Пока мы рассматривали только методики для устранения визуального влияния пространственных искажений. Для борьбы с временными искажениями (temporal aliasing), возникающими из-за того, что 3D-игры генерируют дискретные сэмплы непрерывного движения, чаще всего используется следующий алгоритм.

Мы начинаем с рендеринга кадра и его отображения; однако также мы сохраняем значения пикселей в блок памяти, называемый буфером истории (history buffer). Затем рендерер переходит к следующему кадру последовательности и обрабатывает его, но перед его отображением сэмплирует буфер истории, а результаты сэмплирования смешиваются с текущим кадром. Затем в буфер истории сохраняется этот результат, скопированный для создания окончательного изображения, а готовый буфер помечается как готовый для отображения на мониторе.


Общая схема временного сглаживания.

Все последующие кадры подвергаются тому же паттерну: рендеринг, сэмплирование буфера истории, смешивание, обновление и отображение. Накопление идущих по порядку кадров обеспечивает сглаживание всей сцены в движении от кадра к кадру, и мы получаем красивое изображение без временных искажений.

Однако если бы он делал только это, то алгоритм был довольно бесполезным например, если между кадрами отсутствуют изменения, то смешивание ничего не исправит. Чтобы обойти эту проблему, каждый кадр изначально рендерится со случайным смещением камеры на крошечную величину (называемую субпиксельными колебаниями). Затем чуть смещённые позиции пикселей используются для сэмплирования буфера истории, после чего колебания устраняются для завершения обработки кадра.

Следовательно, когда дело доходит до смешивания значений из буфера истории с текущими, мы почти всегда получаем слегка отличающиеся сэмплируемые субпиксельные позиции, что повышает степень сглаживания.


Самый популярный алгоритм TAA.

Временное сглаживание (Temporal AA) может создавать избыточное размытие, а также проблему под названием ghosting, при которой края движущихся объектов выглядят размазанными, а не смягчёнными.

Для решения этой проблемы используется методика с вычислительным шейдером, рассчитывающим движение векторов объектов, сохраняющим информацию в память (буфер скоростей), а затем сравнивающим относительные скорости текущих пикселей с сэмплированными если они сильно различаются, то сэмпл истории не используется.

Кроме использования значений скоростей, большинство реализаций алгоритма TAA выполняют ещё один процесс проверки сэмплов истории; это не позволяет использовать значения из предыдущих кадров, не относящиеся к текущему кадру (например, они могут оказаться скрытыми за сдвинувшимся объектом). В этой методике обычно используется ограничивающий параллелепипед, выровненный по координатным осям (axis-aligned bounding box, AABB), в котором по осям отложена хроматичность буфера истории; она отсекает все пиксели, имеющие цвет за пределами этих границ.

В окончательное смешивание истории и текущих пикселей тоже можно добавить веса, используя сравнительные значения цвета, яркости или скорости; наконец, во время последнего копирования обновлённого буфера истории для отображения можно применять различные фильтры размытия, ещё больше снижающие ghosting.


Без AA (слева) и TAA (справа) обратите внимание на размытие деталей на крыле

Для разработчиков кодировать всё это значительно сложнее, чем добавить в игру SSAA или MSAA. Но современные GPU способны быстро вычислять все необходимые шейдеры; в то время как алгоритмы supersampling и multisampling для каждого кадра требуют множества сэмплов, TAA, по сути, распределяет эти сэмплы на несколько кадров. Это означает, что в играх, не сильно ограниченных объёмом вычисляемых шейдеров, TAA можно реализовать ценой относительно малого снижения производительности.

Кроме того, TAA хорошо работает с отложенным освещением и может использоваться с аналогами FXAA и SMAA, что приводит к ещё большему улучшению графики. К сожалению, эта методика подвержена чрезмерному размытию и возникновению артефактов мерцания вдоль рёбер с высокой контрастностью. Однако вычислительная мощь GPU, похоже, ещё долго не выйдет на плато, и подобные техники можно совершенствовать, используя более сложные методы определения способа сэмплирования и проверки буфера истории.

И это ещё не всё!


Четыре описанные выше методики, особенно FXAA и TAA, активно используются в играх для PC и консолей. Но есть и множество других алгоритмов.

Например, когда Nvidia выпустила серию графических карт GeForce 9, то объявила и о создании модифицированной версии MSAA под названием Multi-Frame Sampled Anti-aliasing (MFAA). По сути, GPU изменяет паттерн сэмплирования с каждым последующим кадром, то есть на кадр приходится меньшее количество создаваемых и смешиваемых сэмплов.


Среднее от нескольких кадров и создаваемый эффект практически такие же, как при обычном MSAA, но с меньшим снижением производительности. К сожалению, этот алгоритм можно реализовать в играх, разрабатываемых под руководством Nvidia, и он недоступен во всех проектах. Однако он всё равно существует и его можно включить в панели управления драйвером GeForce.

Позже этот разработчик GPU вложил значительные ресурсы в разработку алгоритма сглаживания с использованием искусственного интеллекта под названием Deep Learning Super Sampling (DLSS), впервые появившегося в 2018 году вместе с выпуском чипов Turing.

В первой версии DLSS компания Nvidia должна была обучать нейросеть глубокого обучения (DNN) на конкретных играх сравнением кадров низкого разрешения с кадрами в высоком разрешении со включенным SSAA. Современная версия использует более обобщённую сеть и получает дополнительную информацию в виде векторов движения для определения того, как должен выглядеть кадр, как если бы он рендерился с более высоким разрешением.


Хотя основное преимущество DLSS заключается в повышении производительности (например, рендеринг выполняется при 1080p, но нейросеть повышает разрешение до 1440p), система, по сути, применяет AA, потому что её целевыми данными является изображение.

AMD сейчас работает над собственной версией такой системы и после её выпуска мы можем наконец увидеть, как алгоритмы AA с глубоким обучением постепенно заменяют традиционные, но пока этого не случилось. Такие системы реализовать не проще, чем, допустим, TAA, а визуальные результаты не всегда идеальны.

Исследования более совершенных техник сглаживания продолжаются, но мы и так уже проделали длинный путь со времён Riva TNT и Half-Life, когда нам приходилось мириться с зазубренными полигонами, потому что на их устранение не хватало производительности.

Итак, когда в следующий раз вы будете настраивать параметры графики в новой игре и увидите различные варианты доступных способов AA, поблагодарите про себя инженеров и программистов, придумавших всё это.
Подробнее..

Recovery mode Вы, все еще, меряете FSB сотнями?

04.09.2020 12:07:35 | Автор: admin
Очень многие именно так и поступают последние 15-20 лет. Весь инструментарий(я знаком с HwInfo64 и CPU-Z) именно на это (сотни) и заточен. Но вот, появился у меня процессор на котором я вижу частоту шины 25МГц.

image


HwInfo64
image


И вроде все по честному, пару лет назад именно на них и перешли в АМД(Precision Boost), ими удобно точнее выставлять верхнюю границу рабочей частоты для ЦПУ. Но, тем не менее все (HwInfo64 и CPU-Z) продалжают показывать рабочую частоту исходя из 100МГц!? Поэтому мы видим очень подозрительную рабочую частоту ЦПУ. При заявленной 1500-1000МГц, процессор странным образом работает на 400-600МГц. Прокольчик.

image

CPU-Z
image


Причем этот множитель влияет и на частоту работы памяти, по крайней мере на её ототражаемые в тулсах параметры.

image

Само собой мысли сразу полетели в сторону ProcHot и ThermalThrottling. Но нет, с ними все было в порядке.
Обычно множители частоты целые, максимум чего можно было добиться это 0.5. Вот тут я и обратил внимание, что множитель какой то подозрительно дробный в CPU-Z. Видим и .2, и .3, и .4. В регистр управления такое не поместится. Значит этот множитеь не настоящий, а синтетический. Не из железа он читается, а магическим образом высчитывается и подгоняется под нам всем любые 100МГц. Печально. И действительно, в документации все значения множителей у АМД целые, и опираются на 25МГц. И множители там куда выше, чем привязанные к сотке. Там и 90, и 130 встречаются. И это совсем не потолок.

Желающим копаться в регистрах MSR
Что очень не плохо можно проверить в регистрах MSR
C001006[4-B] биты [7:0]
C0010063 биты [2:0]
C0010293 биты [7:0] и [13:8]


Ладно бы, эти фальшивые цифры рабочих частот, были только на моем железе. Но нет, они же вылазят и на референсных платах(Bilby) от АМД. А датой выхода, этих процессоров на рынок, был первый квартал 2020го.

Причем тесты на производительность, не показывают проседания. Рабочая частота как и заявлено 1500-1000МГц.

Бардак с частотами дополняется тем, что в настройках процессора присутствуют все цифры частот и 25 и 100МГц. И даже немного больше))). Так, например, для REFCLK существует еще и частота 27 МГц. Причем она заявлена как активная на момент после RESET. Тем не менее, всё время в течении выполнения UEFI, активна частота 25МГц. Но фокус, в Виндовс, мы снова видим в регистрах 27МГц!

Хотя, документация от АМД, это совсем другая история. У АМД на нее никогда времени не хватало. Имеем, что имеем. И тому радуемся.

Так о чем же была статья? А не поверите, хочу инструментарий показывающий правду о железе. Вот и на жизнь жалуюсь. Хотя с такой документацией, которой радуют процессоростроители, ждать его прийдется еще не один год. Или, может вы знаете такой инструментарий? Тогда делитесь ссылками в комментариях!

PS и кстати, может кто знает, а почему частота шины показывается как плавающая? В каком месте ее читают или на основе чего синтетически считают. Ведь она не стоит 100 или 25 МГц, а плавает до -3%, но это и не SpreadSpectrum. SpreadSpectrum, ответственнен исключительно за внешние устройства.
Подробнее..

Перевод Бешеный рендер в 64 ядра AMD Threadripper Pro 3995WX

08.03.2021 18:14:03 | Автор: admin

Когда AMD начала предлагать процессоры Threadripper с большим количеством ядер, единственным рынком, который потреблял столько, сколько производила AMD, был рынок графического дизайна компании, которые занимались визуальными эффектами и рендерингом; им понравились количество ядер, поддержка памяти, полосы PCIe и цена. Но если есть что-то ещё, повышающее производительность, то это само стремление к производительности Threadripper Pro.


Брррр вот во что превращается вычислительная графика

Есть ряд отраслей, о которых энтузиаст, глядя со стороны, может предположить, что CPU, вероятно, устарел в смысле применения в этих отраслях. Возникает вопрос, почему отрасль не перешла полностью на GPU?

Одна из основных причин машинное обучение. Несмотря на переход к выделенному оборудованию в этой отрасли и то, что многие крупные компании используют машинное обучение на GPU, большая часть машинного обучения сегодня по-прежнему выполняется на CPU. То же самое происходит с графикой и визуальными эффектами. Причина кроется в используемых программных пакетах и в самих программистах.

Разработка ПО для CPU проста, потому что именно ей обучают большинство людей. Пакеты оптимизации для CPU хорошо зарекомендовали себя, и они даже могут быть разработаны в имитационных средах, чтобы проводить инструктажи специалистов. CPU спроектирован, чтобы обрабатывать даже очень плохой код и вообще всё, что ему подают.

Вычисления на GPU, напротив, сложнее. Они не так сложны, как раньше, поскольку существует масса библиотек, которые позволяют компилировать для GPU, не зная слишком многого о компиляции, однако сложность заключается в архитектуре рабочей нагрузки, которая могла бы взять от GPU то, что он может предложить. GPU это массивный движок, который выполняет одну и ту же операцию с помощью сотен параллельных потоков одновременно у него также очень маленький кеш, операция доступа к памяти занимает много времени, а задержка скрывается за счёт того, что одновременно выполняется очень много потоков.

Если вычислительная часть программного обеспечения не подвержена такой нагрузке, например, эта часть структурно более линейна, то потратить полгода на его переработку для GPU это напрасная трата сил. Или даже если математика лучше работает на GPU, попытки перестроить 20-летнюю (или ещё более старую) кодовую базу для GPU всё равно требуют значительных усилий со стороны группы экспертов.

Вычисления на GPU идут в гору с тех пор, как я выполнял их в конце двухтысячных годов. Но факт остается фактом: всё ещё существует ряд отраслей, представляющих смесь производительности CPU и GPU. К ним относятся машинное обучение, нефтегазовая отрасль, финансы, медицина, и та сфера, на которой мы сегодня сосредоточимся, визуальные эффекты.

Проектирование и рендеринг визуальных эффектов это сложное сочетание специализированных программных платформ и плагинов. ПО, подобное Cinema4D, Blender, Maya и другие программы полагаются на GPU для показа частично отрисованной сцены, чтобы художники работали в режиме реального времени, также полагаясь на мощь одноядерной производительности, но большая часть вычислений для финального рендеринга будет зависеть от того, какие плагины используются для конкретного продукта.

Некоторые плагины имеют ускорение GPU, например Blender Cycles, и переход на ещё более ускоренную GPU рабочую нагрузку занимает некоторое время например. область, привлекающая большое внимание GPU, дизайн с ускоренной трассировкой лучей.

Всегда возникает вопрос о том, какой метод создаёт лучшее изображение: нет смысла использовать GPU, чтобы ускорить рендеринг, если процессор добавляет шум или портит изображение.

Скорее всего, киностудия предпочтёт медленный рендеринг более высокого качества на CPU, чем быстрый и шумный на GPU, или же, наоборот, рендеринг изображения в более низком разрешении, а затем и рендеринг более высокого класса с искусственным интеллектом.

Поставляющие продукцию для отрасли OEM-производители сообщили нам, что ряд студий прямо скажут: рендеринг их рабочего процесса на CPU единственный способ рендеринга. Другой аспект память: соответствующий задаче CPU может иметь от 256 ГБ до 4 ТБ DRAM, тогда как лучшие GPU имеют пропускную способность в 80 ГБ (и это очень дорогие графические процессоры).

Вот о чём я говорю: VFX-студии до сих пор предпочитают вычисления на CPU, и, чем таких вычислений больше, тем лучше. Когда компания AMD выпустила новые процессоры на базе Zen, в частности 32- и 64-ядерные модели, их сразу же резервировали как потенциальную замену Xeon, с которыми работали студии VFX.

В компонентах AMD внимание уделяется вычислениям FP ключевому элементу в дизайне VFX. С двумя ядрами на сокет в сочетании с большим количеством кеша на одно ядро, процессор AMD был лучшим в деле. Это означает, что, хотя первые многоядерные вычислительные компоненты обладали неоднородной архитектурой памяти, это не было большой проблемой, как в случае с некоторыми другими вычислительными процессами.

Ряд компаний VFX, насколько мы понимаем, сосредоточились на платформе AMD Threadripper поверх соответствующего EPYC. Когда оба компонента впервые появились на рынке, VFX-студиям было очень легко инвестировать в рабочие станции, построенные на базе Threadripper, тогда как EPYC больше предназначался для серверной стойки.

Посмотрим на Threadripper 3000 и EPYC 7002: есть 64 ядра, 64 полосы PCIe 4.0 и большой выбор. студии VFX тогда всё ещё предпочитали Threadripper в основном из-за того, что эти процессоры предлагали лучшую мощность в 280 Вт в чём-то, что могло бы легко прийти от системных интеграторов, таких как Armari. Эти интеграторы специализируются на high-desk и high-compute, они также запрашивали у AMD большего.

Сегодня компания AMD развернула платформу Threadripper Pro, удовлетворяющую некоторым из требований выше. Тогда как VFX всегда ориентирован на вычисления в ядре, TR Pro предоставляет удвоенную полосу PCIe, удвоенную пропускную способность памяти, поддержку до 2 ТБ памяти, а также поддержку от администратора-профессионала.

Линии PCIe могут быть расширены до локального хранилища (которое всегда важно в VFX), а также больших RAM-дисков; поддержка администратора через DASH помогает поддерживать управление системами компании. AMD Memory Guard также входит в линейку Pro, которая создана, чтобы обеспечивать полное шифрование памяти.

Помимо работы с VFX компания AMD мировой лидер в области вычислений с помощью TR Pro в проектировании продуктов с помощью Creo, 3D-визуализации через KeyShot, в области проектирования архитектурных моделей с помощью ПО Autodesk Revit, а также в областях Data Science, таких как анализ массивов данных о нефти и газе, где наборы данных возрастают до сотен гигабайт и требуют существенной вычислительной поддержки.

Threadripper Pro против Workstation EPYC (WEPYC)

Глядя на преимущества, которые дают эти новые процессоры, становится ясно, что они скорее компоненты EPYC в стиле рабочей станции, чем "усовершенствованные" драйверы Threadripper. Вот объясняющая таблица:

Чтобы получить (начиная с EPYC) эти новые компоненты, всё, что AMD нужно было сделать, это поднять TDP до 280 Вт и урезать поддержку DRAM. Если начинать с базового Threadripper, есть 34 существенных изменения. Так почему же название по-прежнему Threadripper Pro, а не Workstation EPYC?

Чтобы ответить на этот вопрос, снова вернёмся в студии VFX. Когда они уже купились на брендинг и образ мысли Threadripper, сохранить название компонентов Threadripper значит, помочь сгладить переход. Как было сказано, они предпочитают Threadripper, а не EPYC (из того, что сказали нам), и поэтому сохранение названия означает, что не нужно никого переучивать.

Кроме того, линия процессора EPYC несколько изломана: есть стандартные версии, высокопроизводительные модели H, высокочастотные модели F и серия заказных конструкций под B, V, другие серии для конкретных клиентов. Сохраняя название Threadripper Pro, AMD сохраняет всё под одним началом.

Предложения Threadripper Pro: от 12 до 64 ядер

В середине прошлого года AMD анонсировала эти процессоры, а также Lenovo Thinkstation P620 как платформу их запуска. По моему опыту, линейка Thinkstation очень хорошо спроектирована, и сегодня мы тестируем наш 3995WX в P620.

TR Pro анонсировали вместе с Lenovo, и мы не были уверены, что Threadripper станет доступен какому-то другому OEM-производителю. Мы спросили об этом самих OEM-производителей в том же году, ещё до того, как узнали, существует ли TR Pro на самом деле; они заявили, что AMD даже не отметил платформу в своём плане развития, о котором мы тогда рассказывали.

С тех пор мы узнали, что у Lenovo был эксклюзивный срок в полгода; информацию предоставили другим производителям (ASUS, GIGABYTE, Supermicro) только после того, как было объявлено об этом.

В связи с этим AMD объявила, что Threadripper Pro выходит на рынок розничной торговли как для других OEM-производителей, которые будут проектировать системы, так и для конечных пользователей, которые будут собирать свои системы.

Несмотря на использование того же сокета LGA4094, что и у другие процессоров Threadripper и EPYC, TR Pro заблокируют на материнских платах WRX80. На данный момент нам известно о трёх моделях, например Supermicro и GIGABYTE, и об ASUS Pro WS WRX80E-SAGE SE Wi-Fi, которая у нас была, однако мы не смогли её протестировать.

Из четырёх перечисленных выше процессоров три лучших идут в продажу. Стоит отметить, что только 64-ядерный процессор поставляется с 256 МБ кеша L3, тогда как 32-ядерный поставляется с 128 МБ L3.

AMD придерживается такой архитектуры, что в этих чиплетах (chiplet) используется только абсолютно необходимое количество наборов микросхем, кеш L3 на одно ядро, а также 8 ядер на набор микросхем (в линейке продуктов EPYC дело обстоит немного иначе). Четвёртый процессор, 12-ядерный, по-видимому, является специфическим процессором, он создан только для OEM-производителей готовых систем.

Threadripper Pro против всех

Эти предложения Threadripper Pro созданы конкурировать с двумя сегментами рынка: во-первых, с самой AMD, демонстрирующий высокую производительность всем пользователям профессиональных систем высокого класса, построенных на аппаратном обеспечении первого поколения Zen.

Второе предложение нацелено на пользователей рабочих станций Intel с односокетным Xeon W (который имеет 28 ядер) либо на пользователей двухсокетной системы Xeon, которая дороже или которая потребляет намного больше энергии просто потому, что она двухсокетная, но при этом архитектура памяти системы неоднородная.

У нас есть почти все системы (нет 7702P, но есть 7742), и на самом деле это единственные процессоры, которые следует учитывать, если 3995WX в вашем случае один из вариантов:

Intel достигает максимума на 28 ядрах, и обойти его невозможно. Технически у Intel есть линейка процессоров AP до 56 ядер, однако это для специализированных систем, а для тестирования нам не отправили ни одного процессора этой линейки. Кроме того, это $ 20 000+ на один процессор, а также два процессора в одной системе, которые прикрепили болтами в одной упаковке.

Лучшее оборудование AMD это Threadripper, лучший доступный процессор EPYC версий 2P. Самым лучшим здесь был бы 7702P, вариант с одним сокетом и по гораздо более конкурентоспособной цене, однако у нас для целей тестирования его нет; вместо него у нас есть AMD EPYC 7742 версия с двумя сокетами, но с несколько большей производительностью.

Мы должны поблагодарить следующие компании за то, что они любезно предоставили оборудование для наших многочисленных испытательных стендов. Кое-какого железа на этом стенде нет, но оно используется в других тестах.

Пользователи, заинтересованные подробностями нашего текущего пакета эталонных тестов CPU, могут обратиться к нашей статье #CPUOverload, которая охватывает темы автоматизации эталонных тестов, а также рассказывает о том, что работает с нашим пакетом и почему.

Мы также сравниваем гораздо больше показателей, чем показано в типовом обзоре, все показатели вы можете увидеть в нашей базе данных эталонов. Мы называем эту базу Bench, также в верхней части [в оригинальном обзоре на английском языке] есть ссылка на случай, если база понадобится вам. чтобы сравнить какие-то процессоры позже.

Узнайте подробности, как получить Level Up по навыкам и зарплате или востребованную профессию с нуля, пройдя онлайн-курсы SkillFactory со скидкой 40% и промокодомHABR, который даст еще +10% скидки на обучение.

Другие профессии и курсы
Подробнее..

Официальные цены на AMD Threadripper Pro 5489 за 64 ядра и 2749 за 32 ядра

27.01.2021 18:04:51 | Автор: admin

Компания AMD анонсировала цены на свои процессоры линейки Threadripper Pro. Саму линейку компания представила относительно недавно, но вот цены не раскрывала, сохраняя интригу. Теперь же они поступают в продажу, так что стоимость чипов уже не секрет.

Итак, цена Threadripper Pro 3995WX составляет $5489, Threadripper Pro 3975WX $2749, Threadripper Pro 3955WX $1149. Кстати, изначально компания заявила, что ее процессоры доступны лишь для рабочих станций, поставляемых партнерам AMD.


Эти процессоры значительно дороже предыдущего поколения. Этому есть объяснение новые чипы намного функциональнее.

Так, у Ryzen Threadripper Pro 128 линий интерфейса PCI Express 4.0, плюс 8-канальный контроллер памяти DDR4-3200, поддержка до 2 Тбайт ОЗУ, а также набор AMD PRO Technologies, который востребован в корпоративном секторе.


В итоге 64-ядерная модель Threadripper Pro в рознице стоит примерно на $2100 дороже 64-ядерного Threadripper 3990X, а 32-ядерная модель дороже на $1000, чем 32-ядерный Threadripper 3970X.




Процессоры уже начали появляться в базах данных ритейлеров. Но во многих случаях стоимость чипов выше озвученной производителем. В качестве примера можно привести магазин Compusource, который оценил флагманский чип в $6086, Threadripper Pro 3975WX в $3043 и Threadripper Pro 3955WX в $1253.

Работать чипы могут только на платах с логикой AMD WRX80, к примеру, ASUS WRX80 Pro WS Sage SE и Gigabyte WRX80 SU8. Компания ASUS уже представила новую плату на своем сайте, но ее стоимость, равно как и стоимость плат других производителей, пока неизвестна. Зато известны характеристики некоторых материнских плат.

Так, Pro WS Sage SE поставляется с семью слотами PCIe 4.0 x16 и восемью для памяти. Плата поддерживает RDIMMs, на ней есть чип BMC для удаленного управления.

У Gigabyte WRX80 SU8 тоже семь PCIe-слотов, плюс 2 порта 10 GbE, 2 GbE, есть BMC, плюс 7.1-канальный звук.

Подробнее..

Новые AMD Ryzen на архитектуре Zen 3 сравниваем с предыдущим поколением, а также сIntel Core i9

14.01.2021 12:05:51 | Автор: admin


Я планировал написать эту статью еще весной 2020-го, но постоянно откладывал её в дальний ящик. Хотелось бы сказать, что причиной тому экологическая ситуация в стране и мире, но на самом деле желание накопить больше практического и тестового материала и, что поделать, безграничная прокрастинация. Теперь же, когда отдел маркетинга пишет мне чаще, чем кредиторы, и, по всей видимости, скоро начнет приходить домой справляться о самочувствии, я решил, что откладывать больше некуда. Тем более, что опыта накопилось достаточно, а AMD выпустил процессоры на новой архитектуре Zen 3.

Изначально в статье хотелось столкнуть лбами двух производителей AMD и Intel. Но все сроки были упущены. Поэтому вместо того, чтобы явно сравнивать красных и синих, протестируем два поколения Ryzen на Zen 2 и Zen 3. Справедливости ради и об Интел не забудем. Тем более, что исторически мы всегда предлагали серверы именно на их процессорах как серверных, так и десктопных. И статьи с тестами выпускали исключительно про них же. Монополия Intel в линейке представленных у нас конфигураций закончилась примерно год назад в декабре 2019-го мы стали предлагать серверы на базе AMD Ryzen 7 3700X и AMD Ryzen 9 3900X, затем в октябре 2020-го к ним добавился AMD Ryzen 9 3950X, а в декабре 2020-го и AMD Ryzen 9 5900X.

В общем, я решил, что процессоры обоих производителей на тестовом стенде может и не совсем вовремя, но точно неплохо.

Из истории моего знакомства с AMD


Прежде, чем мы перейдем к тестам и графикам, я бы хотел немного отойти от основной темы. Если вы не сторонники ностальжи, можете смело пропустить эту часть. Кроме авторских воспоминаний об ушедшей молодости и моём опыте работы с компьютерами, в том числе и на процессорах AMD, тут ничего не будет.

Для меня знакомство с продукцией AMD началось в далёком 2006 году, когда я будучи студентом первого курса устроился подмастерьем в сервисный центр и стал ремонтировать компухтеры. Тогда в моём личном пользовании находился домашний компьютер на процессоре Intel Pentium 4 531 на 3 ГГц, аж с Hyper-Threading. На фирменной материнской плате Intel, с SATA1, жёстким диском SATA на 80 Гб от Seagate и видеокартой ATI Radeon X300. На тот момент не самый топовый, но всё равно страшно крутой среди однокурсников компьютер, позволявший спокойно играть по сетке в CS 1.6.

Работая в сервисе, я впервые увидел компьютеры и ноутбуки на процессорах AMD (Athlon, Duron и Turion) по моему субъективному мнению, в городе их было примерно 50/50 с машинами на Intel. К тому же периодически встречались x86-совместимые процессоры VIA и Cyrix. Приблизительно в это же время появилась легенда о том, что АМД греются и даже сгорают от перегрева, что было в общем-то недалеко от правды. К слову, сей факт позволил компании Intel успешно пройти под радарами потребителя со всем ворохом технических и маркетинговых косяков, которые наблюдались при переходе от Pentium 4 к Core 2 Duo.

Пользуясь служебным положением, я достаточно быстро собрал личный компьютер на процессоре Intel Core 2 Duo E7200 на сокете LGA775 и материнской плате Asus так как десятками видел материнки Gigabyte на 478 сокете с прогаром в южном мосту. Меня всё устраивало, кроме того, что у процессора не было поддержки аппаратной виртуализации и появившийся тогда VirtualBox работал очень неспешно. Я перешёл на AMD Athlon II X2 и благодаря прямой и обратной совместимости сокетов имел шикарную возможность спокойно обновляться в течение пары лет. Intel этим похвастаться не мог.

Позже я пересел на AMD Phenom II X6, и это было что-то невероятное! Gentoo Linux, которая тогда была моей основной ОС, компилировалась меньше суток! Такой результат не удавалось получить никому из моих коллег на Intel Core 2 Quad. До опредёленного момента я считал, что это апофеоз компьютерной мысли. Пока поставщик не предложил новые AMD FX-8100 на микроархитектуре Bulldozer. Восемь ядер, не каких-то там жалких шесть! И я обновился Скорость пересборки мира упала, а я узнал, что процессор может перегреваться на боксовом охлаждении. Позже я обновился ещё пару раз FX-8150, FX-8300 и остановился на AMD FX-8350 на микроархитектуре Piledriver, причём с обновлением материнской платы (сокет AM3+). Но это всё равно было уже не то. Поэтому в моей памяти линейка Phenom II X6 так и осталась лучшей у AMD на многие годы.

Время шло, юношеские прыщи сошли на нет, Gentoo Linux подвинула Fedora Linux, и необходимость в повседневном компиляте отпала. Я смирился с прошлым, обзавёлся семьей, и, как следствие, лишился возможности постоянного апгрейда личной техники. За выходом новых линеек AMD наблюдал уже без особого энтузиазма, а потом и вовсе переехал на продукцию компании Apple, закончил карьеру сервисника и админа локалхоста и потерял связь с десктопами. История стала легендой, легенда фарсом. А потом уже и анекдотов насочиняли.

И вот в 2018 году АМД выпускает новое поколение процессоров на архитектуре Zen. Я аж весь оживился: что-то новое после стольких лет стагнации. Уже тогда я работал тут, где работаю, и как писал выше, имел дело только с процессорами Intel. Правда, надеясь, что однажды мы станем предлагать конфигурации на базе AMD.

И вот моя призрачная надежда внезапно становится реальностью. Не без моего участия, естественно.

Вспоминая историю с FX-8100, начать было решено с Райзенов третьей тысячи, тесты которых показали, на мой взгляд, просто шикарные результаты. А теперь вышла новая линейка процессоров на архитектуре Zen 3, которую тоже не обошла участь быть протестированной.

Так вот, уважаемый читатель, отбрось субъективизм и скепсис. Потому что, несмотря на всю свою неподдельную любовь к процессорной продукции компании AMD, которая после многолетнего технического простоя начинает почти с нуля отвоёвывать рынок, я за объективный подход за меня всё скажут результаты тестов.

Пара слов о техпроцессе и нанометрах


Многие, и мы в том числе, неоднократно сетовали на то, что Интел давно застрял на своих 14 нм. Доказательством тому были частые разговорчики типа: А у АМД уже давно 7 нм. А скоро будет ещё меньше.... Я решил немного разобраться в вопросе, поэтому вот моя краткая ремарка о техпроцессе и влиянии заявленных нанометров на производительность процессора.
Важной характеристикой для сравнения техпроцессов всё же остается число транзисторов на квадратном миллиметре. То есть сколько в кристалле процессора простейших логических элементов. Дело в том, что техпроцесс говорит не о размере самого транзистора, а о размере одной из его частей а именно затвора (насколько я себе это представляю). Остальные же составляющие элементы транзистора строго к величине техпроцесса не привязаны.

Ранее, на мой взгляд, до появления такой технология как FinFET, в которой стали использоваться трёхмерные, а не планарные транзисторы, ещё имело смысл сравнивать техпроцессы производителей, отталкиваясь от размеров транзистора. Но после производители пошли в разные стороны, разрабатывая собственные технологические решения. И нанометры из реального показателя превратились в абстрактный. При этом привычка сравнивать техпроцессы никуда не делась, хотя всё свелось к сравнению мягкого с тёплым. Теперь ориентироваться на размер заявленного техпроцесса даже не столько бессмысленно, сколько не очень показательно. И стоит сравнивать совсем другие параметры.

Например, в этой статье автор даёт интересную таблицу по сравнению техпроцессов:


Источник www.hardwareluxx.ru

  • Fin Pitch: расстояние между ребрами (эмиттер и коллектор) транзистора
  • Min Metal Pitch: минимальное расстояние между двумя слоями металла
  • Fin Height: высота ребер от подложки Si в слое оксида
  • Fin Width: толщина ребер

Между транзисторами на подложке тоже есть расстояние. И, надо заметить, что оно различается у таких производителей, как Samsung, TSMC, Intel и GF, при одной и той же заявленной величине техпроцесса.

В итоге получается, что понятие техпроцесса в один прекрасный момент стало сугубо маркетинговым и не говорит, как в былые времена, о техническом преимуществе процессоров, у которых он меньше. Таким образом, техпроцесс TSMC 7nm FinFET, на котором изготавливаются два последних поколения процессоров AMD, нельзя с твёрдой уверенностью назвать лучшим относительно фирменного техпроцесса Intel 14 нм. Если хотите углубиться в тему, то вот вам одна интересная статья и познавательный видеоролик по этому поводу. А мы наконец-то переходим к тестированию.

Тестирование


В комментариях к предыдущей статье нас резонно упрекнули в использовании разных версий бенчмарков, что отражается на результатах тестов. Что тут сказать. Часто бывает так, что патроны только подвезли, а они уже кончились. В том смысле, что далеко не всегда есть возможность провести повторное тестирование для конкретных процессоров на актуальных версиях бенчмарков. Но в этот раз мне-таки удалось заполучить в руки полный боекомплект, поэтому далее сможете посмотреть не только результаты тестирования Geekbench четвертой версии, но и пятой.

И раз уж мы заговорили о том, что влияет на результаты тестирования, вспомнился мне один пример из жизни. Как-то одного метеоролога спросили в интервью Скажите, что влияет на прогноз погоды?, он ответил проще сказать, что не влияет. Так вот на результаты тестов не влияет фаза луны, но это не точно.

А если серьёзно, факторов, которые могут повлиять на итоговый результат тестирования, более чем достаточно. И это не только операционная система или дистрибутив Linux. Результат будет зависеть и от версии ядра ОС, версий системного софта, планок памяти, даже если они имеют одинаковые характеристики, чипсета, фаз питания процессора и их охлаждения, версии BIOS, версии бенчмарков, особенно пакета phoronix, обновление тестов которого происходят чаще, чем презентации Apple в 2020 году. Даже накопитель влияет, например, на прохождение теста phoronix Apache. В общем, масса условий, которые трудно повторить по прошествии времени. Поэтому по мере сил при тестировании стараемся создать максимально одинаковые условия для тех процессоров, результаты которых попадут в одну статью.

Особо хочу отметить следующий момент. Он относится в меньшей степени к процессорам Intel, много лет делающей рефреши одной и той же архитектуры, и в большей степени к процессорам AMD: после релиза процессоров первые результаты тестов хуже, чем результаты тех же тестов спустя год. Предполагаю, что это связано с добавлением поддержки соответствующих процессоров и оптимизаций в ядро, софт и бенчмарки. Именно поэтому сюда не попали результаты первых тестов процессоров AMD: они были хороши, но новые ещё лучше.
В этот раз мы всё перепроверили заново, чтобы читатель смог получить самые актуальные результаты тестов.

Итак, что же сегодня попало в наши цепкие лапы?

Во-первых, это два процессора AMD на архитектуре Zen 2 Ryzen 9 3900X и Ryzen 9 3950X. Честнее было бы сравнивать их с девятой тысячей процессоров Интел Core i9-9900K. Почти одногодки всё-таки. Но мы решили, что в сравнении примет участие другой представитель от Интела, а точнее Core i9-10900K, относительно топовый процессор для сокета 1151. С одной стороны, у нас уже есть сравнительные тесты i9-9900K и i9-10900K, с другой оба этих процессора построены на одной архитектуре. Так что все честно.

Также мы решили протестировать свежие AMD пятой тысячи платформы на их базе пополнили нашу линейку серверов совсем недавно, поэтому без традиционных тестов не обойтись. Проверять будем три процессора на архитектуре Zen 3: Ryzen 7 5800X, Ryzen 9 5900X, Ryzen 9 5950X.

Замечу, что мы сравниваем не просто процессоры одного производителя в виде рефрешей, как делали ранее. В этот раз у нас есть возможность, во-первых, сравнить процессоры двух разных производителей, а во-вторых, процессоры одного производителя на двух разных архитектурах.

В случае сравнения Intel и AMD разное ВСЁ: производитель, ядерная архитектура, техпроцесс, процессорный кэш, как по объёмам, так и по архитектуре исполнения, количественное и качественное решение исполнения ядер, частота процессоров, количество вычислительных блоков. Единственное, что объединяет данные процессоры это архитектура x86/x86_64. И то технически это не совсем верно. В случае сравнения процессоров AMD разных поколений: это две разные ядерные архитектуры. Ну и, пожалуй, мы сейчас объединим их своими тестами.

Стоит сказать пару слов о третьей и пятой тысяче процессоров AMD. Как утверждает компания, в линейке Zen 3 ей удалось совершить ещё больший скачок в производительности, чем при выпуске предыдущих поколений Ryzen. Благодаря этому новинки, по мнению производителя, должны стать самыми быстрыми решениями на рынке не только в вычислительных задачах, но и в играх. В AMD заявляют, что серьёзно переработали архитектуру кристалла, что позволило без повышения базовых частот на том же техпроцессе поднять общую производительность до 19% относительно Zen 2. Ну, будем посмотреть.

Итак, в тестировании участвуют шесть процессоров:

  • Intel Core i9-10900K,
  • AMD Ryzen 9 3900X,
  • AMD Ryzen 9 3950X,
  • AMD Ryzen 7 5800X,
  • AMD Ryzen 9 5900X,
  • AMD Ryzen 9 5950X.

В тестировании использовались только одноюнитовые серверы (1U). Все процессоры охлаждаются жидкостным охлаждением (далее водяное охлаждение, СВО, вода, водянка).

Процессоры AMD охлаждаются водой в классическом исполнение для 1U платформ. Процессор Intel охлаждается продвинутым жидкостным охлаждением кастомизированное решение собственного производства, о конфигурации которого мы по-прежнему не распространяемся. Иначе i9-10900K перегреваются. Ну хоть не горят.

Все тестовые экземпляры подведены под единый общий знаменатель: 1U, вода, одинаковая оперативная память на частоте 2933, один и тот же накопитель данных. Память с частотой 2933 это максимум для i9-10900K, при этом представленные Рязани поддерживают память и на 3200. А как известно, производительность AMD процессоров, в том числе в тестах, сильно зависит от частоты памяти. С нашей стороны это делается для того, чтобы, так сказать, сравнять шансы.

Процессоры AMD тестируются на одной и той же материнской плате с новым чипсетом.

И ещё один момент, на который хотелось бы обратить внимание.

Сравнение между собой процессоров AMD 9 3900X, AMD 9 3950X и AMD 9 5900X, AMD 9 5950X логично и понятно: последние правопреемники предыдущих. Но вот AMD 7 5800X выбивается из этого ряда. Дело в том, что в нашей тарифной линейке также присутствует AMD 7 3700X, который я с удовольствием бы сравнил с новым AMD 7 5800X. И это было бы также понятно. Увы, протестировать его в момент подготовки статьи возможности не было. Но раз есть результаты 5800Х, то почему бы ими не поделиться.


Тактико-технические характеристики платформ

Процессоры Intel i9-10900k

  • Материнская плата: ASRockRack W480D4U
  • Оперативная память: 32 Гб DDR4-2933 MT/s Kingston 2 штуки
  • NVMe SSD-накопитель: 1 Тб Intel 665P

Процессоры AMD

  • Материнская плата: ASRockRack X570D4U (bios beta)
  • Оперативная память: 32 Гб DDR4-2933 MT/s Kingston 2 штуки
  • NVMe SSD-накопитель: 1 Тб Intel 665P

Программная часть: ОС CentOS Linux 8 x86_64 (8.3.2011).
Ядро: 4.18.0-240.1.1.el8_3.x86_64
Внесённые оптимизации относительно штатной установки: добавлены опции запуска ядра elevator=noop selinux=0

Тестирование производится со всеми патчами от атак Spectre, Meltdown и Foreshadow, бэкпортироваными в данное ядро.

Список тестов, которые проводились:

1) Sysbench
2) Geekbench 4
3) Geekbench 5
4) Phoronix Test Suite

Подробное описание тестов
Тест Geekbench

Пакет тестов, проводимых в однопоточном и многопоточном режиме. В результате выдаётся некий индекс производительности для обоих режимов. В этом тесте мы рассмотрим два основных показателя:

  • Single-Core Score однопоточные тесты.
  • Multi-Core Score многопоточные тесты.

Единицы измерения: абстрактные попугаи. Чем больше попугаев, тем лучше.

Тест Sysbench

Sysbench пакет тестов (или бенчмарков) для оценки производительности разных подсистем компьютера: процессор, оперативная память, накопители данных. Тест многопоточный, на все ядра. В этом тесте я замерял один показатель: CPU speed events per second количество выполненных процессором операций за секунду. Чем выше значение, тем производительнее система.

Тест Phoronix Test Suite

Phoronix Test Suite очень богатый набор тестов. Почти все представленные тут тесты многопоточные. Исключение составляют лишь два из них: однопоточные тесты Himeno и LAME MP3 Encoding.

В этих тестах чем показатель больше, тем лучше.

  1. Многопоточный тест John the Ripper для подбора паролей. Возьмём криптоалгоритм Blowfish. Измеряет количество операций в секунду.
  2. Тест Himeno линейный решатель давления Пуассона, использующий точечный метод Якоби.
  3. 7-Zip Compression тест 7-Zip с использованием p7zip с интегрированной функцией тестирования производительности.
  4. OpenSSL это набор инструментов, реализующих протоколы SSL (Secure Sockets Layer) и TLS (Transport Layer Security). Измеряет производительность RSA 4096-бит OpenSSL.
  5. Apache Benchmark тест измеряет, сколько запросов в секунду может выдержать данная система при выполнении 1 000 000 запросов, при этом 100 запросов выполняются одновременно.

А в этих если меньше, то лучше во всех тестах измеряется время его прохождения.

  1. C-Ray тестирует производительность CPU на вычислениях с числами с плавающей запятой. Этот тест является многопоточным (16 потоков на ядро), будет стрелять 8 лучами из каждого пикселя для сглаживания и генерировать изображение 1600x1200. Измеряется время выполнения теста.
  2. Кодирование аудиоданных. Тест LAME MP3 Encoding выполняется в один поток. Измеряется время прохождения теста.
  3. Кодирование видеоданных. Тест ffmpeg x264 многопоточный. Измеряется время прохождения теста.


Результаты тестирования



5950Х лучше 3950Х на 160%.
5900Х лучше 3900Х на 166%.


5950Х лучше 3950Х 23,3%.
5900Х лучше 3900Х 20,7%.


5950Х лучше 3950Х 7,3%.
5900Х лучше 3900Х 8,7%.


5950Х лучше 3950Х 27,2%.
5900Х лучше 3900Х 25,8%.


5950Х лучше 3950Х 8,5%.
5900Х лучше 3900Х 10,8%.


5950Х проигрывает 3950Х 1,1%.
5900Х лучше 3900Х 0,2% (почти равны).


5950Х лучше 3950Х 1,4%.
5900Х лучше 3900Х 3,6%.


5950Х лучше 3950Х 8,1%.
5900Х лучше 3900Х 10,8%.


5950Х лучше 3950Х 3,0%.
5900Х лучше 3900Х 7,6%.


5950Х лучше 3950Х 16,1%.
5900Х лучше 3900Х 16,5%.


5950Х лучше 3950Х 17,3%.
5900Х лучше 3900Х 20,3%.


5950Х лучше 3950Х 2,3%.
5900Х лучше 3900Х 10,0%.


5950Х лучше 3950Х 21,7%.
5900Х лучше 3900Х 19,8%.



В целом, результаты получились предсказуемые последнее поколение пятитысячных AMD уверенно обходит своих предшественников и оставляет далеко позади относительно свежие интеловские Core i9-10900K. При этом стоит отметить, что Ryzen 9 3950X из третьей тысячи показал себя весьма достойно по результатам тестов Geekbench он занимает второе место после новинок, а в многопоточном тесте John the Ripper, который измеряет количество операций в секунду, обошел даже Ryzen 9 5950X.

Довольно интересно показал себя и Ryzen 7 5800X, ставший лидером не только по результатам тестов Geekbench как в однопоточном, так и в многопоточном режиме, но и в других тестах - на кодирование аудиоданных (encode mp3) и на количество запросов в секунду (Apache). К серверам с этим процессором я бы порекомендовал присмотреться более внимательно. Особенно, для обработки медиаконтента или в качестве веб-сервера.

Ну и раз мы пообещали сравнение с Intel, то пару слов скажу и о них. Судя по результатам тестов, у i9-10900K есть шанс побороться за первенство в однопоточных тестах Geekbench (вероятнее всего, благодаря паре дополнительных ГГц), но только с AMD третьей тысячи показатели пятой тысячи на порядок лучше. Причём даже третья тысяча делает i9-10900K в большинстве тестов.

Так как секретариат партии намекнул мне, что громкие ликования не в нашем стиле, просто спокойно выскажу свое мнение. На моя взгляд, Intel уже два года если и не является догоняющим, то как минимум идёт наравне с AMD в десктопном и игровом сегменте. Как только Intel выпускает новое поколение процессоров, AMD сразу бьёт эту карту. По всей видимости, превосходству синих над красными приходит конец. Красные же, на мой взгляд, как Феникс сгорели, когда выпустили серию FX, и переродились из пепла с выпуском Ryzen.

Как видите, моя неподдельная любовь к AMD вызвана не только романтическими чувствами, но и банальным холодным расчётом. Если вы следите за новостями, то, по данным от PassMark Software, в начале 2021 года компания AMD заняла 50,8% рынка процессоров для настольных ПК в мире. Доля Intel, соответственно, упала до 49,2%. Это значит, что конкуренция гигантов-производителей выходит на иной уровень, который будет держать в тонусе обе компании. Поэтому предполагаю, что 2021 год окажется не менее динамичным, чем ушедший 2020-й в плане прорывных новостей на рынке процессоров. Тем более, что обеим компаниям есть что улучшать Intel-таки предстоит разобраться с техпроцессом 10 нм, а AMD, как минимум, решить проблемы с поставками, чтоб не получилось так, как в декабре, когда не все получили то, что заказали.

В тестировании использовались серверы на базе процессоров AMD Ryzen и Intel Core с 1dedic.ru. Выделенные серверы с этими процессорами можно собрать в конфигураторе и заказать со скидкой 7% на выбранный период оплаты 1, 3, 6 или 12 месяцев по промокоду HABR1DEDIC21. Скидка не распространяется на дополнительные услуги, подключенные к серверу. Промокод действует до 28 февраля 2021 года.
Подробнее..

Intel впервые за три года смогла отыграть часть рынка процессоров у AMD

04.02.2021 04:13:04 | Автор: admin

Аналитическое агентство Mercury Research на днях опубликовало интересную статистику, которая показывает, что компания Intel смогла забрать часть рынка у AMD. Речь идет о рынке десктопов и мобильном секторе. Увеличить долю этого рынка за счет AMD у Intel получилось впервые с 2018 года.

Правда, показатели не очень высокие всего около 0,8%. Так, ранее компания AMD занимала 20,1% настольного сегмента чипов, теперь же это 19,3%. В числе причин, благодаря которым Intel наращивает долю рынка. Mercury Research приводит маркетинговую политику AMD, согласно которой приоритет отдается более дорогим моделям процессоров. Их продается меньше в сравнении с бюджетными чипами.


В мобильном сегменте AMD также пришлось уступить Intel, доля которой увеличилась сразу на 1,2%. В ноябре AMD занимала 20,2% мобильного рынка, а вот по итогам четвертого квартала этот показатель снизился до 19%. Если говорить о денежном выражении, то здесь потери AMD более сильные, поскольку именно мобильные чипы формируют около 60% выручки компании в потребительском сегменте.


Одна из причин дефицит процессоров со стороны AMD. Intel удалось нарастить объемы производства, если судить по данным самой компании. Особенно активно развивается производство чипов в нижнем ценовом сегменте. Так, Intel поставляет чипы для хромбуков, которые остаются популярными. Поэтому и доля рынка Intel растет. В прошлом году хромбукам принадлежало 14,8% рынка ноутбуков, в 2021 году эксперты предрекают рост доли таких устройств до 18,5%.

4Q20 3Q20 2Q20 1Q20 4Q19 3Q19 2Q19 1Q2019 4Q18 3Q18 2Q18 1Q18 4Q17 3Q17 2Q17 1Q17 4Q16 3Q16
AMD Desktop Unit Share 19.3% 20.1% 19.2% 18.6% 18.3% 18% 17.1% 17.1% 15.8% 13% 12.3% 12.2% 12.0% 10.9% 11.1% 11.4% 9.9% 9.1%
Quarter over Quarter / Year over Year (pp) -0.8 / +1.0 +0.9 / +2.1 +0.6 / +2.1 +0.3 / +1.5 +0.3 / +2.4 +0.9 / +5 Flat / +4.8 +1.3 / +4.9 +2.8 / +3.8 +0.7 / +2.1 +0.1 / +1.2 +0.2 / +0.8 +1.1 / +2.1 -0.2 / +1.8 -0.3 / - +1.5 / - +0.8 / - -

Доли AMD и Intel по результатам 4 квартала 2020 года

Еще одна потенциально вероятная причина активного роста Intel договор между этой компанией и NVIDIA.

Третья причина то, что Intel удалось установить жесткий контроль над цепочкой поставок чипов и производственными мощностями. Это позволило справиться с негативными внешними факторами, включая пандемию.

4Q20 3Q20 2Q20 1Q20 Q419 3Q19 2Q19 1Q2019 4Q18 3Q18 2Q18
AMD Mobile Unit Share 19% 20.2% 19.9% 17.1% 16.2% 14.7% 14.1% 13.1% 12.2% 10.9% 8.8%
Quarter over Quarter / Year over Year (pp) -1.2 / +2.8 +0.3 / +5.5 +2.9 / +5.8 +0.9 / +3.2 +1.5 / +4.0 +0.7 / +3.8 +1.0 / +5.3 +0.9 / ?

Доля AMD и Intel на рынке мбильных чипов по результатам 4 квартала 2020 года

Тем не менее, 2020 и 2021 годы нельзя считать неудачными для AMD. Компании удается наращивать мощности, не останавливаясь в развитии. Сейчас противостояние обеих компаний усиливается. Так, совсем недавно начались продажи новых ноутубуков с гибридными процессорами AMD Ryzen 5000H и Ryzen 5000U. Вскоре выйдут в свет серверные чипы EPYC 3-го поколения (Milan) на новейшей архитектуре Zen 3, а также настольные APU Ryzen 5000G от AMD. Intel тоже не работает спустя рукава уже в марте компания собирается вывести на рынок Intel Core 11-го поколения (Rocket Lake-S) для платформы LGA1200. А еще IBM представит 10-нм Xeon 3-го поколения (Ice Lake-SP) с архитектурой Sunny Cove для серверов.


Тем не менее, AMD и Intel не единственные конкуренты на указанных рынках. Эксперты из другого аналитического агентства, на этот раз TrendForce, считают, что в 2021 году переход на собственные процессоры усилит позиции Apple. Несмотря на то, что по итогам 2020 года доля Apple на рынке процессоров для мобильных ПК составила всего 0,8%, в этом году доля рынка компании может вырасти сразу до 7%.

Подробнее..

Отечественный хостинг-провайдер предлагает тарифы с частотой ядра до 5,3 GHz. И это полная бессмыслица

26.08.2020 12:14:14 | Автор: admin


По всей видимости, ребята, которые в пятом-шестом классе мерялись, у кого на процессоре выше частота, теперь выросли и стали маркетологами в хостинг-провайдерах: это первый на нашей памяти случай, когда хостинг предлагает тарифы с тактовой частотой 5 GHz, а максимальное предложение и вовсе манит потребителя цифрой в 5,3 GHz.

И первое впечатление сразу где-то на уровне: ого. Однако частота серверного процессора выше привычных нам 2,8-3,6(4,0) GHz сейчас не имеет никакого смысла, это очевидно для большинства специалистов. Но давайте разбираться по порядку, почему неизвестный маркетолог уверенно ездит на наших с вами травмах юности.

Статья не носит целью опорочить кого-либо, но когда мы увидели, что продают под видом ультра-быстрых решений, удержаться не смогли. Особенно с учетом того, что не всегда именно технические специалисты принимают окончательное решение о закупке арендных мощностей.

Тактовая частота процессора была одним из основных параметров именно в школьные времена маркетологов, которые придумали продавать сервера с тактом 5,0+ GHz. Тогда процессоры были одноядерными, и, собственно, кроме шины и тактовой частоты того самого ядра меряться особо было и не чем. Техпроцесс тоже был плюс-минус одним на всех, так что и тут тем для холиваров не предвиделось. В плане техпроцесса вообще спорили только о том, сможем ли мы опуститься ниже отметки в 32 нм (смогли, вопреки пораженцам, которые кричали со страниц компьютерных журналов, что ниже уже некуда).

Но это все лирика, а о том, на что влияет тактовая частота ядра можно почитать где угодно в сети, перепечаткой этой информации мы заниматься не будем. Давайте лучше вернемся к легендарному предложению хостера и посмотрим, что там за процессоры.


Скриншот с официального сайта хостера

Как мы видим на изображении выше, под видом ультра-быстрых серверных решений нам продают два игровых процессора и всем знакомый серверный Intel Xeon E-2288G. С него и начнем.

Согласно официальной спецификации на ark.intel, Intel Xeon E-2288G восьмиядерный серверный процессор, выпущенный во 2 квартале 2019 года.

Вот его основные характеристики с ark, чтобы далеко не ходить:



Как видим, это обычный, пусть и достаточно мощный современный серверный процессор нижней ценовой категории со стоковой частотой 3,7 GHz на ядро. Почему нижней ценовой категории? Скажем так, $539 рекомендованной цены для серверного процессора это очень дешево. Топовые серверные модели Intel 2019-2020 годов стоят тысячи долларов, а в некоторых случаях десятки тысяч. Тут же мы имеем дело с обычным работягой всего на 8 ядер.

Максимальная турбо-частота рассматриваемого процессора согласно документации как раз упоминаемые маркетологом 5,0 GHz. На скриншоте с сайта хостера видно, что именно это значение и указано в качестве максимальной тактовой частоты ядра процессора. Гнался ли процессор руками через тупое повышение множителей, или хостер вовсе продает технологию турбо-частот Intel, которая работает через пень-колоду мы не узнаем.

Но если это был серверный процессор, то дальше у нас идет абсолютная мякотка: игровые процессоры под видом серверных.

Не до конца ясно, что такого мрачного происходило в жизни человека, который это придумал, но в нашем кейсе игровые потребительские i9-9900K и Ryzen 9 3900X продаются в качестве серверных камней.

Спецификация i9-9900K как две капли воды похожа на таковую у xeon, за исключением того, что это десктопный процессор:



У нас вообще создается впечатление, что Xeon E-2288G, который вышел на рынок через полгода, после 9900K его серверная копия, потому что расширенные спецификации на wikichip.org по обоим практически полностью совпадают (xeon и i9-9900K).

Говорить о том, что декстопные процессоры не стоит использовать как серверные, думаем, не стоит. Просто упомянем менее жесткий контроль на производстве чипов, меньшую отказоустойчивость и банально такой фактор, как набор драйверов. А вишенкой на торте будет, что даже в параметре 8х5,0 GHz для i9-9900K маркетологи нам соврали.

Процессор E-2288G на самом деле в турбо-режиме может держать 5,0 GHz на ядро. Но вот в случае с его почти клоном i9-9900K, такая турбо-частота возможна только для CPU-0. И это актуально для всех десктопных процессоров Intel. Вообще, любая максимальная турбо-частота десктопных камней из синего лагеря это история про частоту самого удачного при выпечке ядра, то есть нашего CPU-0. Для всех же восьми имеющихся у Intel i9-9900K ядер максимальная одновременная турбо-частота составляет 4,7 GHz по частоте самого медленного ядра процессора.

Примерно та же история и с Ryzen 9 3900X это чисто игровой процессор, один из самых мощных из существующих сегодня у AMD этой серии. При этом в красном лагере есть вполне достойная линейка EPYC и гибридные AMD Opteron, которые ориентированы на бизнес. Зачем насиловать серверными задачами творение инженерной мысли, которое предназначено выдавать стабильные 144 FPS в последней батле или колде мы не знаем. А если вспомнить капризность десктопных процессоров AMD в отношении памяти, то все становится совсем печально.

И если на факт продажи Intel Xeon с базовым тактом 3,7 GHz как процессора с частотой 5,0 GHz можно закрыть глаза как на привычный маркетинговый выкрутас, но на попытку впарить десктопные процессоры под видом серверных глаза закрывать уже не получается.

Банально потому что производственный техпроцесс серверных процессоров намного строже, чем десктопных. У них совершенно иной уровень требований по отказоустойчивости, по безопасности термопакета, да банально по ошибкам логики. Если при литографии одно из ядер запарывается, то в брак идет весь серверный процессор. В случае с десктопным подобный люфт допустим, что мы четко видим по разбежке турбо-частот на ядро. Ну и само собой, нужно помнить о материнских платах и драйверах. Вы не воткнете десктопный процессор в серверную мать или наоборот даже при совпадающем сокете, а если и воткнете, то в перспективе будете ловить криты уровня вьетнамский флешбек и проклянете день, когда сели за руль этого драндулета решили схитрить (хотя, откровенно говоря, хитрость эта на троечку). Игровое оборудование вообще не особо предназначено для работы под постоянной высокой нагрузкой, в отличие от рабочих лошадей в лице серверных процессоров.

Чем руководствовались маркетологи хостинг-провайдера не ясно. Кто захочет, найдет их сам, а кому лень можете постучаться к автору в ЛС и он поделится ссылкой.



На правах рекламы


Эпичные серверы это виртуальные серверы с широким выбором тарифных планов, максимальная конфигурация 128 ядер CPU (частота процессора до 3.4 GHz), 512 ГБ RAM, 4000 ГБ NVMe! Также мы предлагаем Hi-CPU VDS с мощными серверными CPU.

Подробнее..

AMD EPYC GENOA на архитектуре Zen 4 уже в 2022 году и слухи про SMT4

16.11.2020 14:12:10 | Автор: admin
Только-только компания AMD анонсировала пользовательские процессоры линейки Ryzen на своей новой архитектуре Zen 3 и еще готовит соответствующие серверные анонсы, как в сети появилась информация уже о следующем поколении серверных процессоров компании AMD EPYC GENOA на Zen 4.



Речь идет не только о процессорах с комплектацией до 96 ядер, но и о сокетах нового поколения AM5, TR5 (HEDT-платформа), а также SP5 и SP6 (серверная платформа). Также говорится о поддержке PCI-Express 5.0 и памяти DDR5. Пока информация циркулирует в сети на уровне слухов, но учитывая то, как развивается потребительский сегмент AMD, их попытка отвоевать позиции на серверном рынке вопрос времени. Так, EPYC MILAN на Zen 3, согласно инсайдерской информации, будет минимум на 20% производительнее предыдущего поколения процессоров AMD архитектуры Zen 2 ROME.

Возможный путь к лидерству AMD это увеличение числа потоков на ядро. Это момент, который может переломить тренды на серверном рынке. Именно поэтому активно ходят разговоры о внедрении компанией AMD в свои серверные процессоры поколения Zen 4 технологии SMT4. Речь идет об одновременной обработке четырех потоков, вместо ставших стандартом двух потоков на ядро. Стоит отметить, что в процессорах EPYC MILAN технологии SMT4 почти гарантированно не будет.

Если говорить о сокетах, то из слухов становится понятно, что AMD выжала из платформы AM4 все, что смогла: в этом коду компания сделала огромный подарок потребителям, не обновляя сокет под Ryzen 5xxx и обеспечив обратную совместимость новых десктопных процессоров с уже существующим сокетом. Тут можно вспомнить бесконечные изменения сокетов у Intel, коих за последние четыре года вышло как минимум три: LGA 1151, LGA 1151 v2 и LGA 1200.

В 2022 году на смену A4 придет сокет A5 и, хочется надеяться, что он проживет так же долго, как и A4. Также грядут и обновления серверных сокетов: мы перейдем с Socket SP4 и Socket SP4r2 на SP5 и SP6. Скорее всего, обе модели выйдут одновременно и будут подходить для одного и того же поколения EPYC GENOA с той же разницей, что и сокеты SP4 и SP4r2: первые предназначены для однопоточных, а вторые для двухпоточных процессоров линейки EPYC ROME. Если предположить, что AMD все же внедрит SMT4, то SP4 будет работать, соответственно, с однопоточными и двухпоточными процессорами, а SP4r2 с четырехпоточными моделями.

Но стоит вернуться к теме SMT. Нужно понимать, что в пользовательском сегменте SMT4 сомнительная фича, которая только увеличит задержки и создаст потери на ровном месте, пока процессор будет решать, на какой из потоков перебросить очередную задачу, коих различные приложения создают десятки и сотни.

Однако в случае процессорного сегмента мы имеем дело с более монолитными системами, которые, чаще всего, заточены на работу с каким-то одним тяжелым программным комплексом. Тут SMT4 может хорошо себя показать, особенно в вычислениях. При этом не не просто теоретические выкладки: SMT4 и даже SMT8 практически древняя система, которой пользовались еще двадцать лет назад. Пик развития многопоточности пришелся на начало 2010-х годов, когда у IBM еще было собственно производство серверов для бизнеса.

Вот спецификации IBM Power S822LC последнего сервера от IBM этой линейки на собственном процессоре IBM POWER8 Core 2014 года выпуска:


С полной документацией по серверу IBM можно ознакомиться вот тут (PDF)

Из таблицы видно, что у POWER8 Core была переменная многопоточность, от режима одно ядро-один поток и до режима восьми потоков на логическое ядро процессора. Официальные частоты POWER8 Core на ядро составляют от 2,5 до 5 ГГц. При этом серверы IBM на POWER8 имели еще и 16 сокетов SMP (симметричная многопроцессорная обработка) что позволяло уже тогда объединять в вычислительный кластер полтора десятка серверов.



Стоит отметить, что серверы IBM были весьма специфичным и узким решением для крупного корпоративного бизнеса и научных вычислений. Собственно, с ростом AWS и Azure, они были выдавлены из этого сегмента и IBM Power S822LC стал последним продуктом компании в этой линейке.

Нужно сказать, что сейчас практически захватившие серверный рынок процессоры от Intel линейки Xeon тоже не работают с режимом SMT4. Если мы говорим о процессорах для науки то есть о монструозных решениях по 32-72 ядер серии Phi, например, об Intel Xeon Phi Processor 7295 с 72 ядрами и стоимостью в ~6200$ на момент релиза, то мы вообще не имеем многопоточности. По официальной спецификации у этого процессора 72 ядра и 72 потока.

Более популярные Intel Xeon E работают в режиме SMT2 два потока на ядро. Это касается практически всех популярных серверных процессоров Intel, выпущенных с 2013 года, начиная с серии E5-V2. Если приводить конкретный пример два потока уже было в крайне популярной рабочей лошадке в лице процессора Intel Xeon E5-2680V2, который активно используется до сих пор.

Если прогнозы и данные инсайдеров подтвердятся, то в ближайшие пять лет нас может ожидать частичный передел серверного рынка. AMD активно развивается в десктопном направлении, сейчас начинает давить на серверный сегмент. Intel планирует анонсы серверных процессоров этой весной, но не факт, что они будут намного мощнее новых MILAN, а тем более и грядущих GENOA. Синие до сих пор испытывают значительные трудности с литографией и не могут толком опуститься ниже техпроцесса в 14 нм, кое-как запустив производство на 10 нм ноутбучных процессоров.



P.S. На правах рекламы хотим предложить специально для читателей Хабра честную скидку в 10% на любые тарифы нашего хостинга intesect.host. Скидка действует во всех дата-центрах. Предложение действительно с 16 по 22 ноября включительно.

Промокод при покупке: habr

Подробнее..

Есть ли будущее у Intel

17.02.2021 04:19:54 | Автор: admin

Все течет, все меняется. Эта фраза актуальна во все времена и применима ко всем аспектам деятельности человека, в том числе и к сфере технологий. Кто мог сказать в начале 2000-х годов, что Нокиа потеряет лидерство в сфере производству телефонов, при слове фотография в голове не будет автоматически всплывать слово Кодак, а подразделение по разработке персональных компьютеров IBM будет продано Lenovo. Возможно, непростые времена ждут и компанию Intel. Косвенным доказательством наличия проблем с бизнесом служит недавняя смена генерального директора. Так какое будущее ждет Intel - недавнего лидера на рынке процессоров для ПК?!

Деградация былого лидера

Критики компании говорят, что трагический выбор Intel сделала в 2005 году, когда отказалась от предложения Стива Джобса о совместной разработке процессора для Iphone. До сегодняшнего дня у Intel практически нет никаких разработок для мобильных устройств, что, конечно же, плохо.

Intel, в отличие от того же AMD, не только разработчик, но и компания-производитель. А с производством как раз последнее время очевидные проблемы. Компания не может освоить новый технологический процесс. В то время, как TSMC уже готов освоить производство 3нм процессоров, Intel никак не может внедрить 7 нм. Это особенно печально в свете того, что Intel уже несколько лет испытывает проблемы с освоением 10 нм процессоров и переход на 7 нм должен был как раз их и решить. Как следствие появились сведения о том, что Intel отдаст на аутсорс производство 5 нм процессоров TSMC во второй половине 2021 года, а с 2022 года тайваньский производитель начнет выпускать для американской корпорации процессоры по технологии 3 нм. И это при колоссальных затратах на R&D в последние годы.

Во многом из-за проблем с производством Intel на данный момент проигрывает технологическую гонку в разработке процессоров компании AMD, которые перешли на производство 7 нм процессоров. Это дает преимущество в числе ядер и потоков. Так, 16-ядерный AMD Ryzen 9 3950X для массового рынка имеет 2-кратный перевес над самым мощным процессором Intel (Core i9-9900K) по числу ядер и потоков. Процессор AMD Ryzen Threadripper 3990X имеет 64 ядра и 128 потоков, обеспечивая 3,5-кратное преимущество над процессорами Intel. Тепловыделение процессоров AMD меньше чем у процессоров Intel и без этого считающимися самыми горячими на рынке. Ко всему этому следует добавить более низкую цену на продукцию AMD в пересчете на ядро.

Следствием технических проблем стал отказ Apple от использования процессоров Intel в своих ноутбуках.

Луч света в "технологическом потемневшем царстве"

Однако есть у компании и успехи. Так, несмотря на все проблемы, Intel продолжает контролировать примерно 80% рынка процессоров для десктопным и мобильных ПК. А на рынке серверных процессоров синяя компания удерживает долю в 93%, оставляя своим конкурентам по сути крохи.

Для сравнения, приведем долю на рынке процессоров компании AMD

Что спрашивают клиенты ITSOFT по аренде серверов

Отдел продаж дата-центра ИТСОФТ поделился информацией, что запрос на аренду серверов с процессорами AMD составляет не больше 2% от общего количества запросов на серверы с Intel. Наши клиенты не готовы рассматривать серверы на процессорах AMD в качестве альтернативного варианта для серверов 1С, баз данных, высокопроизводительных вычислений и виртуализации.

В зависимости от конкретного кейса, AMD может быть коммерчески выгоден в закупке. Например, если требуется построить систему с бОльшим количеством ядер. Однако, Intel вовремя выпустили линейку процессоров Cascade Lake Refresh, которые стали более производительными больше ядер и больше тактовая частота и запросов на серверы с обновленной линейкой процессоров стало больше. Клиенты стали переезжать с устаревшего оборудования на современное и вопрос в архитектуре тут стоит первым пунктом.

Intel прочно удерживает лидерство в профессиональных серверных решениях для широкого спектра задач. У Intel большой выбор процессоров для различных задач и многие вендоры готовы предложить серверные платформы для них. У AMD выбор скромнее.

Intel также является главным производителем полупроводников в мире как по доле, так и по выручке (по результатам 2020 года).

У компании 16 заводов, расположенных по всему миру (США, Ирландия, Израиль, Китай), что позволяет минимизировать транспортное плечо и быть ближе к своим клиентам. Собственное производство позволяет также перераспределять нагрузку, если это необходимо. Простой пример важности регулировки интенсивности производства и способности увеличивать мощности когда это нужно. Так, например, за 4-й квартал 2020 года Intel смог нарастить долю в продаже процессоров для мобильных компьютеров на 1,2% по причине дефицита чипов от AMD. В сезон праздничных покупок американская корпорация за счет увеличения собственных мощностей смогла насытить рынок.

Но, пожалуй, самое важное, то, что Intel начинает выстраивать экосистему для IoT, то есть напрямую участвует в 4-й промышленной революции. Сам Intel оценивает объем этого рынка в 50 млрд. устройств к 2030 году и каждое устройство оснащается чипом. Это не обязательно должен быть 3 нм чип. Может быть использован 22 нм процесс и даже более. Таким образом, речь идет о чипах, более простых в производстве, чем процессор современного компьютера, но их нужно много. И только Intel на сегодняшний момент - наряду с TSMC, обладает достаточными мощностями для производства такого количества камней.

Сильны позиции синей корпорации и в развитии беспилотного транспорта. В 2017 году она купила израильскую компанию Mobileye, одного из ведущих разработчиков систем помощи для снижения опасности столкновения и, тем самым, получила прямые контракты с производителями автомобилей, такими, как BMW, Mercedes итд. Логично предположить, что эти системы будут на чипах Intel. Рынок автомобилей количественно, конечно, меньше, чем рынок компьютеров и смартфонов, но он весьма прибыльный. Так, уже сейчас на полупроводники приходится 40% от расходов на производство транспортных средств. К 2030 году эта цифра обещает вырасти до 45%.

Финансы не поют романсы

Важны и финансы компании. Сравним финансовые показатели Intel и AMD.

Стоимость акций AMD за 5 лет выросла с 1,91$ до 95,52$. Мультипликаторы компании следующие: P/E = 125 , P/S = 13. Другими словами, рыночная цена компании составляет 125 годовых прибылей и 13 годовых выручек. В финансовом мире все, что стоит больше 2-3 годовых выручек считается переоцененным. При этом за последние 5 лет среднегодовой прирост выручки 4%.

Акции Intel за тот же период выросли с 28,71$ до 62,60$. P/E = 12, P/S = 3, среднегодовой прирост выручки за последние 5 лет - 5%.

Другими словами, бизнес компании Intel более стабилен и дает больше выручки, а AMD - слишком переоценен. Сейчас, в период количественного смягчения, когда на рынках колоссальная ликвидность это не так важно. Но рано или поздно наступит коррекция, и тогда акции AMD упадут в цене скорее всего гораздо сильнее, чем Intel, что скажется не только на держателях акций, но и на бизнесе компании.

Заключение

Подытожив, можно сказать, что на данный момент Intel отстает в технологической гонке среди производителей процессоров для ПК. Но нельзя сказать, что компания смирилась с этим и ничего не делает. Невнятные управленческие решения (продажа Apple модемного бизнеса, принесшая в результате убытки; отказ от перехода на 10 нм технологию из соображений экономии) и нет адекватной отдачи от R&D? Заменим гендиректора - финансиста на технаря, который работал в Intel более 30 лет, возглавлял одно из исследовательских подразделений компании и позднее был ее главным техническим директором. Не можем сами делать процессоры по продвинутой технологии? Найдем пока подрядчика, как это делают конкуренты и попытаемся вернуться в гонку.

Важно, что кроме проблем есть и перспективы. Стабильный и прибыльный бизнес, факт удержания большей доли рынка (и это несмотря на технологические проблемы), хороший задел в новых перспективных отраслях делают эту компанию одной из перспективных и недооцененных на сегодняшний день. Нет, Intel еще однозначно рано хоронить.

Подробнее..

Перевод Самые разгоняемые процессоры, которые запомнились надолго

19.11.2020 12:06:35 | Автор: admin

Фанаты стремились максимально использовать ресурсы кремния с момента появления микропроцессоров. В самом начале для разгона использовали пайку и замену кварцевых генераторов тактовой частоты, однако эта практика быстро эволюционировала в изменение скоростей системных шин с помощью DIP-переключателей и перемычек материнских плат.

Появились множители внутренней тактовой частоты, однако вскоре их заблокировали, потому что бессовестные продавцы убирали официальные номинальные частоты и указывали собственные, более высокие параметры. Для большинства пользователей важнейшей возможностью разгона стали системные шины и делители, а самые упёртые фанаты физически изменяли электрические спецификации аппаратным моддингом оборудования.

Сегодня мы вернулись к множителям внутренней тактовой частоты. Скорости системных шин всё сильнее контролируются для поддержания стабильности системы, что снова ограничило пространство возможностей для соревновательной природы оверклокинга.

За всю историю персональных компьютеров существовало несколько процессоров, ставших легендарными благодаря своей способности к разгону. В этой статье мы расскажем о них.

Intel Pentium MMX 166



Дата выпуска: 8 января 1997 года

Стандартная тактовая частота: 166 МГц

Разгон: 207 266 МГц (~54%)

Pentium MMX появился во время, когда процветали тёмные делишки розничных продавцов, на которые производители процессоров x86 ответили блокировкой верхней границы множителей. Поэтому во многих MMX для разгона использовалось повышение частоты шины. Разлоченные процессоры MMX предоставляли оверклокерам больше возможностей, и самым главным среди них был MXX 233, хотя его цена (594 долларов) для многих была неподъёмной.

Более выгодным предложением, при своей цене 407 долларов, был MMX 166, а при установке на материнскую плату с чипсетом 430TX, имевшую стандартную скорость шины 75 МГц, можно было достичь 225 или 266 МГц (множитель 3 или 3,5). Чтобы превзойти порог в 200 МГц, процессорам MMX 166 с заблокированным множителем нужно было переставить перемычку для переключения на 83 МГц (2,5 * 83 = 207 МГц) (если такая возможность имелась), однако стабильность и нагрев при такой скорости шины были намного более проблемными, как и поиск качественной EDO/SDRAM RAM, необходимой для работы с этой частотой.

Intel 486DX2-40



Дата выпуска: март 1992года

Стандартная тактовая частота: 40 МГц и 50 МГц

Разгон: 66 МГц (~65%)

В процессорах P24 DX2 486 появился множитель тактовой частоты процессора, удваивающий скорость системной шины, а саму частоту системной шины можно было настраивать при помощи перемычек или DIP-переключателей на материнской плате. Изначально линейка включала в себя модели на 20, 25 и 33 МГц (позже она была дополнена моделями на 40 и 50 МГц). Пользователи получили возможность разгона, не требующего пайки и замены кварцевого генератора.

Кроме того, можно было добиться производительности уровня DX2-66 (стоившего 799 долларов), купив за 400 долларов 486DX2-40 и повысив его стандартную скорость шины с 20 МГц до 33 МГц.

Из-за проблем со стабильностью и слотом VLB при скоростях шины выше 33 МГц возможностти разгона снижались с повышением базовой частоты; вплоть до того, что многие Intel DX2-66 вообще не разгонялись, а некоторые были часто ограничены только 80 мегагерцами (2 x 40 МГц).

Intel Celeron 300A



Дата выпуска: 24 августа 1998 года

Стандартная тактовая частота: 300 МГц

Разгон: 375 504 МГц (~55%)

Считается, что оверклокинг получил огромную популярность в конце 90-х благодаря простоте разгона легендарного Celeron 300A. Чтобы разогнать его на 50% до 450 МГц, достаточно было просто изменить скорость шины с номинальных 66 МГц на 100 МГц. Хотя максимальная частота некоторых материнских плат составляла 83,3 МГц, ограничивая оверклокинг 375 мегагерцами, платы с поддержкой системной шины (FSB) на 103 МГц позволяли получить 464 МГц.

Самые качественные чипы при повышении напряжения могли работать на частоте FSB 112 МГц, обеспечивая частоту процессора 504 МГц. Примечательно, что 300A обычно мог достигать 450 МГц без дополнительных требований к напряжению, на номинальных 2,0 В. Производительности чипа также способствовал расположенный на кристалле кэш L2, а при цене 149 долларов он был особенно удобен для сборщиков систем.

AMD Athlon 700 (Thunderbird) / Duron 600 (Spitfire)



Дата выпуска: 5 июля 2000 года (Athlon 700) / 19 июня 2000 года (Duron 600)

Стандартная тактовая частота: 700 МГц/ 600 МГц

Разгон: 770 900 МГц (~12%) / 800 1000MHz (~59%)

Карандашный мод AMD Thunderbird стал воплощением мечты оверклокера. AMD заблокировала напряжение и множители линейки K7, пытаясь воспрепятствовать мошеннической перемаркировке процессоров. Оверклокеры быстро разобрались, что ключом к разблокированию производительности являются перемычки платы, встроенные в корпус.

Изначально сочетание соединительных перемычек в блоках L3, L4 и L6 позволяло замыкать соединения L1 для разблокировки множителя. Также можно было замыкать соединения блока L7 для изменения напряжения ядра, и для осуществления этого процесса достаточно было мягкого графитного карандаша или ручки, наносящей токопроводящие дорожки.

Поскольку системная шина AMD EV6 была чувствительна к разгону, оверклокинг множителя обеспечивали широкие возможности только в линейке Duron благодаря её пониженному напряжению ядра (1,5 В вместо 1,7 /1,75 В), что позволяло добиться большего относительного повышения до максимально допустимых 1,85 В.

При стоимости всего 112 долларов Duron 600 за несколько минут легко можно было приблизить по производительности к процессору, многократно превосходящему его по цене.

Intel Core 2 Quad Q6600 G0 Revision



Дата выпуска: 8 января 2007 года (версия B0)/ 22 июля 2007 года (версия G0)

Стандартная тактовая частота: 2,4 ГГц

Разгон: 3,4 3,6 ГГц (~46%)

Core 2 Quad Q6600 достиг завидного рекорда срока жизни и производительности, став выбором де-факто для оверклокеров, стремившихся приобрести бюджетный четырёхъядерный CPU. С января 2007 года его первоначальная цена (851 доллар) быстро падала, и в мае достигла 530 долларов; дальнейшая реструктуризация цен в июле совпала по времени с выпуском версии G0. При цене в 266 долларов 2,4-гигагерцовый четырёхъядерный чип сравнялся по стоимости с новым двухъядерным 3-гигагерцовым E6850, частоту которого смог с лёгкостью превзойти Q6600 более ранней версии B3.

Новая версия G0 обеспечивала чуть меньшее энергопотребление, что вылилось в улучшение возможностей разгона. Благодаря этому многие пользователи смогли почти без усилий добиться стабильных 3,4 3,6 ГГц. Появление доступной платформы Intel P35 и дальнейшее снижение цены Q6600 на протяжении всего 2008 года с 224 долларов (в апреле) до 183 долларов (в октябре) предоставило возможность надёжного разгона в пределах 50% (множитель 9x и системная шина 400 МГц давали 3,6 ГГц) при вполне умеренных затратах. Эта модель оставалась очень конкурентоспособной ещё долго после того, как многие современные ей процессоры потеряли свою популярность.

Intel Pentium III 500E



Дата выпуска: 25 октября 1999 года

Стандартная тактовая частота: 500 МГц

Разгон: 667 775 МГц (~50%)

Причинами разгоняемости Coppermine Pentium III 500E и 550E были биннинг процессоров компанией Intel с запасом, низкая частота системной шины (100 МГц) и интегрированный кэш L2. Бюджетные цены (239 долларов) и возможность использования старых материнских плат со Slot 1 благодаря переходникам с Socket 370 на Slot 1 обеспечивали замечательную производительность при скромных затратах.

500E запросто мог работать на 667 МГц после выбора в BIOS частоты системной шины 133 МГц или после изолирования изолентой или лаком контакта A14 переходника Slocket. На более дорогих платах можно было достичь 750 МГц (FSB 150 МГц) и выше, получив аналог производительности Pentium III 800, стоившего 850 долларов.

Однако при разгоне существовали некоторые особенности, например, материнские платы должны были поддерживать делители тактовых частот AGP и PCI (соответственно, 1:2 и 1:4) для обеспечения стабильности установленных компонентов и быстрой PC133 RAM.

AMD Athlon XP-M 2500+ (Barton Mainstream 45W TDP)



Дата выпуска: 12 марта 2003 года

Стандартная тактовая частота: 1,87 ГГц

Разгон: 2,4 2,7 ГГц (~32%)

В начале 2004 года сообщество оверклокеров обратило внимание на тот факт, что в мобильных процессорах Barton есть разлоченный множитель тактовой частоты; кроме того, они предназначены для работы при пониженном напряжении (1,45 В по сравнению с десктопными 1,65 В). Эти факторы часто обеспечивали феноменальные возможности для разгона, которых не хватало в десктопных моделях.

Когда широкой публике стал известен потенциал оверклокинга этого чипа, его цена за считанные недели поднялась с изначальных 75 долларов на 30%. На надёжной материнской плате nForce2 с хорошим охлаждением при повышении напряжения до 1,8 В и выше часто можно было достичь разгона до 30-40%. Несмотря на то, что такой впечатляющий рост не позволял ликвидировать разницу в производительности с новыми Athlon 64, модель Athlon XP-M 2500+ всё-таки не стоила от 200 до 400 долларов.

AMD Opteron 144 / 146 (K8 Venus)



Дата выпуска: 2 августа 2005 года

Стандартная тактовая частота: 1,8 ГГц / 2,0 ГГц

Разгон: 2,5 3,0 ГГц (~63%)

Имея тот же кремний, что и производимые в Сан-Диего процессоры Athlon 64, модели Opteron для Socket 939 стоимостью 125 и 183 доллара обладали серьёзным ценовым преимуществом по сравнению с имеющим схожие характеристики Athlon 64 3700+ (329 долларов) и ещё лучше проявляли себя на фоне FX-57 за 1000 долларов.

Как и у всех процессоров с залоченным от повышения множителем, способность Opteron к разгону была непосредственно связана с мощью выбранной материнской платы. Биннинг серверных чипов Opteron с запасом в сочетании с надёжной платой для оверклокинга, например, на чипсете nForce4 и частотами HyperTransport, достигающими (и превосходящими) 300MT/с, позволяли добиться разгона, редко обеспечиваемого процессорами корпоративного класса.

При том, что все модели Opteron имели приблизительно одинаковый потолок разгона, самые дешёвые чипы за 144 долларов быстро были раскуплены во многих странах.

Intel Core i7 2600K / Core i5 2500K



Дата выпуска: 9 января 2011 года

Стандартная тактовая частота: 3,4 ГГц (Turbo 3,8 ГГц) / 3,3 ГГц (Turbo 3,7 ГГц)

Разгон: 4,6 5,0 ГГц (~49%)

Когда Intel объявила об ограничении верхнего множителя частоты и о почти отсутствующих возможностях разгона системной шины в новых чипсетах Cougar Point, совместимых с Sandy Bridge, большинство пользователей посчитали это концом оверклокинга для платформ Intel. Однако на самом деле модели 2500K и 2600K оказались идеальными для разгона, позволяя с минимальными затратами времени и улучшением охлаждения добиться стабильного оверклокинга на 30-50%.

Популярность 2600K была такой, что результаты разгона этого процессора в 2011 году составляли 28% от всех опубликованных на сайте HWBot, а в 2012 году превосходили по количеству результатов его потомка, 3770K. Благодаря низкой цене (всего 216 долларов) плюс хорошим возможностям воздушного или водяного охлаждения Intel 2500K стал стандартом де-факто для оценки всех CPU потребительского уровня.

Intel Core i7 920



Дата выпуска: 17 ноября 2008 года

Стандартная тактовая частота: 2,67 ГГц (Turbo 2,93 ГГц)

Разгон: 3,5 4,0 ГГц в версии C0, 3,8 4,2 ГГц в версии D0 (~58%)

Новая архитектура Nehalem и платформа X58 казались достаточно привлекательными, чтобы привлечь многих пользователей долгоживущих систем Core 2 LGA 775. Хотя флагман i7 965 EE при цене 1 000 долларов был на треть дешевле Core 2 QX9770, он всё равно был менее актуальным, чем i7 920.

Первые процессоры Bloomfield версии C0 требовали высоких напряжений при частотах выше 3,6 ГГц, а следующая версия D0 часто имела возможность сохранять номинальное напряжение 1,26 В вплоть до 4 ГГц и достигать абсолютного потолка разгона почти в 4,5 ГГц, если пользователь пробовал повысить напряжение до 1,5 В.

Популярность 920 была (и остаётся) такой, что отчёты о его разгоне составляют треть от общего количества результатов процессоров LGA 1366.

Intel Pentium 4 1.6A / Celeron 2.0 (Northwood)



Дата выпуска: 7 января 2002 года (Pentium 4) / 18 сентября 2002 года (Celeron 2.0)

Стандартная тактовая частота: 1,6 ГГц / 2,0 ГГц

Разгон: 2,4 2,8 ГГц (~48%) / 2,66 3 ГГц (~46%)

Появление ядра Northwood было долгожданным событием после разочаровавшего Williamette, высокое напряжение и тепловыделение которого препятствовал массовому оверклокингу. Хотя P4 с увеличенной тактовой частотой имели малую ценность по сравнению с XP, модель 1.6A с ценой 125 долларов превратила дефицит производительности в выгоду благодаря низкой базовой частоте системной шины (100 МГц), которую можно было легко поднять до 150 МГц и получить скорость 2,4 ГГц.

Разгон Celeron благодаря множителю 20x всё равно был выше, хотя производительность серьёзно ограничивал скромный кэш L2 объёмом всего 128 КБ. Тем, кто стремился к усиленному разгону, необходимо было поднять напряжение выше 1,6 В или через BIOS, или проводным модом (соединив контакты CPU для повышения предела Vcore). Последний способ был основной причиной явления под названием S.N.D.S. (Sudden Northwood Death Syndrome, синдром внезапной смерти Northwood), более известного как электроперенос.

Этот фактор, а также то, что 1.6A вредила продажам дорогих моделей Intel, заставило компанию прекратить продажи 1.6A всего шесть месяцев спустя после его выпуска в январе 2002 года.

Intel Xeon LV 1.6 D1 revision (Prestonia)



Дата выпуска: сентябрь 2003 года

Стандартная тактовая частота: 1,6 ГГц

Разгон: 2,6 3,2 ГГц (~63%)

Чаще всего разгон ассоциируется с игровыми системами, однако больше десятка лет большую популярность имел двухпроцессорный разгон. Задолго до того, как QX9775 и плата Intel Skulltrail стали синонимами производительности, многие фанаты охотились за бюджетными Xeon LV 1.6.

По сути, ядро Prestonia являлось процессором Pentium 4 Northwood, в который в качестве стандартных функций были добавлены SMP (симметричная многопроцессорная обработка данных) и HyperThreading. Хотя 1,6-гигагерцовый Xeon ценой всего 200 долларов потреблял многообещающие 1,274 В, оверклокеры обычно не могли воспользоваться возможностью повышения напряжения, поскольку большинство плат имели её блокировку. Однако простым повышением частоты системной шины можно было получить 2,6 ГГц.

Если пользователь был больше склонен к авантюрам, он мог воспользоваться тремя аппаратными модами и получить разгон на 100% (или даже больше!): модом U-Wire, при котором соединялись два (1,5 В) или три (1,6 В) набора контактов сокета, модом BSEL, изолирующим или размыкающим контакты CPU, повышая при этом предел FSB до 200 МГц, или модом vDIMM, повышающим напряжение ОЗУ.

Тех, кто пожелал расширить пределы технологий, ждала награда в виде 3,2-гигагерцовой производительности сдвоенных процессоров примерно за 700 долларов (общая стоимость процессоров, кулеров, платы и ОЗУ).

AMD Athlon XP 1700+ (Thoroughbred-B)



Дата выпуска: 10 июня 2002

Стандартная тактовая частота: 1,46 ГГц

Разгон: 2,2 2,5 ГГц (~44%)

Первый Thoroughbred-A представлял собой практически предыдущий Palomino с уменьшенным размером кристалла и в качестве готового продукта довольно сильно разочаровывал. Выпущенный в июне 2002 года AMD Thoroughbred-B был более адаптирован к 130-нанометровому техпроцессу, что отразилось в повышении частот ядра, а также увеличении эффективности, поскольку версия B демонстрировала примечательные возможности разгона при минимальном повышении напряжения или вообще без повышения.

В сочетании с мощной материнской платой на чипсете nForce2 процессор XP 1700+ ценой 60 долларов при стандартном напряжении был способен достичь скорости ядра почти 2 ГГц. С платой на nF2, способной поднимать частоту системной шины выше 200 МГц, возможно было добиться стабильного разгона на 40% при умеренных 1,7 В, что превышало производительность флагмана AMD Athlon XP 2800+ за 397 долларов и создавало угрозу Intel Pentium 4.

Intel Pentium D 820 / D 805



Дата выпуска: 26 мая 2005 года (D 820) / декабрь 2005 (D 805)

Стандартная тактовая частота: 2,8 ГГц / 2,66 ГГц

Разгон: 3,5 4,2 ГГц (~26%)

Pentium D 820 оказался довольно выдающейся аномалией два одиночных ядра в корпусе многочипового модуля по гораздо более низкой цене, чем самый дешёвый двухъядерный AMD Athlon 64 X2 (241 долларов), даже дешевле на 30 долларов, чем одноядерный Athlon 64 3500+. Pentium D 820 обеспечивал умеренную производительность, ни в коей степени не конкурировавшую с двойным Athlon, однако имел приличный потенциал для разгона благодаря разумному напряжению и при наличии хорошей воздушной или водяной системы охлаждения.

Появление Intel D 805 (129 долларов) ещё больше привлекло внимание бюджетных оверклокеров к горячему процессору Netburst. Снижение номинальной частоты системной шины с 200 до 133 МГц компенсировалось множителем 20x процессора D 805, благодаря чему разгон оставался интересным процессом. Для людей с ограниченным бюджетом D 805 в сочетании с платой на 945P и соответствующим ОЗУ обеспечивал производительность, доступную сборкам с процессорами за 500 долларов.

Intel Pentium Dual Core E2140 / E2160



Дата выпуска: 3 июня 2007 года

Стандартная тактовая частота: 1,6 ГГц (E2140) / 1,8 ГГц (E2160)

Разгон: 2,7 3,2 ГГц (~89%) / 2,9 3,5 ГГц (~92%)

Серия E2000 компании Intel стала одновременно сигналом о кончине последнего выжившего Pentium D с NetBurst и о доминировании AMD на бюджетном рынке. Intel вдвое уменьшила кэш L2 серии E4000, а также ослабила производительность системной шиной на 200 МГц (800 FSB). Однако при этом Intel не избавилась от способностей процессора Conroe к разгону.

При стандартных напряжениях и обычном кулере можно было достичь повышения тактовой частоты на 50%, просто подняв скорость шины 300 МГц или на недорогой плате с Intel P965/P35, или на плате с чипсетом Nvidia 650i SLI, который благодаря тому, что не полагался на делители частоты памяти, обеспечивал более широкие возможности настройки.

Купленный с рук воздушный кулер, регулировка напряжения и немного удачи в кремниевой лотерее этого было достаточно, чтобы разогнать процессоры почти на 100%, обеспечив производительность примерно на уровне E6700 при цене в разы меньше.

AMD Phenom II X2 550 Black Edition (Callisto) / X4 955 Black Edition (Deneb)



Дата выпуска: 1 июня 2009 года (X2 550 BE) / 23 апреля 2009 года (X4 955 BE)

Стандартная тактовая частота: 3,1 ГГц / 3,2 ГГц

Разгон: 3,7 3,9 ГГц (~22%)

Выпуск новой версии архитектуры AMD K10.5 в первые месяцы 2009 года стало символом силы компании в нише бюджетных продуктов. Появление процессоров Black Edition также добавило приятное дополнение в виде разлоченного множителя для упрощения разгона.

Хотя в конечном итоге повышение тактовых частот по историческим стандартам было не особо впечатляющим, оно шло рука об руку с действительным ростом производительности, выводившим процессор из тени Core 2 Quad. При цене 100 долларов 550 Black Edition представлял огромную ценность в случае возможности разблокировки двух отключенных ядер (разблокировка четвёртого ядра станет важнейшим выигрышным моментом для X3 720 BE), а чистая производительность 955 BE за 245 доллара гарантировала, что его потенциал может превзойти только более дорогая платформа X58.

Intel Core 2 Duo E6600 (Conroe)



Дата выпуска: 27 июля 2006 года

Стандартная тактовая частота: 2,4 ГГц

Разгон: 3,0 4,0 ГГц (~45%)

На момент выпуска в июле 2006 Intel Conroe основное внимание было привлечено к разблокированному множителю X6800, однако самую важную роль сыграл самый дешёвый полнофункциональный чип (4 МБ кэша L2). Чип при цене 316 долларов стоил на 200 долларов дешевле, чем следующий по производительности (E6700) и обеспечивал результаты, соперничавшие с самыми мощными AMD Athlon 64.

При стандартном охлаждении и напряжении можно было рассчитывать, что E6600 достигнет 2,7-3 ГГц. При покупке более мощного подержанного кулера ограничивающим фактором часто оказывалась стабильность материнской платы, потому что скорости системной шины превосходили 400 МГц и приближались к 450 МГц. Потенциал оверклокинга был настолько велик, что цены X6800 (999 долларов) и Athlon 64 FX-62 (799 долларов) казались очевидно смешными при сравнении с ценой и производительностью E6600.

Intel Core 2 Duo E8400 E0 Revision (Wolfdale-6M)



Дата выпуска: 7 января 2008 года (версия C0)/ 18 июля 2008 года (версия E0)

Стандартная тактовая частота: 3,0 ГГц

Разгон: 4,0 4,5 ГГц (~41%)

Сразу после появления в январе 2008 года версии C0 процессора Wolfdale E8400 он сразу же зарекомендовал себя как доступный процессор с возможностью повышения производительности. Пять месяцев спустя версия E0 обеспечила гораздо более усовершенствованные требования к напряжению. Некоторые E8400 в версии C0 были способны работать на уровне 4 ГГц, а в новой версии той же частоты можно было достичь при стандартном напряжении, параметрах и кулере.

Ко времени выпуска E0 цены на OEM-комплект упали до 149 долларов, а различные многофункциональные платы на P45 и X48 способны были поддерживать скорости шины в пределах 500 МГц (2000 МГц FSB). Сохранение стабильности эти систем с частотой от 4 ГГц и выше стало свидетельством качества как архитектуры, так и чипсетов.



На правах рекламы


Наша компания предлагает в аренду серверы с процессорами от Intel и AMD. В последнем случае это эпичные серверы! VDS с AMD EPYC, частота ядра CPU до 3.4 GHz. Максимальная конфигурация 128 ядер CPU, 512 ГБ RAM, 4000 ГБ NVMe.

Подробнее..

Перевод Четыре. Восемь. Шесть

26.11.2020 22:04:35 | Автор: admin


Первый серийно выпускаемый процессор, плотность транзисторов которого достигла отметки 1 млн. Его появление навсегда изменило представление о производительности компьютеров. Darren Yates рассказывает о легендарном процессоре Intel и его истории.


Сегодня рынок CPU для ПК это хорошо отлаженная машина для производства и сбыта. Эти процессы ежегодно совершенствуется и сравнимы с часовым механизмом. В самом деле, любой перенос даты выпуска гарантированно станет новостью.
Однако давайте перенесёмся в 1989 год, когда после четырёх лет ожидания Intel наконец выпускает одну из своих наиболее значимых моделей процессоров. Это первый массово выпускаемый CPU, достигший отметки 1 миллион транзисторов, а также первый чип со встроенным модулем обработки операций с плавающей запятой (FPU). Впоследствии он станет одним из первых микропроцессоров с архитектурой x86, который преодолеет барьер в 100 МГц. Кроме того, с ним связана одна из самых ожесточённых битв в истории за патент на технологию. Это процессор Intel 80486.

Жажда скорости


К концу 1980-х годов идеи IBM относительно развития персонального компьютера нашли своё подтверждение. Сочетание программного обеспечения и железа, имеющего совместимые с IBM компоненты, стало всё чаще встречаться на рынке ПК. Эта комбинация нанесла сокрушительный удар по 8-битным домашним компьютерам.
Выпущенные в 1985 году процессоры 80386 от Intel также имели оглушительный успех, и не в последнюю очередь благодаря недавно появившемуся бренду ПК Compaq. После выпуска первого ПК в 1981 году IBM могла бы стать центром притяжения электронно-вычислительных машин. Однако появление Deskpro 386, первого компьютера на чипе 80386 фирмы Compaq, свидетельствовало о смене лидера на рынке ПК. Впервые чип имел 32-битную обработку данных, и это могло бы продвинуть всю индустрию на 20 лет вперёд. Но, несмотря на этот успех, ему было ещё далеко до той архитектуры, которую мы знаем сегодня. Число операций в секунду у 80386-го увеличилось на 50% по сравнению с 80286-м (0,33 против 0,21). Но поскольку сопроцессора и встроенной кэш-памяти у него не было, а спрос на увеличение производительности всё возрастал, то 386-му с его 275 000 транзисторами было больше особенно нечего предложить.


Compaq Deskpro 386 первый ПК, превзошедший по производительности IBM

80486-й процессор, выпущенный в 1989 году, получил немного улучшенный набор команд. Главной же его отличительной чертой была прорывная для того времени скорость. В тестах производительности при относительно умеренных 25 МГц он разносил разогнанный до 33 МГц процессор 80386. Благодаря внедрению кэш-памяти L1 (скромные 8 Кб) и встроенного FPU среднее число операций в секунду 80486-го увеличилось более чем в два раза и достигло достигала пика при 1 MIPS/МГц. Производительность самого быстрого в ту пору из 80386-х процессоров 386DX-33 достигала 10 MIPS. Те же, кто мог позволить себе 25-мегагерцевый 80486-й (когда он только поступил в продажу, стоил в три раза дороже 386-го), пускали в ход в среднем 20 MIPS при максимальных 25 MIPS. 80486-й также имел много других тузов в рукаве. Например, более быстрый пакетный режим загрузки памяти, в ходе которого пересылалось 16 байт кэша внутри 5 тактовых циклов. Это на 3 цикла быстрее, чем у его предшественника. Подобно процессору 80386 32-битная адресация 80486-го позволяла обрабатывать 4 Гб оперативной памяти, но из-за существующих в то время цен большинство систем ограничивались лишь 16 Мб ОЗУ.
Тем не менее благодаря 80486 пользователи могли ощутить вкус будущего. Это случилось благодаря выходу новой Windows 3.1 от Microsoft, 3D-игр, тайтлов вроде Wolfenstein 3D. Множество ПК со временем также обновилось до Windows 95.

На равных правах


IBM решила собирать персональные компьютеры из готовых компонентов поставщиков и позволила своим ключевым партнёрам Intel и Microsoft перепродавать эти компоненты другим брендам. Так появилось выражение IBM-совместимый, бытовавшее в лексиконе каждого покупателя компьютера. Как правило, на IBM-совместимые компьютеры можно было установить огромное число программ. И, поскольку далеко не каждое ПО можно было поставить на домашний ПК 80-х годов, то можно сказать, что совместимые с IBM ПК сделали революцию на рынке.
Новый IBM 5150 мгновенно обрёл популярность. К тому же Синий великан сделал его в рекордно короткие сроки. Однако вместе с огромным успехом пришло и беспокойство по поводу системы снабжения, и, заключая с Intel контракт на поставку CPU, IBM потребовала от неё предоставить второй источник поставки чипов на случай, если та не будет справляться одна. Intel выбрала AMD. В результате сделки AMD предоставлялся доступ к 8086/88 процессорам, а также к новой технологии производства 80286-го CPU. Однако впоследствии это партнёрство привело к одной из самых ожесточённых технологических судебных тяжб в истории.


Персональный компьютер IBM 51502

В те дни главным клиентом Intel была IBM, которая главенствовала на рынке ПК. И хотя IBM-совместимые ПК вытеснили с рынка домашние 8-битные компьютеры, Синий великан всё же сдавал свои позиции. Фирма Compaq начала наступать ему на пятки, особенно после выпуска 80386-го процессора Intel в 1985-ом. Выход Compaq Deskpro 386 на следующий год стал знаковым событием в новом IBM-совместимом мире. Теперь потребители осознали, что CPU внутри коробки значит больше, чем логотип, приклеенный на неё. Более того, единолично контролируя процесс производства CPU, Intel поняла, что имеет на руках козырную карту и готова была разыграть её.

Не говорите про войну


По мере того, как позиции IBM ослабевали, а Intel укреплялись, последняя решила не делиться с AMD подробностями о своём новом сокровище 80386-м процессоре.
AMD посчитала это нарушением их текущего соглашения об обмене технологиями и попросила суд разрешить спор в 1987-м. Конец войне был положен лишь спустя 22 года в 2009-м, когда Intel выплатила 1,25 млрд. долл. в качестве окончательного расчёта. Так что забудьте о противостоянии Apple и Samsung битва Intel vs AMD остаётся золотым стандартом из-за продолжительности судебных тяжб. Интересно, что основатели Intel и AMD работали в одно и то же время в компании, которая была первопроходцем в создании чипов Fairchild Semiconductor. После ухода из Fairchild Гордон Мур и Роберт Нойс основали Intel в 1968 году, а Джерри Сандерс AMD.

Основатели Intel (слева направо): Эндрю Гроув, Роберт Нойс и Гордон Мур (1978)

Intel Inside





Новый дизайн 80486-го повлёк изменения, которые сформировали облик современных ПК. Версия 486DX2, появившаяся в марте 1992 года, помимо встроенного сопроцессора и кэша L1, получила первое крупное обновление. Теперь тактовая частота ядра CPU не зависела от передней системной шины, а благодаря коэффициенту умножения, равному двум, новые чипы 486DX2-40 и -50 можно установить на место прежних 5-вольтных CPU, и тем самым значительно увеличить скорость работы ПК. Пользовавшийся огромной популярностью 486DX2-66 появился в августе того же года.


Кристалл процессора Intel 486DX2-66

Несмотря на запуск нового процессора 5-го поколения Pentium в 1993-м, Intel не останавливала производство 486-х процессоров, и в начале 1994 года выпустила серию DX4. Кэш L1 в DX4-100 увеличился в 2 раза, достигнув отметки 16 Кб, а тактовая частота впервые достигла 100 МГц тот же показатель был у Pentium-100. Кроме того, 80486-й был в центре внимания знаменитой маркетинговой кампании Intel Inside, запущенной в 1991 году.

Атака клонов


Решение не делиться с AMD технологией производства 80386-го CPU дало Intel свободу действий на быстро развивающемся рынке ПК. Однако AMD посчитала, что ранее заключённое соглашение об обмене технологиями распространяется и на 80386-й, поскольку тот является производным продуктом от 80286-го. Так благодаря методу обратной разработки AMD создала собственный чип Am386. Процесс предположительно занял 1,5 года, но из-за правовых заморочек чипы не попадали на полки магазинов до 1991 года. Тем не менее процессоры пользовались успехом, поскольку были на 40 МГц быстрее лучшего CPU от Intel, который мог выдавать лишь 33 МГц, а также дешевле и потребляли меньше энергии.
Первое поколение Am486 от AMD также повторяло дизайн процессоров Intel. Произведённые в апреле 1993 года чипы Am486DX представляли собой модели, мощность которых была рассчитана на 25, 33 и 40 МГц. Второе поколение, DX2, выпущенное на следующий год, являло собой чипы на 50, 66 и 80 МГц. Последнее поколение чипов, DX4, 1995 года представляло собой верх производительности и выдавало 120 МГц.


Am486 от AMD, производительность которого аналогична оригинальному CPU Intel

Однако путь 486-го CPU от AMD к потребителю был нелёгок. Арбитражный иск AMD, изначально поданный в 1987 году, привёл к 8-летней судебной войне между чипмейкерами. Несмотря на то, что AMD удалось отбить Am386-й у Intel, сражение за 80486-й тянулось до тех пор, пока обе стороны не пошли на мировое соглашение и AMD не получила доступ к системе микрокоманд интелевского 486-го процессора. Предположительно, это обстоятельство привело к появлению двух версий 486-го процессора от AMD: первая имитировала микрокод Intel, вторая использовала систему микрокоманд AMD через процесс под названием clean room design. Для Intel же было более важно, что мировое соглашение подтверждало, что 80486-й был последним клонированным AMD процессором.

Встречайте Cyrix


С другой стороны, 486-ми CPU заинтересовалась новоиспечённая компания Cyrix, которая в то время специализировалась на сопроцессорных чипах для систем 80286/386. Cyrix был чипмейкером без собственных производственных мощностей. Для изготовления процессоров он использовал SGS-Thomson (сейчас это ST Microelectronics), Texas Instruments и IBM. Первые версии 80486-го чипа от Cyrix появились под кодовым названием 486SLC/DLS в 1992 году и были установлены в модуль 80386. Ввиду того, что ПК в то время стоили гораздо дороже, чем сегодня, существовал большой спрос на товары, предназначенные для тех пользователей, кто желал сохранить в порядке текущую систему и просто обновить процессор. Однако Cyrix 486xLC с 1 Кб кэша L1 и без FPU не были совместимы с оригинальными 486-ми процессорами от Intel. В 1993 году Cyrix выпустил Cx486DX и DX2, и они больше походили на интелевские CPU.


Cyrix486. Первый популярный процессор компании Cyrix.

Тем не менее производители начали судиться друг с другом: Cyrix подала антимонопольный иск к Intel, а Intel обвинила Cyrix в нарушении патентных прав. В январе 1994 г. благодаря текущим контрактам между Intel, производителем чипов Texas Instruments и SGS Thomson, компания Cyrix одержала победу в суде, отказавшись при этом от антимонопольного иска.
Тем временем появление Intel Pentium в 1993 году с новым сокетом CPU заставило владельцев 486-х процессоров искать альтернативы. Вдохновившись победой в суде, Cyrix начала специализироваться на выпуске продуктов для улучшения работоспособности CPU. Выпущенный в 1995-м процессор 5x86 разгонялся до 120 МГц и был прямой заменой для 486-х систем, функционирующих при напряжении 3,3 вольт. Процессор Cyrix 5x86, по сути, был упрощённой энергоэффективной альтернативой Pentium, построенной на основе ядра M1. Уровень производительности 5x86 был сопоставим с Pentium-75.


Кристалл Cyrix 486-го CPU

После урегулирования дел с Intel в 1995 AMD также стала успешно внедрять на рынок компоненты для обновления ПК и выпустила Am5x86 в ноябре того же года. Это был значительно улучшенный 133-мегагерцевый процессор 80486, который предлагал удвоенный кэш L1 и встроенный множитель X4 для работы на оригинальной плате DX.
Неудивительно, что Intel, увидев, как AMD и Cyrix приторговывают обновлёнными компонентами, вытащила свою большую пушку и выпустила в 1995-м Pentium OverDrive. Это был усовершенствованный процессор Intel Pentium со множителем 2,5 внутри 80486-го модуля. Он мог работать на плате при 5 и 3,3-ваттах и поддерживал шины на 25 или 33 МГц. Но из-за низкой скорости максимальный показатель всего 83 МГц и высокой цены чипы OverDrive не получили широкого распространения.


Intel создал Overdrive в качестве апгрейда для 486-х систем

Сколько?


По нынешним меркам ПК, выпускавшиеся в начале 90-х годов, стоили недёшево. Компьютер на базе процессора 486DX2-66, с монитором VGA, 4 Мб оперативной памяти, жёстким диском на 320 Мб и двухскоростным CD-ROM от брендов вроде Olivetti или Compaq продавались примерно за 3 500$. Вместе с тем ПК на базе Pentium-133 с ОС Windows 95 1995 года выпуска стоил целых 7 800$.
Однако одним из важнейших с позиции потребителя решений IBM относительно концепта персональный компьютер было разрешение Microsoft и Intel перепродавать их собственные продукты другим брендам. Это означало, что любой человек, с достаточным багажом знаний и храбрости мог считать себя ПК производителем. Многие так и начинали: по одному или по двое. В их числе широко известные бренды вроде Gateway и Dell. Покупая компоненты у менее крупных производителей, вы могли бы сэкономить до 40%. Т. е. цена на ПК снизилась бы с 3 000$, до 1 800$. Да ещё бы функциональных возможностей добавилось.

486-й сегодня


Итак, как же спустя 30 лет на фоне нынешних чудо-чипов смотрится наш 80486-й? Нет сомнений в том, что производительность 486-го в миллион команд в секунду можно назвать весьма скромной, особенно по сравнению с нынешним Ryzen Threadripper 3990X от AMD с 64 ядрами и заявленными 500 MIPS на ядро. Тем не менее найти компьютер со схожей 486-му CPU производительностью на рынке можно.
Вспомнить хотя бы STM32F103C8T6 32-битный микроконтроллер Cortex-M3. Он был спроектирован ARM, компанией, которая создаёт CPU для смартфонов, и произведён ST Microelectronics. Его тактовая частота равняется 72 МГц, а быстродействие 1,25 MIPS. Нередко Cortex-M3 используется в проектах на Arduino. Его можно купить на Ebay за 5$.


STM32F103 на плате за 5$ работает немного быстрее, чем 80486-й

Наследие


Имея в арсенале более 70 различных моделей в исполнении Intel, AMD и Cyrix (не учитывая версии CPU от IBM, SGS-Thomson, Texas Instruments и других производителей), 80486-й может составить конкуренцию 8086-му по количеству разновидностей и модификаций.
И всё же, несмотря на огромное число двойников и улучшенных версий, производство 80486-х пошло на убыль, когда случилась революция под названием Windows 95. Microsoft поменяла представление о персональных компьютерах, а Intel стала успешной благодаря выпуску новых процессоров Pentium.
По мере того как Pentium набирал популярность, Intel стала выпускать 486-е для промышленных приложений, лишь однажды остановив их производство в 2007-м, и проложила тем самым путь к быстро растущему рынку встроенных процессоров.
С тех пор появилось и исчезло не одно поколение процессоров, однако наследие 80486-го множитель шины, встроенный кэш и FPU живы и поныне. Хорошая работа, 80486-й.
Подробнее..

Ryzen 5000 действительно ли AMD сделала лучшие мобильные процессоры для игровых ноутбуков

13.01.2021 16:08:51 | Автор: admin

Накануне, в рамках технологической выставки CES 2021, исполнительный директор AMD Лиза Су представила новую серию мобильных процессоров Ryzen 5000. Новая линейка включает CPU с низким TDP в 35 Вт, процессоры серии U с низким электропотреблением и суперпроизводительные процессоры серии H с оверклокингом до 45 Вт. Все это, по словам представителей AMD, делает их идеальными чипами для компактных и легких игровых ноутбуков. Устройства на базе новых мобильных процессоров ожидаются на рынке уже в феврале 2021 года.

Анонс стал логичным продолжением дебюта серии десктопных процессоров Ryzen 5000, который обозначил появление новой микроархитектуры Zen 3.

Серия U


Не все мобильные CPU серии Ryzen 5000 используют преимущества архитектуры Zen 3. Из процессоров серии U на базе Zen 3 работают только модели Ryzen 7 5800U и Ryzen 5 5600U. Остальные используют Zen 2, на базе которой работает предыдущее поколение мобильных процессоров Ryzen 4000, анонсированных год назад. То есть всеми преимуществами процессора, который позволил AMD обогнать Intel по ряду параметров (энергоэффективность, например), они, увы, не обладают.

Хедлайнером серии U стал Ryzen 7 5800U: 8 ядер, 16 потоков, тактовая частота 1,9 ГГц, которая в режиме Boost может увеличиваться до 4,4 ГГц. AMD утверждает, что этот чип обеспечивает самую высокую производительность среди ультратонких ноутбуков.

Согласно тестам компании бенчмарком PCMark 10, производительность нового процессора превосходит Intel Core i7-1165G7 в 1,23 раза, в том числе в тесте с офисными приложениями вроде Excel и Edge. Компания также утверждает, что 5800U обеспечивает весьма продолжительную автономность устройства. В режиме воспроизведения видео продолжительность автономной работы 21 час. В обычном режиме показатель автономности до 17,5 часов. Что ж, цифры интригуют.

Серия H


Для серии H, в которой AMD выпускает более производительные процессоры, компания добавила новый уровень HX. Такие CPU хорошо поддаются разгону вплоть до 45 Вт.


Крупным игроком серии H стал Ryzen 9 5980HS, также с 8 ядрами и 16 потоками, но с тактовой частотой 3,0 ГГц, увеличивающейся до 4,8 ГГц в режиме Boost. AMD заявляет, что это самые быстрые мобильные процессоры, которые только можно получить. Действительно ли это так, покажет время. Но на данный момент можно с уверенностью сказать: 5980HS побил в производительности Ryzen 9 4900HS (а это, на секунду, настоящий монстр, на котором работает Asus Zephyrus G14).

Бенчмаркинг, проведенный AMD, показал, что Ryzen 9 5980HS превосходит Intel Core i9-10980HK на Cinebench R20 как в однопоточном, так и в многопоточном режимах. Превосходит он по этим параметрам и новый Intel Core i7-1185G7.

Ryzen в ноутбуках


Ряд производителей ноутбуков уже используют новые и обновленные процессоры серии Ryzen 5000. Лучшее от продуктов AMD забрал Asus: самые производительные CPU 5900HX теперь работают в ROG Zephyrus Duo SE и ROG Strix Scar. А Ryzen 5980HS теперь в ноутбуке Asus ROG Flow X13. Новинку AMD использует и Acer в своем Nitro 5 здесь также можно найти модели с высокопроизводительным 5900HX.

Исполнительный директор AMD заявила также, что новые процессоры появятся в 150 новых моделях ноутбуков разных вендоров в этом году. Первые ласточки появятся в продаже уже в феврале.

Характеристики всей серии процессоров в таблице.

Model Cores /
Threads
TDP (Watts) Boost / Base Frequency
(GHz)
Cache (MB)
AMD Ryzen 9 5980HX 8C / 16T 45W+ Up to 4.8 / 3.3 GHz 20
AMD Ryzen 9 5980HS 8C / 16T 35W Up to 4.8 / 3.0 GHz 20
AMD Ryzen 9 5900HX 8C / 16T 45W+ Up to 4.6 / 3.3 GHz 20
AMD Ryzen 9 5900HS 8C / 16T 35W Up to 4.6 / 3.0 GHz 20
AMD Ryzen 7 5800H 8C / 16T 45W Up to 4.4 / 3.2 GHz 20
AMD Ryzen 7 5800HS 8C / 16T 35W Up to 4.4 / 2.8 GHz 20
AMD Ryzen 5 5600H 6C / 12T 45W Up to 4.2 / 3.3 GHz 19
AMD Ryzen 5 5600HS 6C / 12T 35W Up to 4.2 / 3.0 GHz 19
AMD Ryzen 7 5800U 8C / 16T 15W Up to 4.4 / 1.9 GHz 20
AMD Ryzen 7 5700U 8C / 16T 15W Up to 4.3 / 1.8 GHz 8
AMD Ryzen 5 5600U 6C / 12T 15W Up to 4.2 / 2.3 GHz 19
AMD Ryzen 5 5500U 6C / 12T 15W Up to 4.0 / 2.1 GHz 8
AMD Ryzen 3 5300U 4C / 8T 15W Up to 3.8 / 2.6 GHz 6

AMD vs Intel


Мобильные процессоры Ryzen 5000 напрямую конкурируют с процессорами Tiger Lake H35 11-го поколения, которые Intel представил несколько дней назад. Все три чипа, включая два Core i7 и один Core i5, имеют максимальную мощность 35 Вт и всего четыре ядра и восемь потоков половину от характеристик Ryzen. Однако Intel заявила, что позже появится восьмиядерный процессор с тактовой частотой до 5 ГГц.

Как бы то ни было, обе компании уже начали информационную войну, меряясь характеристиками в сравнительных таблицах и проводя собственные тесты. Но оценку фактической производительности процессоров и определение победителя придется оставить до выхода процессоров на рынок, когда их протестируют независимые эксперты.


Что еще


Представитель AMD также представила готовящийся к выпуску серверный чип AMD EPYC третьего поколения под кодовым названием Milan. На тесте 32-ядерный двухпроцессорный чип превзошел двухпроцессорный Intel с чипами Xeon Gold 6258R с преимуществом по производительности 68%.

Подробнее..

Компания IBM изготовила полупроводники с техпроцессом 2 нм. В чем же подвох?

10.05.2021 20:18:52 | Автор: admin
image

Компания IBM освоила производство полупроводников с технологическим процессом 2 нм. Если не обнаружится никаких нюансов, то в скором времени можно ожидать просто огромного роста производительности и энергоэффективности чипов.


Хронология уменьшения размера технологического процесса


Наиболее известное правило в мире высоких технологий наблюдение, или закон Мура, гласит: каждые два года количество транзисторов на чипе увеличивается вдвое. Владельцы компьютеров могут вспомнить свои первые ПК, сравнить их с существующими современными моделями. Новое устройство всегда компактнее и мощнее предыдущего: согласно закону Мура, каждые 24 месяца количество чипов на интегральной схеме также увеличивается в два раза.
Этой формуле более 50 лет, она стала основной концепцией для создания современной техники, но, согласно подсчетам, закон Мура не вечен. Человечество уже подходит к максимальным возможным значениям в производстве полупроводников.


В 2007 году Мур признал, что вскоре закон утратит свою силу так как есть предел темпа развития технологий.

3 мкм такого технологического процесса компания Zilog достигла в 1975 году, Intel в 1979-м.
1,5 мкм Intel уменьшила технологический процесс до этого уровня в 1982 году;
0,8 мкм уровень Intel в конце 1980-х.
0,60,5 мкм компании Intel и IBM находились на этом уровне в 19941995 годах;
350 нм Intel, IBM, TSMC к 1997-му;
250 нм Intel, 1998 год;
180 нм Intel и AMD, 1999 год.
130 нм этого уровня компании Intel, AMD достигли в 20012002 годах;
90 нм Intel в 20022003 годах;
65 нм Intel в 20042006 годах;
4540 нм Intel в 20062007 годах;
3228 нм Intel в 20092010 годах;
2220 нм Intel в 20092012 годах;
1416 нм Intel наладила производство таких процессоров к 2015 году;
10 нм TSMC делала такие процессоры уже в 2016-м, а Samsung в 2017 году;
7 нм TSMC, 2018 год;
6 нм TSMC только анонсировала такой технологический процесс в 2019 году;
5 нм TSMC начала тестирование такого техпроцесса в 2019 году;
3 нм Samsung обещает делать процессоры с таким технологическим процессом к 2021 году.
2нм IBM освоило производство в 2021 году.


Основная часть


image


По словам представителей компании, инженеры IBM смогли разместить 50 миллиардов транзисторов на пластине, площадь которой сопоставима с площадью ногтя. Площадь кристалла составила 150 мм квадратных, а это означает, что на квадратный миллиметр поместилось 333.3 миллиона транзисторов. Плотность воистину потрясающая: для сравнения у топовых продуктов TSMC она составляет 91.2 миллиона, а у Intel 100.8. Подобный прорыв может стать настоящей революцией в мире цифровых технологий.
Ниже приведен список популярных компаний и размер их процессора и количество транзисторов.


Manufacturer Example Process Size Peak Transistor Density (millions/sq mm)
Intel Cypress Cove (desktop) CPUs 14 nm 45
Intel Willow Cove (laptop) CPUs 10 nm 100
AMD (TSMC) Zen 3 CPUs 7 nm 91
Apple (TSMC) M1 CPUs 5 nm 171
Apple (TSMC) next-gen Apple CPUs, circa 2022 3 nm ~292 (estimated)
IBM May 6 prototype IC 2 nm 333

Переход на 2-нм техпроцесс может повысить производительность на 45%, а если в приоритете поставить энергоэффективность, то при нынешних показателях производительности она вырастет на 75%, если сравнивать с топовыми на данный момент 7-нм чипами, что в первую очередь существенно отразится на автономности мобильных устройств.


image

Действительно ли IBM сделали 2нм процесс или это только маркетинговый ход? Разберем на примере 14 и 7нм у двух ведущих компаний по производству процессоров.


Пристальное изучение полученных изображений полупроводниковой структуры показало несколько любопытных фактов. Так, различия ширины затвора транзистора у 14 и 7 нм техпроцессов оказались минимальны: 24 нм у Intel против 22 нм у AMD, высота затворов так и вовсе оказалась равна на уровне погрешности. Как видим, никакого кратного отличия, на которое намекают маркетинговые наименования техпроцессов, нет.


image

Это ещё раз подтверждает тезис о том, что числа в названии современных литографических технологических процессов уже давно не имеют ничего общего с реальностью. Так, компания Samsung созналась, что её 8 нм технология это просто 10 нм с новой библиотекой элементов и обновлённым трассировщиком.


image

Всё это наводит на некоторые мысли. Так, рост производительности процессоров AMD RYZEN вероятнее всего может быть обусловлен в первую очередь именно инженерной работой и совершенствованием архитектуры, а не успехами TSMC в переименовании своих техпроцессов. Следовательно, ощутимый прирост от поколения к поколению будет зависеть от задела к модернизации, избранной AMD технологии чиплетов. Поскольку это первый опыт применения данной компоновки кристаллов, делать какие-то долгосрочные прогнозы сложно, но очевидно, что однажды возможности дальнейшего совершенствования будут исчерпаны, и AMD придётся у перейти к схеме +5% каждый год, либо менять парадигму и искать новые пути развития.


В то же время переход процессоров Intel на 10 и 7 нм может принести гораздо больший, чем можно предполагать, прирост, поскольку компания не увлекалась маркетингом нанометров, просто добавляя знаки + к своим 14 нанометрам, следовательно, новый техпроцесс может оказаться действительно значительно более продвинутым. Кроме того, Intel уже смотрит в будущее и проводит исследования в области альтернативных методов пространственной компоновки транзисторов и структур кристалла процессора.


Как бы то ни было, становится очевидно, что пресловутые числа в названиях техпроцессов не отражают физической реальности и размеров полупроводниковых элементов. Грядущие 5 и 3 нм от TSMC и Samsung, вероятнее всего, так же будут представлять из себя по сути 7++ и 7+++ технологии. Размеры элементов транзистора уменьшаются незначительно, увеличение плотности размещения транзисторов на единице площади достигается в первую очередь совершенствованием библиотек элементов, развитием программ-автотрассировщиков, оптимизацией самой структуры и компоновки блоков кристалла.


Какие же недостатки будут в производстве процессоров меньше 5нм?


image

Переход на новые уровень становится все сложнее. Используемые 5 7 нм обеспечивают должную производительность и компактность практически для всех существующих задач. Помимо этого проблема роста производительности успешно решается путем наращивания количества ядер. Причем этот показатель растет впечатляющими темпами.


Стоимость только создания производственной линии нового поколения исчисляется в сотнях миллиардов долларов. О том, во сколько обойдется создание завода для более мелких техпроцессов, остается только догадываться.


Повышение плотности расположения транзисторов имеет ряд существенных проблем. Первая тепловыделение. Самые горячие процессоры от Intel имеют TPD (уровень теплоотдачи) больше 250 Вт. Становится уже недостаточно даже воздушного охлаждения. Дальнейшее повышение плотности приведет к тому, что схемы будут просто выгорать.


Другая более существенная проблема квантовые процессы. При переходе на единицы нанометров существенно возрастает ток утечки, и эта проблема распространяется на другие транзисторы. В итоге, критически страдает энергопотребление. Не стоит забывать и про эффект туннелирования, который делает невозможным проектирование стабильно работающей архитектуры.


Каковы перспективы будущего? Пока есть запас в виде технологий 5, 3 и даже 2 нанометра. Не стоит забывать и про квантовые компьютеры. Пока они служат только для узкоспециализированных задач, но это временно. А значит, опасаться, что уже в текущем десятилетии мы упрёмся в физические ограничения создания транзистора на атомном уровне, не стоит. Тормозом станет, скорее, непомерная стоимость разработки и изготовления более совершенных степперов и проблема с созданием новых сверхмощных источников УФ-излучения. Впрочем, решение, возможно, уже не за горами и кроется в применении новых материалов, в частности соединений германия, гафния, либо графена. Но это уже совсем другая история.

Подробнее..

Ровесник динозавров обзор лэптопа IBM 5155

12.06.2021 12:08:35 | Автор: admin

На рынке микрокомпьютеров IBM в начале 80-х годов оказалась в позиции догоняющей. Простые 8-битные машины получили широкое распространение уже во второй половине 70-х, но IBM, занимавшаяся в первую очередь мэйнфреймами и мини-компьютерами, хотела ворваться на бурно развивающийся рынок. Ей требовался по-настоящему прорывной продукт.

Вышедший в 1981 году IBM Personal Computer (5150) не был самым производительным или функциональным, не был он и самым доступным. Его сильными сторонами были 16-битный процессор Intel 8088 (многие микрокомпьютеры того времени были 8-битными) и операционная система MS-DOS, которая, будучи 16-битной, была обратно совместима с наиболее популярной на рынке микрокомпьютеров 8-битной CP/M. Но главным козырем стала открытая архитектура, доступная для создания расширений и повторения другими компаниями.

Благодаря этому, с одной стороны, IBM получила несчетное количество конкурентов, начавших производить клоны IBM PC, а с другой именно IBM PC-совместимые стали самым распространенным в мире типом компьютеров, а термин персональный компьютер вытеснил из употребления прежний микрокомпьютер. А сами микрокомпьютеры развились настолько, что заняли практически все ниши рынка: мини-компьютеры, мэйнфреймы (и пока это единственное место, где держат позиции не x86-процессоры) и суперкомпьютеры.

В последние 10 лет (даже дольше) происходит новая революция: архитектура ARM постепенно завоевывает рынок, начиная с сегмента карманных устройств. Формально ARM-системы уже более распространены, чем х86, полностью завоевав рынок смартфонов и носимой электроники. Но путь в ПК и серверы эта архитектура начала сравнительно недавно, но уже достаточно успешно. Несмотря на наличие сильного и еще более открытого конкурента RISC-V, пока именно у ARM есть все шансы сбросить с трона х86.

Пока же заглянем во времена, когда слово микрокомпьютер было еще в ходу и на примере одного из самых старых экспонатов коллекции Digital Vintage окунемся в атмосферу той эпохи. Наш сегодняшний герой первый переносной компьютер марки IBM, который так и назывался IBM Portable Personal Computer, по каталогу модель 5155.


Наколенный или багажный?


Переносные и блокнотные ПК обычно относят к категории лэптопов, наколенных компьютеров. Но данный экземпляр имеет особый формат Luggable PC, который хоть и относится к лэптопам, портативным является лишь отчасти. Для работы с ним нужен полноценный стол, а портативность ограничена весом более 13 кг. Таким образом, этот компьютер скорее переносной, сдаваемый в багаж, если дословно перевести термин Luggable. Такой форм-фактор не был сильно распространен, но первые портативные компьютеры были выпущены именно в таком формате. Ведь до появления коммерчески доступных матричных плазменных и жидкокристаллических дисплеев в корпус компьютера помещалась электронно-лучевая трубка, требующая для размещения немало места. Компактных трубок в то время еще не существовало.

Сегодня такой формат выглядит очень непривычно и странно: компьютер напоминает научный прибор (например, осциллограф), а в готовом к переноске виде швейную машинку. Первыми компьютерами такого типа были CP/M системы Osborne-1 и Kaypro в 1981. В 1983 появились Hyperion и Compaq Portable, уже с MS-DOS, хотя первый из них не был полностью IBM PC-совместимым. И уже в 1984 году в качестве ответа Compaq появляется наш герой.


Внешне этот обычный Luggable большой бежевый ящик трапециевидной формы (если смотреть сбоку). Это попытка сделать вид устройства более привлекательным, а также придать экрану небольшой наклон для удобства использования, не применяя при этом выдвижных ножек. Сверху удобная и очень прочная ручка для переноски, точь-в-точь как у переносных швейных машин. Под ручкой должна находиться двухстворчатая крышка, закрывающая порты ввода-вывода, но в нашем экземпляре она потеряна. Питается компьютер от встроенного блока питания, выключатель и разъем для подключения питания (110 или 220 В) расположены под той же крышкой.

Все элементы управления находятся снизу, при размещении на столе нижняя панель становится фронтальной. Тут размещен дисплей, ручки регулировки яркости и контрастности, разъем для подключения клавиатуры и два 5,25-дюймовых дисковода на 360 Кбайт каждый. Есть даже небольшая полочка для размещения дополнительных дискет.


Чтобы получить доступ к фронтальной панели, нужно откинуть или снять клавиатуру, которая в закрепленном виде является крышкой панели. В данном экземпляре родная клавиатура утеряна, используется обычная механическая XT-клавиатура. С этим связан интересный факт: разъем клавиатуры спереди выполнен в формате телефонного джека 6P6C, но внутри через весь корпус от него идет кабель к задней панели материнской платы, где он включается в классический разъем DIN5, известный по материнским платам форм-фактора АТ.

Долгая дорога в коллекцию


Забавным и необычным был жизненный путь этого компьютера. Выпущенный, судя по маркировке, осенью 1984 года, в начале 90-х, он попал в Россию, в небольшой городок на Карельском перешейке, где использовался на приемной стойке маленькой гостиницы. Там он проработал какое-то время, пока не был заменен гораздо более современным ПК. Часто, после списания, такая техника попадала домой к сотрудникам предприятия, но этот компьютер, видимо, уже тогда был слишком старым. И все же ему повезло не быть отправленным на свалку. Он остался, но функция его теперь была далека от интеллектуальной. Отныне его задачей стало подпирание двери с пружиной, которая в течение дня должна была оставаться открытой.

Изрядно запыленный и засыпанный опилками, наш Ходор был обнаружен командированным в этот городок другом основателя коллекции. Пару дней он любопытно разглядывал странный девайс, а потом поинтересовался его применением. В ответ прозвучало: Надо забирай! По завершении командировки компьютер был не очень торжественно, но с большой радостью перегружен в машину автора прямо на парковке ближайшего ко въезду в город гипермаркета. Дома машина первым делом была разобрана и тщательно очищена от пыли и набившихся внутрь мелких опилок, после чего была включена. На удивление, машина оказалась полностью рабочей и тут же загрузилась с дискеты.

Мобильный компьютер с полноразмерной начинкой


Прежде чем рассмотреть возможности компьютера, давайте заглянем под крышку корпуса. Для этого открутим 4 винта со стороны фронтальной панели после этого пластиковый кожух легко снимается с металлического шасси. А на шасси нас ждет сюрприз: материнская плата и блок питания от оригинального IBM PC XT, от него же унаследованы и карты расширения. На плате может быть установлено от 64 до 256 Кбайт оперативной памяти в виде обычных микросхем в корпусах DIP, в нашем случае установлен максимальный объем памяти.

Никаких модулей для быстрого расширения памяти придумано еще не было. Впрочем, существовали платы расширения памяти, устанавливавшиеся в обычный слот расширения ISA 8-bit. Процессор 8088 с частотой 4,77 МГц, в нашем случае производства AMD, а не Intel. Сопроцессор не установлен, но есть панелька для него. Еще перед стартом выпуска Personal Computer IBM поставила условие, что производство не должно зависеть от единственного поставщика, и потребовала у Intel выдать лицензию на процессор как минимум еще одной компании. Ей и стала AMD. Это условие также позволило IBM справится со взрывным спросом на новые компьютеры: ни Intel, ни AMD в одиночку не смогли бы справиться с изготовлением требуемого количества микросхем.

Материнская плата и дисководы 5,25

Плата собрана на множестве микросхем на сленге энтузиастов ретрокомпьютинга это называется рассыпухой. Понятия чипсет тогда еще не было, каждая функция логики реализовывалась отдельной микросхемой или даже несколькими. Нет на борту и никаких дополнительных контроллеров все периферийные устройства подключаются исключительно к платам расширения. Нет и памяти для хранения настроек BIOS, как нет и часов реального времени. При включении необходимо установить текущие дату и время, а настроек BIOS просто нет. А выбор количества дисководов выполняется с помощью джамперов. Существовали даже платы RTC, как правило, совмещающие функционал контроллера портов ввода-вывода и собственно часов. Такие платы позволяли не устанавливать время каждый раз при загрузке компьютера.

На плате расположено 8 слотов ISA, так называемых коротких, 8-битных. Шина работает с частотой процессора и соответствует разрядности внешней шины 8088. У более дорогого 8086 она была 16-битной, но в первых IBM PC он не применялся для общего удешевления системы. Именно благодаря тому, что к плате, установленной в такой слот, процессор мог обращаться на практически той же скорости, что и к системной памяти, стали популярны карты расширения памяти. Также была возможность выйти за пределы пресловутых 640 Кбайт, но решения эти были, как правило, проприетарными и довольно костыльными: например, память использовалась как виртуальный диск, где размещался оверлей программы, которая не помещалась целиком в оперативную память.

Компоновка плат расширения в корпусе

Изначально в компьютере установлено четыре карты. Две заводских полноразмерный видеоадаптер CGA и контроллер дисководов. И две опциональных контроллер параллельного порта и плата расширения памяти с поддержкой от 64 до 256 Кбайт. Она, как и материнская плата, заполнена памятью до максимума. Итого: 512 Кбайт оперативной памяти, очень достойный объем для середины 80-х.

Плата расширения памяти (установлено 256 Кбайт)

Платы контроллера дисководов и плата адаптера параллельного порта

Особенно внушительно выглядит видеоадаптер полноразмерная плата черного цвета, на которой расположено огромное количество микросхем. Это обычный CGA-адаптер, использовавшийся и в других моделях IBM PC. Судя по всему, он изначально разрабатывался с учетом возможного применения в системах со встроенным экраном на плате есть коннектор аналогового выхода, к которому подключен монитор.

Сам монитор выполнен на основе 9 монохромной трубки янтарного свечения. Картинка на нем выглядит по нынешним меркам непривычно, но оттенок очень красивый и приятный, более яркий и насыщенный, чем у плазменного экрана более позднего Compaq Portable III. Модуль экрана в сборе выполнен не IBM, а сторонним поставщиком, другой легендой электронной промышленности Zenith Radio Corporation.

Видеокарта IBM Color Graphics Adapter

Модуль ЭЛТ дисплея


Видеокарта, судя по всему, за долгое время жизни успела побывать в ремонте. Вместо оригинальной микросхемы Video BIOS установлен аналог, изготовленный в СССР. А вот припаянные местами провода вполне могут быть родными. До середины 90-х это был вполне распространенный способ упрощения дизайна печатной платы или исправления огрехов разработки.


Возможности


Наверное, главный вопрос, который возникает сегодня: на что способен столь старый компьютер? Конечно, у него очень плохо с коммуникационными возможностями. Нет ни сетевой карты, ни модема, ни даже последовательного порта для его подключения. Но это легко исправить установкой соответствующей карты (хотя сетевые карты для 8-bit ISA все же большая редкость). Нет даже жесткого диска, данные можно сохранить только на второй дискете.

И все же для работы с офисными программами его производительности хватит. Редактирование текстов, работа с таблицами и простыми базами данных, бухгалтерские расчеты, даже электронная почта и тем более почта сети FIDO или UUCP вполне доступны. Но есть два ключевых ограничения. Первое то ПО, которое сейчас рассматривается исключительно как сетевое. Та же бухгалтерия и СУБД будут исключительно однопользовательскими, сетевых возможностей хватит в основном для работы с общими дисками. Сети для PC это уже конец 80-х начало 90-х. Второе, пожалуй, посерьезнее. Если сегодня все офисные программы реализуют принцип WYSIWIG, то эта машина в плане отображения графики, в том числе шрифтов, очень ограничена. Даже в текстовом редакторе шрифты будут очень сильно отличаться от того, что вы увидите при печати.

Таким образом, реальное использование возможно скорее теоретически. А вот для игр такая машина более чем пригодна. Конечно, для игр тех лет, а их было написано огромное множество. Как графических, использующих скромные возможности графических адаптеров (тот же CGA, Color Graphics Adapter, мог отображать одновременно всего 4 цвета или оттенка серого), так и чисто текстовых. Игры захватывали внимание не графикой, а сюжетом. Тогда же появились и сверхпопулярные простые игры, называемые теперь казуальными например, культовый Тетрис.


Сейчас компьютер работает под управлением MS-DOS версии 3.3 с оболочкой Volkov Commander (да, она более новая, но очень удобная и занимает минимум места). На системной дискете расположено только самое нужное: минимальный набор системных утилит, Basic и тот самый Тетрис. Так как программы в то время, как правило, не требовали установки, во второй дисковод по мере надобности можно вставлять дискеты с нужным софтом.

Заключение


Машины поколения XT сегодня имеют огромную армию фанатов, готовых смириться с их серьезными ограничениями ради погружения в атмосферу первых лет развития массовых компьютеров. Существует несколько проектов реализации XT на современной элементной базе, что позволяет сделать компьютер очень компактным. Но оригинальные компьютеры ранних годов выпуска один из самых желанных вариантов для коллекционеров и просто энтузиастов ретрокомпьютинга.

До наших дней дошло совсем немного этих динозавров, многие из них нуждаются в серьезных реставрационных работах. Особенно это касается России. Основной поток зарубежной техники хлынул к нам, когда ХТ уже значительно устарели, поэтому здесь их еще меньше. Отчасти это компенсируется клонами ХТ производства СССР и стран Восточного блока.

Находку оригинального IBM Portable PC в таком состоянии иначе как чудом назвать нельзя. Конечно, необходимо еще найти недостающие оригинальные части, но даже в таком виде он великолепен. Работать с ним одно удовольствие (конечно, если говорить именно об эпизодическом взаимодействии). Ну а для владельца коллекции он имеет индивидуальную ценность как подарок друга и как самый старый экспонат коллекции на данный момент. Этот статус не меняется вот уже почти 7 лет.

На этом наш рассказ подошел к концу, но в хранилищах коллекции Digital Vintage еще много интересных компьютеров, поэтому до новых встреч!

Подробнее..

Что такое G-Sync, FreeSync, V-Sync и HDMI VRR? Разбор

11.11.2020 16:12:52 | Автор: admin
Всех ПК-геймеров планеты Земля объединяет одна проблема вертикальные разрывы изображения.И вроде бы есть куча технологий которые решают эту проблему:
  • V-Sync,
  • G-Sync,
  • FreeSync
  • А ведь еще есть Adaptive Sync
  • А в HDMI 2.1 недавно добавили VRR.

Но легче от этого не становится. Только больше путаешься.Чем все эти технологии отличаются? Какую выбрать видеокарту и монитор? И будет ли это всё работать на телевизоре?

Давайте сегодня раз и навсегда разберемся в технологиях адаптивной синхронизации изображения.



Для тех кто не в курсе. А в чём собственно проблема?

Чтобы изображение появилось на экране, должно произойти, как минимум, две вещи:
  1. графический процессор должен подготовить кадр и передать его на монитор,
  2. ваш монитор должен показать этот кадр.

Вроде бы всё просто! Но тут кроется небольшой конфликт.Монитор работает по строгому расписанию. Нужно обновлять изображение на экране через равные промежутки времени, строго определённое количество раз в секунду. Этот параметр называется частотой обновления и измеряется он в герцах.

Обычные мониторы работают на частоте 60 Гц,то есть способны выводить 60 кадров в секунду, а игровые на 144 Гц и выше.



А вот графический процессор живет в совершенно ином мире. В играх постоянно всё меняется: колышется листва, журчит ручеёк, враги выпрыгивают из-за угла. Каждый кадр отличается по своей сложности, поэтому на их просчет уходит разное количество времени.

Иными словами, у монитора частота кадров постоянная, а у видеокарты переменная.

Вот и выходит, что за один цикл обновления монитора видеокарта может подготовить больше одного кадра или меньше.

Из-за этого мало того что страдает плавность картинки, так еще и появляются артефакты в виде вертикальных разрывов изображения.Кстати, при просмотре фильмов тоже могут появляться такие артефакты, потому что кино снимают в 24 к/с.

V-Sync


Очевидно проблема требовала решения, и еще на заре компьютерных игр оно появилось! Название у этого решения вертикальная синхронизация или V-Sync. Наверняка вы встречали такую опцию как в настройках видеокарты, так и в играх.



Работает эта штука достаточно топорно. Фактически она просто принуждает видеокарту выводить кадры с частотой кратной частоте обновления экрана. Например, если у вас монитор 60 Гц, то максимальное количество кадров в секунду тоже будет 60, даже если ваша видеокарта способна на большее. И в общем-то часто такое ограничение вполне уместно, если у видеокарты хватает мощи и нет просадок ниже 60 к/с, но если они есть начинаются проблемы.

При включенной вертикальной синхронизации, следующее кратное значение это 30 к/с. Поэтому даже если ваш фреймрейт просел фактически всего на пару кадров, вы всё равно увидите падение до 30 к/с. Такой перепад мало того, что большой и очень визуально ощутимый, так ещё и будет происходить с небольшим лагом. Поэтому если стабильного FPS в 60 к/с или 30 не достичь, то включать V-Sync вообще нет никакого смысла.

Справедливости ради, чем выше герцовка монитора, тем больше мы имеем кратных значений, на которых может работать синхронизация. Поэтому на игровых мониторах V-Sync работает куда лучше.



Но история с кратными значениями не самая главная проблема технологии. Есть другой не очевидный недостаток: вертикальная синхронизация увеличивает задержку ввода, то есть Input Lag.

Игра медленнее реагирует на ваши действия, всё происходит с задержками и как-то плывёт в молоке, поэтому прицелиться становится гораздо сложнее. Почему так происходит?

Это интересно, смотрите!Каждый кадр рассчитывается и выводится на экран через один и тот же конвейер. Упростим его до трёх этапов.


  1. Каждое ваше действие, например щелчок мышки надо как-то интерпретировать и обновить состояние игры. За это отвечает центральный процессор (синяя полоса на картинке). Центральный процессорподготавливает кадры для графического процессора и помещает их в очередь рендеринга графического процессора.
  2. Затем графический процессор (зелёная полоса) берет эти подготовленные кадры из очереди и рендерит их.
  3. Только потом эти кадры выводятся на дисплей (серая полосочка на картинке).



Ну и в чём проблема, спросите вы? Дело в том, что ЦП не берется за подготовку следующего кадра, пока предыдущий не будет выведен на экран. Поэтому ограничивая количество выводимых кадров в угоду синхронизации с дисплеем, мы фактически увеличиваем задержки с которыми обновляется состояние игры! И если в каких-то простеньких играх типа пасьянса такие вещи допустимы, то в соревновательных играх вертикальная синхронизация может стать серьёзной помехой.

G-Sync


Но переживать не стоит,так как решение появилось еще в 2013 году. Именно тогда компания NVIDIA представила свою технологию адаптивной синхронизации G-Sync. В отличие от старой технологии, G-Sync позволяет подстраивать не видеокарту под частоту обновления монитора, а наоборот заставляет монитор менять свою частоту под видеокарту!

Представляете? Так тоже можно было!

В результате мы получаем потрясающе плавную картинку без вертикальных разрывов и задержки ввода! Просто сказка! G-Sync также работает в огромном диапазоне частот. Изначально это было от 30 до 144 Гц, а сейчас уже есть поддержка до 360 Гц и может даже выше, тут скорее всё зависит от монитора.

А если фреймрейт падает ниже 60 Гц G-Sync умеет дублировать пропущенные кадры.



Получаются сплошные плюсы и проблема решена еще в 2013 году? Так почему же мы до сих пор об этом говорим?

Ну как сказать. Во-первых, эта технология закрытая, соответственно, G-Sync работает только с карточками NVIDIA, но это пол беды.



Все волшебные функции G-Sync стали возможны благодаря специальному чипу, который необходимо встроить в монитор.Естественно, эти чипы производит тоже NVIDIA и стоят они недешево. Поэтому мониторы с поддержкой G-sync в среднем стоят на 250-300$ дороже и таких моделей очень мало. То естьполучилась классная, и для 2013 года революционная технология, но не универсальная и дорогая.

VESA Adaptive Sync




Поэтому уже спустя год, в 2014, Ассоциация стандартизации Video Electronics Standards Association или VESA представила открытую технологию Adaptive Sync, которая умеет, в принципе, всё то же самое, что и G-Sync, но без дорогостоящих чипов и работает на частотах от 9 до 240 Гц! Неплохо да?



Но для внедрения технологии нужно, чтобы её поддержку внедрили в прошивку и драйвер монитора, драйвер видеокарты, операционной системы и в игры!

А также необходимо наличие DisplayPort версии не ниже 1.2a, так как технология стала частью именно Display Port. Как видите, чтобы технология взлетела, нужно было проделать много работы. И этой работой занималась компания AMD.

AMD FreeSync


В 2015 году AMD внедрили Adaptive Sync в драйвера своих видеокарт и назвали технологию FreeSync.Реализация от AMD быстро получила очень широкое распространение. Добавить поддержку FreeSync в монитор оказалось настолько дешево, что сейчас сложнее найти игровой монитор без этой фичи, чем с ней.

Но AMD не остановились на просто внедрении стандарта от VESA.Также они добавили поддержку HDMI, начиная с версии 1.4.А в 2017 выпустили FreeSync 2, вкоторый добавилась поддержка HDR икомпенсацию низкой частоты кадров, как в G-SYNC.



Кстати, чуть позже, FreeSync 2 переименовали в в более элитное FreeSync Premium Pro, а обычный FreeSync для мониторов с частотой 120 Гц и выше стали называть FreeSync Premium. Хотя такие маркетинговые финты я не одобряю, но в остальном сплошной респект AMD за популяризацию стандарта.



Кстати, NVIDIA также в 2017 году добавила поддержку HDR и назвала это всё G-Sync Ultimate.



И вроде бы всё классно, в команде у красных и у зеленых есть по своей шикарной технологии. Но что делать, если у тебя видеокарта от NVIDIA, ты хочешь нормальную поддержку G-Sync, но покупать дорогущий монитор с этой технологией совсем не хочется?Или наоборот не покупать же Radeon только потому что у тебя монитор с FreeSync?

До недавнего времени выбора не было никакого. Хочешь подешевле и побольше выбор мониторов -покупай Radeon. В другом случае, придется раскошелиться.

G-Sync Compatible


Но в 2019 году NVIDIA пошли навстречу покупателям и добавили поддержку стандарта VESA Adaptive Sync в драйвера для своих видеокарт серии RTX, а также для карточки GTX 1080. А значит теперь можно легко насладиться лучшим из двух миров: взять себе карточку от NVIDIAи монитор с FreeSync по вкусу.Вот только есть проблема. Если на FreeSync мониторе не написано G-Sync Compatible значит он не был протестирован NVIDIAна совместимость и никаких гарантий, что всё будет работать нормально, вам никто не даёт. А NVIDIAтестируетдалеко не все, и далеко не самые доступные модели.



Поэтому инициативу по тестированию в свои руки взяло интернет-сообщество. Они составили табличку с огромным списком протестированных пользователями мониторов.

VRR


С мониторами, кажется, разобрались. Но как быть, если хочется поиграть на большом экране телевизора через консоль или ПК. Будет ли работать адаптивная синхронизация?Спешу вас порадовать будет! При условии что ваш ТВ оснащен портом HDMI версии 2.1, в который добавили технологию переменной частоты обновления VRR -Variable Refresh Rate.

Причём всё будет работать и с видеокартами от NVIDIA и с Radeon. Всё потому, что VRR это та же самая технология VESA Adaptive Sync, но теперь она стала ещё и частью стандарта HDMI 2.1.Именно таким образом адаптивная синхронизация реализована в консолях нового поколения. А также, вы удивитесь, в Xbox One S и One X. Да, в коробки текущего поколения от Microsoft VRR завезли даже раньше, чем HDMI 2.1.

Итоги




Что, в итоге спустя 6 лет после своего появления, технология Adaptive Sync стала фактически отраслевым стандартом.Захватив видеокарты от AMD и NVIDIA, телевизоры и даже интегрированная графика от Intel в 11-м поколении процессоров теперь поддерживает эту технологию.А это значит, что в светлом будущем мы будем жить без единого разрыва, по крайней мере, вертикального!
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru