Русский
Русский
English
Статистика
Реклама

Закон мура

2D-полупроводники спасут закон Мура?

30.10.2020 18:08:58 | Автор: admin

Использование дисульфида молибдена в качестве смазки известно с 17 века, когда переселенцы применяли его для смазывания осей тележек. С 1940-х годов вещество широко используется как компонент смазочных материалов. В природе дисульфид молибдена встречается в виде минерала молибденита (на фото)

Закон Мура эмпирическое предположение, что число транзисторов в интегральных схемах удваивается каждые несколько лет. Однако этот закон начал давать сбои, поскольку транзисторы теперь настолько малы, что современные технологии на основе кремния не могут предложить дальнейших возможностей для уменьшения их физических размеров.

Группа учёных из Университета Нового Южного Уэльса (Австралия) и Калифорнийского университета в Лос-Анджелесе (UCLA) опубликовала описание технологии производства двумерных полупроводников, которые теоретически могут решить проблему.

Двумерные полупроводники позволяют распространение электронов вдоль плоскости, что имеет целый ряд преимуществ: 1)очень удобное переключение транзистора из открытого состояния в закрытое и наоборот; 2)направленное движение электронов без рассеяния, то есть на двумерных материалах можно сделать транзисторы с нулевым электрическим сопротивлением, которые вообще не тратят энергию впустую при включении/выключении. Такие материалы называются сверхпроводники.

Если сопротивление равно нулю, то что получается, процессоры со сверхпроводимостью не будут греться вообще?

Впрочем, обо всё по порядку.

Да, теоретически мы действительно можем получить транзисторы с нулевым сопротивлением. Но на самом деле существует много технологических барьеров, которые необходимо преодолеть для создания таких совершенных сверхтонких полупроводников. Одним из препятствий является то, что осаждённые ультратонкие плёнки слишком неоднородны, то есть с межзёренными границами. Эти границы представляют собой поверхность раздела двух кристаллитов в поликристаллическом материале, дефект кристаллической структуры. От них носители заряда как бы отскакивают и, следовательно, увеличиваются потери на сопротивление.

Одним из самых многообещающих сверхтонких полупроводников является дисульфид молибдена (MoS2), электронные свойства которого изучаются в течение последних двух десятилетий.

Однако получение двумерного MoS2 в промышленных масштабах оказалось реальной проблемой. Ещё ни одна промышленная технология осаждения MoS2 не продемонстрировала возможность получения плёнки без межзёренных границ, что критически важно для полупроводниковой промышленности. И вот именно здесь мы подходим к научной работе, которую опубликовали исследователи из школы химической инженерии Университета Нового Южного Уэльса и UCLA. Они разработали новый подход к самоосаждению MoS2, позволяющий устранить межзёренные границы, упомянутые выше.

Уникальная возможность устранить зернистость достигнута с помощью металлического галлия в жидком состоянии. Галлий удивительный металл с низкой температурой плавления всего 29,8C. Это означает, что при комнатной температуре он твёрдый, а если взять в ладонь сразу плавится. Он становится жидким, поэтому его поверхность атомарно гладкая. При этом жидкость остаётся металлом, так что поверхность обеспечивает большое количество свободных электронов для облегчения химических реакций.

Приблизив источники молибдена и серы к поверхности жидкого галлия, точнее, эвтектического сплава индия с галлием, учёные сумели реализовать химические реакции, которые образуют молибден-серные связи, чтобы получить необходимую плёнку MoS2. Сформированный двумерный материал нанесён на атомарно гладкую поверхность галлия, поэтому он естественным путём образует идеально плоскую форму без зернистости.


Самоосаждение MoSx на поверхности эвтектического сплава индия с галлием (EGaIn). На дальнейших шагах техпроцесса получается двумерная полупроводниковая плёнка идеальной структуры без зернистости. Процесс можно проводить в промышленном масштабе

На иллюстрации вверху показано, как происходит самоосаждение MoS2. На иллюстрации внизу непосредственно сами листы.


Рентгеновская фотоэлектронная спектроскопия высокого разрешения кристаллических листов MoS2. На иллюстрация G и F: схема кристаллов и реальная восьмиугольная структура кристаллов

Это очень важный шаг для промышленного производства сверхгладких плоских полупроводников.

Исследователи UNSW планируют усовершенствовать технологию для создания других двумерных полупроводников и диэлектрических материалов, которые используются в микроэлектронике. Учёные подчёркивают, что этот метод представляет собой универсальную процедуру осаждения любого двумерного дихалькогенида переходного металла (2D TMD или ДПМ) больших размеров, которая может быть адаптирована для крупномасштабного производства, заменив традиционные методы получения 2D TMD.

Научная статья опубликована 2октября 2020года в журнале Advanced Functional Materials (doi: 10.1002/adfm.202005866).



Подробнее..

Как перезапустить закон Мура программными методами. Ускорение софта в тысячи раз

03.08.2020 12:13:23 | Автор: admin
Профессор Никлаус Вирт был прав. Создатель языка Pascal, соавтор технологии структурного программирования, лауреат премии Тьюринга в 1995 году заметил:

Замедление программ происходит куда быстрее, чем ускорение компьютеров


С тех пор это высказывание считается законом Вирта. Он фактически нивелирует закон Мура, согласно которому количество транзисторов в процессорах удваивается примерно с 1965 года. Вот что пишет Вирт в статье Призыв к стройному софту:

Около 25 лет назад интерактивный текстовый редактор умещался всего в 8000 байт, а компилятор в 32 килобайта, тогда как их современные потомки требуют мегабайтов. Стало ли всё это раздутое программное обеспечение быстрее? Нет, совсем наоборот. Если бы не в тысячу раз более быстрое железо, то современное программное обеспечение было бы совершенно непригодным.

С этим трудно не согласиться.

Ожирение софта


Проблема разработки современного программного обеспечения стоит очень остро. Вирт указывает на один важный аспект: время. Он предполагает, что главной причиной появления раздутого программного обеспечения является нехватка времени на разработку.

Сегодня появилась ещё одна причина ожирения софта абстракция. И это гораздо более серьёзная проблема. Разработчики никогда не писали программы с нуля, но раньше это не вызывало осложнений.

Дейкстра и Вирт пытались улучшить качество кода и разработали концепцию структурированного программирования. Они хотели вывести программирование из кризиса, и в течение некоторого времени программирование рассматривалось как настоящее ремесло для настоящих профессионалов. Программисты заботились о качестве программ, ценили ясность и эффективность кода.

Те времена прошли.

С появлением языков более высокого уровня, таких как Java, Ruby, PHP и Javascript, к 1995 году, когда Вирт написал свою статью, программирование стало более абстрактным. Новые языки значительно облегчали программирование и многое брали на себя. Они были объектно-ориентированными и поставлялись в комплекте с с такими вещами, как IDE и сборка мусора.

Программистам стало легче жить, но за всё приходится платить. Чем легче жить, тем меньше думать. Примерно в середине 90-х программисты перестали думать о качестве своих программ, пишет разработчик Робин Мартин в своей статье Никлаус Вирт был прав, и в этом проблема. В то же время началось широкое использование библиотек, функциональность которых всегда намного больше, чем необходимо для конкретной программы.

Поскольку библиотека не создана для одного конкретного проекта, она, вероятно, имеет немного больше функциональных возможностей, чем действительно нужно. Никаких проблем, скажете вы. Однако всё накапливается довольно быстро. Даже люди, которые любят библиотеки, не хотят изобретать велосипед. Это приводит к тому, что называется адом зависимостей. Никола Дуза написал пост об этой проблеме в Javascript.

Проблема не кажется такой уж большой, но в реальности она серьёзнее, чем вы можете подумать. Например, Никола Дуза написал простое приложение для ведения списка дел. Оно работает в вашем браузере с HTML и Javascript. Как вы думаете, сколько зависимостей оно использовало? 13 000. Тринадцать. Тысяч. Пруф.

Цифры безумны, но проблема будет только расти. По мере создания новых библиотек число зависимостей в каждом проекте также будет увеличиваться.

Это означает, что проблема, о которой предупреждал Никлаус Вирт в 1995 году, со временем только усугубится.

Что делать?

Робин Мартин предполагает, что хороший способ приступить к решению проблемы разделить библиотеки. Вместо того, чтобы создавать одну большую библиотеку, которая делает всё возможное, просто создать много библиотек.

Таким образом, программист должен только выбрать библиотеки, которые ему действительно нужны, игнорируя функциональные возможности, которые он не собирается использовать. Мало того, что он сам устанавливает меньше зависимостей, но и в используемых библиотеках тоже будет меньше своих зависимостей.

Конец закона Мура


К сожалению, миниатюризация транзисторов не может продолжаться вечно и имеет свои физические пределы. Возможно, рано или поздно закон Мура прекратит действовать. Некоторые говорят, что это уже произошло. В последние десять лет тактовая частота и мощность отдельных ядер процессоров уже перестала расти, как раньше.

Хотя хоронить его рано. Есть ряд новых технологий, которые обещают прийти на смену кремниевой микроэлектронике. Например, Intel, Samsung и другие компании экспериментируют с транзисторами на углеродных наноструктурах (нанонитях), а также с фотонными чипами.


Эволюция транзисторов. Иллюстрация: Samsung

Но некоторые исследователи подходят с другой стороны. Они предлагают новые системные подходы к программированию, чтобы значительно повысить эффективность будущего программного обеспечения. Таким образом, можно перезапустить закон Мура программными методами, как бы фантастически это не звучало в свете наблюдений Никлауса Вирта об ожирении программ. Но вдруг у нас получится обернуть эту тенденцию вспять?

Методы ускорения программного обеспечения


Недавно в журнале Science была опубликована интересная статья учёных из лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL MIT). Они выделяют три приоритетные области для дальнейшего ускорения вычислений:

  • лучшее программное обеспечение;
  • новые алгоритмы;
  • более оптимизированное железо.

Ведущий автор научной работы Чарльз Лейзерсон подтверждает тезис об ожирении ПО. Он говорит, что выгоды миниатюризации транзисторов были настолько велики, что на протяжении десятилетий программисты могли уделять приоритетное внимание упрощению написания кода, а не ускорению его выполнения. С неэффективностью можно было смириться, потому что более быстрые компьютерные чипы всегда компенсировали ожирение ПО.

Но в настоящее время для достижения дальнейших успехов в таких областях, как машинное обучение, робототехника и виртуальная реальность, потребуются огромные вычислительные мощности, которые миниатюризация уже не может обеспечить, говорит Лейзерсон. Если мы хотим использовать весь потенциал этих технологий, мы должны изменить наш подход к вычислениям.

В части программного обеспечения предлагается пересмотреть стратегию использования библиотек с излишней функциональностью, потому что это является источником неэффективности. Авторы рекомендуют сконцентрироваться на главной задаче повышении скорости выполнения программ, а не на скорости написания кода.

Во многих случаях производительность действительно можно повысить в тысячи раз, и это не преувеличение. В качестве примера исследователи приводят перемножение двух матриц 40964096. Они начали с реализации на Python как одного из самых популярных языков высокого уровня. Например, вот реализация в четыре строки на Python 2:

for i in xrange(4096):for j in xrange(4096):for k in xrange(4096):C[i][j] += A[i][k] * B[k][j]

В коде три вложенных цикла, а алгоритм решения основан на школьной программе по алгебре.

Но оказывается, что этот наивный подход слишком неэффективно использует вычислительную мощность. На современном компьютере он будет выполняться около семи часов, как показано в таблице ниже.

Версия Реализация Время выполнения (с) GFLOPS Абсолютное ускорение Относительное ускорение Процент от пиковой производительности
1 Python 25552,48 0,005 1 0,00
2 Java 2372,68 0,058 11 10,8 0,01
3 C 542,67 0,253 47 4,4 0,03
4 Параллельные циклы 69,80 1,97 366 7,8 0,24
5 Парадигма Разделяй и властвуй 3,80 36,18 6727 18,4 4,33
6 + векторизация 1,10 124,91 23224 3,5 14,96
7 + интристики AVX 0,41 337,81 52806 2,7 40,45

Переход на более эффективный язык программирования уже кардинально повышает скорость выполнения кода. Например, программа на Java будет выполняться в 10,8 раз быстрее, а программа на С ещё в 4,4 раза быстрее, чем на Java. Таким образом, переход с Python на C означает повышение скорости выполнения программы в 47 раз.

И это только начало оптимизации. Если писать код с учётом особенностей аппаратного обеспечения, на котором он будет выполняться, то можно повысить скорость ещё в 1300 раз. В данном эксперименте код сначала запустили параллельно на всех 18 ядрах CPU (версия 4), затем использовали иерархию кэшей процессора (версия 5), добавили векторизацию (версия 6) и применили специфические инструкции Advanced Vector Extensions (AVX) в версии 7. Последняя оптимизированная версия кода выполняется уже не 7 часов, а всего 0,41 секунды, то есть более чем в 60 000 раз быстрее оригинального кода на Python.

Более того, на графической карте AMD FirePro S9150 тот же код выполняется всего за 70 мс, то есть в 5,4 раза быстрее, чем самая оптимизированная версия 7 на процессоре общего назначения, и в 360 000 раз быстрее, чем версия 1.

Что касается алгоритмов, исследователи предлагают трёхсторонний подход, который включает в себя изучение новых проблемных областей, масштабирование алгоритмов и их адаптацию к лучшему использованию преимуществ современного оборудования.

Например, алгоритм Штрассена для перемножения матриц ещё на 10% ускоряет самую быструю версию кода номер 7. Для других проблем новые алгоритмы обеспечивают ещё большую прибавку в производительности. Например, на следующей диаграмме показан прогресс в эффективности алгоритмов для решения задачи о максимальном потоке, достигнутый в 19752015 годы. Каждый новый алгоритм увеличивал скорость вычислений буквально на несколько порядков, а в последующие годы ещё оптимизировался.


Эффективность алгоритмов для решения задачи о максимальном потоке на графе с n=1012 вершин и m=n11 рёбер

Таким образом, улучшение алгоритмов тоже вносит свой вклад в то, чтобы эмулировать закон Мура программным путём.

Наконец, с точки зрения аппаратной архитектуры, исследователи выступают за оптимизацию аппаратного обеспечения таким образом, чтобы проблемы можно было решить с меньшим количеством транзисторов. Оптимизация включает в себя использование более простых процессоров и создание аппаратного обеспечения, адаптированного к конкретным приложениям, как графический процессор адаптирован для компьютерной графики.

Оборудование, настроенное для конкретных областей, может быть гораздо более эффективным и использовать гораздо меньше транзисторов, позволяя приложениям работать в десятки и сотни раз быстрее, говорит Тао Шардль, соавтор научной работы. В более общем плане оптимизация аппаратного обеспечения будет ещё больше стимулировать параллельное программирование, создавая на микросхеме дополнительные области для параллельного использования.

Тренд на параллелизацию виден уже сейчас. Как показано на диаграмме, в последние годы производительность CPU растёт исключительно благодаря увеличению количества ядер.


Производительность по тесту SPECint отдельных ядер, а также одно- и многоядерных процессоров с 1985 по 2015 годы. В качестве базовой единицы взят микропроцессор 80386 DX образца 1985 года

Для операторов дата-центров даже минимальное улучшение производительности ПО может означать большую финансовую выгоду. Неудивительно, что сейчас инициативы по разработке собственных специализированных CPU ведут такие компании как Google и Amazon. Первая выпустила тензорные (нейронные) процессоры Google TPU, а в дата-центрах Amazon работают чипы AWS Graviton.

За лидерами отрасли со временем могут последовать владельцы других ЦОД, чтобы не проиграть конкурентам в эффективности.

Исследователи пишут, что раньше стремительный рост производительности процессоров общего назначения ограничивал возможности для развития специализированных процессоров. Сейчас такого ограничения нет.

Рост производительности потребует новых инструментов, языков программирования и аппаратного обеспечения, чтобы обеспечить более эффективное проектирование с прицелом на скорость, говорит профессор Чарльз Лейзерсон, соавтор научной работы. Это также означает, что программистам следует лучше понимать, как сочетается софт, алгоритмы и аппаратное обеспечение, а не рассматривать их по отдельности.

С другой стороны, инженеры экспериментируют с технологиями, которые могут обеспечить дальнейший рост производительности CPU. Это квантовые вычисления, 3D-компоновка, микросхемы со сверхпроводимостью, нейроморфные вычисления, использование графена вместо кремния и др. Но пока эти технологии на стадии экспериментов.

Если производительность CPU в самом деле перестанет расти, то мы окажемся в совершенно другой реальности. Возможно, нам в действительно придётся пересмотреть наши приоритеты в программировании, а специалисты по ассемблеру станут на вес золота.



На правах рекламы


Нужен мощный сервер? Наша компания предлагает эпичные серверы - виртуальные серверы с CPU AMD EPYC, частота ядра CPU до 3.4 GHz. Максимальная конфигурация впечатлит любого 128 ядер CPU, 512 ГБ RAM, 4000 ГБ NVMe.

Подробнее..

Новый закон Мура и причем здесь фотоника?

27.07.2020 22:10:16 | Автор: admin
Ранее мы разобрали использование технологий нанофотоники в глубоком обучении и как благодаря им увеличивается производительность вычислительных систем на программно-аппаратном уровне.

Выносимая к обсуждению тема обновления закона Мура с помощью нахождения более сложных зависимостей эволюции вычислительных систем, сегодня хорошо разбирается именно исследователями в области технологий плазмоники и нанофотоники.

Важно: большинство ссылок, приводимых в статье ведут к материалам на английском языке. Отечественных исследователей фотоники в России не так много, а те, что есть предпочитают публиковаться на английском.

Для дополнительного изучения темы на досуге за чашечкой чая предлагается прослушать доклад Дмитрия Федянина одного из ведущих отечественных исследователей по применению технологий нанофотоники в вычислительных системах.


Дмитрий Федянин старший научный сотрудник МФТИ.

А далее мы разберем интересную статью, в которой группой авторов предлагается крайне оригинальная концепция метрики роста производительности, альтернативная классическому закону Мура. Идея созрела благодаря анализу природных физических ограничений в существующих технологиях работы ядер процессоров, а также подтверждаемых сегодня экспериментально перспектив новых систем на базе нанофотоники.

Непрерывно выдвигаемые современной индустриальной системой требования к повышению эффективности вычислений и пропускной способности связи привели к тому, что полупроводниковые технологии в их текущем состоянии достигли своего предела. Это привело к появлению новых технологий, способных превзойти традиционные решения. Речь идет о фотонных препроцессорах или ускорителях, электронно-фотонных гибридных схем и нейронных сетях. Однако усилия, предпринятые для описания и прогнозирования эволюции производительности вычислительных систем, не позволяют точно предсказать и тем самым объяснить фактически наблюдаемый темп развития; то есть все предлагаемые показатели в конечном итоге отклоняются от траектории их развития через несколько лет после того, как они были первоначально предложены. Это несоответствие требует уравновешенной метрики, которая включал бы в себя целостный набор движущих сил эволюции вычислительных систем.

Оригинальная концепция новой метрики под названием Capability to Latency-Amount-Resistance (CLEAR) была предложена международным коллективом исследователей (Shuai Sun, Vikram K. Narayana, Mario Miscuglio, Lionel C. Kimerling, Tarek El-Ghazawi, Volker J. Sorger). По мнению авторов статьи (см. здесь) эта метрика охватывает динамику изменений скоростей синхронизации, энергоэффективности, масштабирования физического размера вычислительных машин и экономических затрат. По мысли авторов, CLEAR единственная на сегодняшний день метрика, которая корректно описывает историческое развитие вычислительных систем. Даже при разных вариантах и взаимных технологических сочетаниях, CLEAR соответствует наблюдаемой постоянной скорости роста, включая предлагаемые для реализации в будущем доминирующие технологии вычислительных систем (прогноз). CLEAR предстает перед читателями как руководство для количественного прогнозирования роста производительной эффективности вычислительных систем в данный момент времени и будущем.

Несмотря на то, что в целом эволюция вычислительной производительности постоянно увеличивается, наблюдаемая скорость производительности устройств на основе существующей полупроводниковой индустрии, заметно замедляется, особенно это заметно на 14-нм технологии см. здесь и здесь). Это обусловлено как природными физическими ограничениями, так и растущими экономическими издержками непрерывного процесса промышленного производства чипов.

По этим причинам, закон Мура как роудмап полупроводниковой промышленности неоднократно пересматривался с целью устранения этих препятствий (см. здесь). Аналогично, динамика развития (зависимость от времени) других соотношений физических величин, таких как показатель эффективности использования вычислительной мощности (закон Куми) или показатель вычислительной мощности, выводимый из соотношения потребляемой энергии, размера и стоимости (закон Макимото), в итоге все-равно отклоняется по сравнению с наблюдаемым темпом развития технологии (рис. 1) выбранная в показателе функция от времени (например, многоядерность, стоимость изготовления) на практике не может обеспечить экспоненциального роста.

Например, производительность процессора, состоящего из N ядер по-прежнему ограничена соотношением 1/((1-p)+p/N), где p представляет собой уровень параллелизации (см. здесь). Поэтому отслеживать эволюцию производительности вычислительных систем становится все сложнее, если использовать только закон Мура (или другие существующие метрики прогнозирования), в котором для описания производительности вычислительной системы используется только один или несколько движущих факторов (см. здесь). Кроме того, преимущества различных реализаций аппаратного обеспечения (например, электрические, оптические) изменяются со временем по-разному, что еще больше затрудняет эволюционное прогнозирование.

Например, интегрированная фотоника и, возможно, плазмоника могут расширить определенные каналы связи на плате или даже на кристалле. В результате будут значительно смягчены проблемы рассеивания тепловой мощности, а также расшириться полоса пропускания данных с возможностью преодоления барьера электронной цифровой эффективности с помощью таких концептуальных подходов, как спектральное уплотнение каналов (WDM), оптического углового момента или более высоких форматов модуляции, таких как поляризационная амплитудная модуляция (например, QAM), где одновременно используется фазовая и амплитудная поляризация (см. здесь и здесь).

Касаемо компромиссов с другими технологиями, то один электронный транзистор с технологическим узлом 14 нм занимает площадь на 3 порядка меньше, чем кольцевой модулятор фотонного микродиска, однако фотоника обеспечивает взаимосвязь на уровне канала без емкостных проводов зарядки/разрядки, хотя и является синергетической по отношению к вышеупомянутым уникальным характеристикам, которые поддерживают скорость передачи данных до уровня Тбит/с (см. здесь).

image
Рисунок 1.Характер развития вычислительных систем, начиная с 1946 года и до наших дней, можно представить в виде четырех различных показателей: (а) закон Мура опирается на рост количества компонентов на кристалле, измеряемых в единицах численного количества транзисторов; (б) закон Куми отражает энергоэффективность на единицу вычислений, бит/(с*Джоуль); (в) показатель Макимото, включающий в себя интеллект, мощность, размер и стоимость системы измеряется в единицах MIPS/(Вт*мм3*$); и (г) показатель CLEAR, определенный в уравнении (4) и учитывающий задержку системы в дополнение к показателю Макимото, а также экономические издержки, связанные с внедрением новой технологии: MIPS/(с*Вт*мм3*$). Данные Photonic CLEAR построены на основе прогноза Intel по кремниевой фотонике. Пунктирные линии представляют линейное соответствие (в логарифмическом масштабе), основанное на начальной скорости роста, с ежегодным удвоением производительности.

По представлению авторов, 5-факторный показатель CLEAR (название которого представляет аббревиатуру Capability-to-Latency-Energy-Amount-Resistance) на сегодняшний день является наиболее достоверным для описания эволюции производительности вычислений на всем известно историческом периоде, начиная с самого начала появления вычислительных технологий в 1940-х гг. и вплоть до настоящего времени. Этот показатель охватывает как физические, так и экономические факторы, связанные с темпами развития различных вариантов вычислительной техники. Таким образом, CLEAR может использоваться в качестве независимого от той или иной технологии количественного показателя, поскольку он включает как фундаментальные физические, так и экономические зависимости.

На основании наблюдений и анализа авторы делают два ключевых вывода:
динамика эволюции вычислительных систем характеризуется постоянным ростом, в то время как ставшие уже традиционными выше рассмотренные показатели отклоняются от своей первоначальной скорости отслеживания;
интегрированная фотоника (или любая другая появляющаяся технология в целом) может заменить текущую доминирующую технологию только в том случае, если ее общие характеристики (т.е. значение CLEAR) находятся на уровне (или выше) линии тренда постоянного эволюционного роста.

Эволюция вычислительных систем


Основные движущие силы


Развитие фундаментальной физики, управление технологиями полупроводников и экономические издержки требуют постоянных изменений и адаптации в целях поступательного развития технологий вычислительных систем. С момента основания индустрии полупроводников, закон Мура несколько раз менял факторы, лежащие в его основе: от подсчета транзисторов индустрия разворачивается (Первый переход) к занимаемой площади и масштабированию транзисторов из-за ограничений размера кристалла и роста общей системной сложности (см. здесь)

Второй переход произошел, когда тактовая частота нащупала границы из-за ограничений рассеивания плотности мощности, описанных законом масштабирования Деннарда (см. здесь). Поскольку масштабирование транзисторов приближается к фундаментальным физическим пределам, количество транзисторов на данный момент продолжает увеличиваться за счет параллелизма, реализуемого в многоядерных и массивно параллельных гетерогенных архитектурах. Это, усиливает узкое место в связи, в результате возникает необходимость отключения определенных областей чипа (темный кремний). Таким образом, скорость роста изменилась с первоначального удвоения каждые 12 месяцев до примерно 24 месяцев в настоящее время.

Недавно появилась новая движущая сила из совершенно другой области, которая влияет на эволюцию вычислительных систем и представляет собой интегрированную фотонику и гибридизированную нанофотонику, где маршрутизация светового сигнала выполняется пассивными интегрированными фотонными компонентами, тогда как электрооптические активные компоненты усиливаются новыми решениями:
реконфигурируемые материалы;
сильные взаимодействия света с веществом, такие как плазмоника или фотоника ENZ (epsilion-near-zero), вместе обеспечивающие канал передачи данных и пропускную способность, превосходящие обычную электронику на двух уровнях: микросхема и ядра (см. здесь).

Для таких новых технологий просто подсчет количества компонентов на кристалле или масштабирования занимаемой площади и стоимости в качестве отдельного показателя невозможен, поскольку он более точно не отражает фактического изменения производительности. Также большую роль оказывает тенденция появления других технологий, например применяемых в оптической связи, в которых множество сигналов с разными длинами волн упаковываются в один и тот же физический канал и, таким образом, улучшается использование аппаратного обеспечения. Это является существенным фактором при оценке производительности системы. Следовательно, требуется целостный показатель, который учитывает множество движущих сил, чтобы обеспечить точное сравнение вклада различных технологических решений для развития вычислительных систем.

Единый показатель эволюции вычислительных систем


Чтобы получить независимый от технологий показатель, авторы собирали данные о производительности десктопов, ноутбуков, мобильных устройств, серверов, рабочих станций и суперкомпьютеров с 1940-х и сопоставляли их с традиционными показателями (Рис. 1).

В частности, закон Мура принимает количество транзисторов как единственно достаточный фактор (уравнение 1), в то время как закон Куми опирается уже на два фактора: энергия и количество вычислений, тем самым подведя основания под показатель, измеряемый в бит/(с*Дж) (уравнение 2). Миллионы команд в секунду (MIPS) на единицу измерения размера-стоимости-мощности известны как показатель Макимото, определяемый уже как 4-факторный показатель (уравнение 3).

Закон Мура = Количество Транзисторов [кол-во шт.] (1)

Закон Куми = Вычисления/Энергия [бит/(с*Дж)] (2)

Показатель Макимото = Интеллект/(Размер*Стоимость*Мощность) [MIPS/(мм3*$*Вт)] (3)

Значения этих трех показателей показывают сходную модель роста: растущий тренд хорошо отслеживает их исходные данные, но только в течение ограниченного периода времени, и в конечном итоге отклоняется от них. Это говорит о том, что факторы, взятые в них за основу, не смогли полностью уловить фактическую движущую силу, которая доминирует в эволюции вычислительных систем.

Анализ линий тренда на рис. 1 показывает, что количество транзисторов первоначально (19501960-е годы) хорошо отражает закон Мура о двукратном ежегодным росте (пунктирная светло-зеленая линия, рис. 1). Однако масштабирование энергоэффективности (т.е. закон Куми) стало доминирующим фактором в течение следующего периода (19601970-е годы), поскольку простое добавление большего количества транзисторов ограничено размером и сложностью микросхемы. По этой причине закон Мура начал отклоняться от тенденции 2X/год, в то время как закон Макимото все еще сохранял свои первоначальные темпы роста. Начиная с конца 1970-х годов факторы, как размеры, так и масштабирование мощности постепенно достигают предела из-за проблем с заметно усложнившимися процессами производства, утечкой энергии и рассеиванием тепла. Вместе с появлением параллелизма (то есть многоядерных процессоров) и экономическим масштабированием на рынке, показатель Макимото, в итоге, также отклоняется (начиная с 1978 года). Пунктирные линии, показанные на рис. 1, представляют начальные прогнозы роста производительности по каждому закону. Эти линии тренда показывают, как каждый дополнительный фактор, введенный соответствующими законами, влияет на собственную исходную метрику прогнозирования, показанную как отклонение от исходного прогноза. Рассматривая эту тенденцию как теоретический верхний предел скорости развития технологии, теперь можно понять, действительно ли заявленный тренд является фактическим или нет. То есть, является ли действующий закон причиной замедления развития технологий, или же начинают доминировать новые факторы производительности.

Таким образом, на сегодняшний день не существует четкого известного показателя, который может:
  • объяснить последние изменения в производительности;
  • предоставить руководство по прогнозированию производительности в будущем.

Внедренный авторами показатель CLEAR включает в себя факторы производительности из множества технологических вариантов, которые включают как физические, так и экономические ограничения. Главное утверждение авторов заключается в том, что факторы, составляющие CLEAR, выбираются не случайно, а являются фундаментальными для технологических и экономических трендов:

CLEAR = Способность/(Задержка*Энергия*Количество*Сопротивление) [[MIPS/(с*Вт*мм3*$)]] (4)

или в оригинале:

CLEAR = (Capability )/(Latency*Energy*Amount*Resistence) [[MIPS/(с*Вт*мм3*$)]]

Авторы, сформулировав формулу для показателя CLEAR, определяют постоянную скорость роста в течение всей эволюции вычислительных систем, охватывающей рост производительности на 4 порядка за семь десятилетий. Более того, фактическая наблюдаемая скорость развития постоянно держится на уровне двукратного роста каждые 12 месяцев. Этот 5-факторный показатель определяется на основе концепции производительности и стоимости. CLEAR может применяться на уровне устройства, схемы и системы.

Например, на системном уровне CLEAR структурирована следующим образом:
Способность C это производительность системы, определяемая произведением миллионов инструкций в секунду (MIPS) и длины команды;
минимальная Задержка L относится к тактовой частоте и ограничена временным окном между двумя соседними тактовыми циклами;
Энергия E представляет собой уровень энергопотребления для работы такой системы в целях получения определенной мощности, выраженной в единицах ватт;
Количество A представляет пространственный объем (то есть физический размер) системы и является функцией размерности процесса;
Сопротивление R количественно определяет экономическое сопротивление принятия рынком новых технологий. Базово авторы берут экономическую модель, основанной на кривой опыта Boston Consulting Group (BCG), которая объясняет взаимосвязь между совокупным производством и удельной стоимостью (см. здесь).

Авторы выводят линейную зависимость между логарифмической шкалой единицы цены и времени, далее подтверждают эту зависимость, сопоставляя исторические данные (см. здесь и здесь) с CLEAR.

Авторы отмечают, что метрика MIPS в качестве показателя производительности заменяется метриками, такими как операции с плавающей точкой (FLOPS), из-за ее восприимчивости к базовому набору команд. CLEAR применяется к различным архитектурам процессоров на протяжении истории, для которых другие метрики производительности недоступны в известных наборах тестов производительности (например, SPEC или LINPAC). Однако, чтобы сделать MIPS репрезентативной метрикой производительности, авторы взвешивали (то есть умножали) каждую инструкцию по ее длине, тем самым давая относительную общую метрику в единицах бит/с.

Тренды развития вычислительных систем


После сравнения всех четырех показателей, показанных на рис. 1, мы обнаруживаем, что, когда показатель включает в себя более релевантные факторы, его начальная точка отклонения от исходного тренда наступает позже. В отличие от CLEAR, который показывает точное соответствие данных во всем. Таким образом, эмпирически обнаруживаем, что производительность вычислений постоянно растет с фиксированной скоростью примерно с ежегодным двукратным увеличением и не зависит от технологий. Тестируя новые вычислительные машины, например на основе интегрированной фотоники, как предсказывает IBM (см. здесь), мы обнаруживаем, что такие технологии действительно могли бы продолжать эволюционный тренд развития с ежегодным двукратным ростом (красные звезды на рис. 1).

Кроме того, можно обнаружить, что относительное отклонение от линии тренда 2Х/год можно использовать для классификации показателя вычислительной системы. Например, дополнительные накладные расходы (т.е. физический размер, параллелизм, охлаждение, низкая экономия на масштабе и производственные затраты) на суперкомпьютеры показывают их худшие значения CLEAR по сравнению со всеми другими типами компьютеров, такими как ноутбуки и мобильные устройства, несмотря на их более высокую производительность (пунктирные кружки, рис. 1 в, г). Высокий параллелизм многоядерных технологий, используемых в суперкомпьютерах, подвергается сомнению из-за отдачи от вычислений к энергии, описанной в законе Амдала (см. здесь). Несмотря на то, что суперкомпьютеры обеспечивают производительность в режиме petaflop, вся инфраструктура напоминает компьютерную инфраструктуру пятилетнейтридцатилетней давности, что ставит под сомнение будущее для ее масштабирования.

Анализ CLEAR


Чтобы получить более детальное представление об относительном воздействии каждого из 5 факторов CLEAR, авторы разложили показатель на отдельные факторы, противопоставив один другим, чтобы выявить фактические движущие силы во времени.

Комбинации факторов, использованных на рис. 2, представляют собой C против LEAR, CLE против AR и CLEA против R (рис. 2, C = способность, L = задержка, E = энергия, A = количество, R = сопротивление). Кроме того, показана исключающая скорость C' по сравнению со всеми другими факторами, поскольку единственным фактором масштабирования в первые годы полупроводниковой промышленности является количество компонентов на кристалле. Важно отметить, что относительные положения каждой точки данных более важны, чем точные значения как по осям X, так и по осям Y, и, таким образом, обе оси нормализованы к единице, что позволяет сравнивать каждый случай.

Поскольку синие и красные заштрихованные области представляют линейный рост и насыщающие области соответственно, легко обнаруживаются последовательные сдвиги поворотной точки вправо с увеличением числа рассматриваемых факторов для оси X (то есть относительного времени). Чтобы понять это, факторы на оси X можно рассматривать как движущую силу показателя, в то время как значения на оси Y обозначают фактические условия отслеживания рассматриваемых движущих сил. Следовательно, линейная область означает, что факторы на оси X все еще доминируют в развитии технологии, в то время как движущая сила технологии начинает переходить на другие факторы при входе в область насыщения. Этот результат совпадает со сделанным наблюдением, что эволюция вычислительной системы всегда растет с этой постоянной скоростью, и расхождение с показателем происходит только тогда, когда появляются другие движущие силы.

1
Рисунок 2. Анализ движущей силы CLEAR.
Показатель CLEAR разбит на четыре группы, каждая из которых состоит из двух частей: коэффициент, демонстрирующий факторы на пути развития технологий (ось X), и раскрывающий фактор, который показывает способность отслеживания выбранного фактора или комбинации факторов (ось Y). Результаты показывают, что более позднее отклонение от нормированного развития наблюдается, когда учитывается больше факторов для описания производительности вычислительных систем. (а) Исключающая Скорость C против Задержки-Энергии-Количества-Стоимости (LEAR); (б) Способность C против Задержки-Энергии-Количества-Стоимости (LEAR); (в) Способность на Задержку-Энергию (CLE) против Количества-Стоимости (AR); (г) Способность на Задержку-Энергию-Количество (CLEA) против Стоимости R. Оси X и Y нормализованы до единицы для лучшего сравнения. Линейный рост и области насыщения покрыты синими и красными тенями соответственно.

Применение CLEAR


Важно, что способность беспрепятственно отслеживать эволюцию различных технологий позволяет CLEAR прогнозировать будущее технологическое замещение и определять стандарт для будущей технологии, включая их гибридизацию, например, между электроникой и фотоникой (см. здесь,тут, вот тут и здесь).

Смена технологий


Фотонный интерконнект внутри кристалла недавно показал высокую емкость передачи данных, (превосходящую обычные электрические интерконнекты) при гибридизации с активными плазмонными устройствами (см. здесь). Хотя оптическая маршрутизация данных воспринимается как возможное решение для устранения узких мест связи между вычислительными ядрами и обычно используется в центрах обработки данных и суперкомпьютерах, интегрированная фотоника еще не внедрена в массовый потребительский сектор. Поначалу это кажется удивительным, поскольку предыдущие исследования предполагали превосходные характеристики фотонно-плазмонной гибридизации. Таким образом, возникает вопрос, почему интегрированная фотоника не используется в продуктах массового рынка?

Чтобы ответить на этот вопрос, сравним CLEAR для электронных связей с гибридными фотон-плазмонными связями в зависимости от времени эволюции и расстояния распространения сигнала (рис. 3). Здесь манипулирование светом осуществляется с помощью плазмонных активных строительных блоков (источник, модулятор, детектор, переключатель) (см. здесь и здесь), тогда как распространение света обрабатывается фотоникой низких потерь на базе кремниевых или нитрид-кремниевых платформ. Сравнивается электроника с таким вариантом плазмон-фотонного гибрида, потому что разделение активной и пассивной функциональности в гибридной плазмон-фотонике приводит к более высокой производительности (то есть, более низкая задержка, более высокая пропускная способность, более низкая функция энергии на бит). Полученные кривые поверхности показывают, что CLEAR электроники и плазмон-фотоники имеют линию безубыточности (пересечение поверхностей, рис. 3), которая масштабируется как по времени, так и по расстоянию распространения сигнала. Интересно, что даже сегодня, электроника по-прежнему опережает фотонику при размерах чипа = 1 см на длине передачи информации. Поэтому электроника до сих пор коммерчески используется на кристаллах, в отличие от фотоники. Инвестиции и разработки в электронике за последние полвека, таким образом, создали технологическую устойчивость (барьер входа) для других технологий. Такое масштабирование привело к тому, что транзистор стоит всего одну миллиардную стоимости фотонного устройства или еще меньше (см. здесь).

2
Рисунок 3.Сравнение показателей CLEAR электрического (синий) и гибридного фотон-плазмонного (красный) интерконнекта на кристалле в зависимости от длины связи и времени развития технологии. Размер чипа = 1 см, длина связи и год написания статьи (2019) обозначены красным. Были развернуты следующие модели; а) модель пропускной способности, основанная на количестве транзисторов и оптических устройств на кристалле, которую можно рассматривать как первоначальную модель закона Мура; б) модель энергоэффективности на основе закона Куми, который ограничен пределом Ландауэра kB*T*ln(2) 2.75 зДж/бит, (kB постоянная Больцмана; T температура); в) модель экономической устойчивости, основанная на моделях технологического развития до 2019 года, согласно которой стоимость электронного канала составляет менее одной миллиардной или одной миллионной стоимости гибридного канала; г) модель параллелизма (после 2006 года), описывающая многоядерную архитектуру и ограничения темного кремния в электрическом интерконнекте. Желтая точка расположена на пересечении двух технологий в период 2019 года, когда технология Hybrid Plasmon-Photonics только достигла размеров чипа и начинает демонстрировать лучшую производительность показателя CLEAR на кристалле.

По мере совершенствования технологии и производственных процессов расстояние безубыточности производительность за одну цену (т.е. CLEAR) для передачи небольшого количества информации сокращается в силу более плоской кривой стоимости электроники по сравнению с фотоникой, причем последняя следует степенному закону во времени. Более того, стоимость начинает расти с масштабированием плотности электрического интерконнекта, связанным с дополнительными издержками в силу фундаментальных физических проблем на транзисторных узлах менее 10 нм (см. здесь). В отличие от этого, гибридный фотон-плазмонный интерконнект в настоящее время дорогостоящ пока в силу только начавшегося масштабирования, которое является целью консорциума Американского института по производству интегрированной фотоники (AIM Photonics). Масштабирование теперь возможно в результате недавних достижений в нанофотонике; концепция усиления взаимодействия света с веществом позволяет создавать компактные по длине волны в оптоэлектронных устройствах с преимуществами высокой энергоэффективности и высокой скорости работы из-за низкой электрической емкости (см. здесь). В результате, дистанция безубыточности между электроникой и гибридными фотон-плазмонными технологиями, как ожидается, будет дополнительно сдвигаться на более короткие расстояния по мере движения по временной шкале. Например, кремниевый фотонный чип на основе CMOS, продемонстрированный IBM еще в 2015 году, близок к области безубыточности (см. здесь). Интегрированная фотоника сможет заменить электронику только если скорость ее CLEAR-производительности сможет догнать общий эволюционный тренд вычислительных систем.

Выводы


Как мы увидели из приведенных выше рассуждений, CLEAR можно рассматривать как универсальный технико-экономический показатель не только из-за его широкой иерархической применимости (устройства, интерконнект, системные уровни), но также из-за его способности адаптироваться к конкретному технологическому применению. Например, для гибридизации сети внутри кристалла. CLEAR можно не только использовать в качестве показателя эффективности для прогнозирования эволюции технологической платформы, но также можно сравнивать общую способность технологической платформы (платформ) при различных условиях применения путем добавления весовых показателей к каждому коэффициенту в уравнении (4).

В этой первоначально предложенной метрике CLEAR все пять факторов линейно влияют на значение CLEAR, однако для конкретного приложения, которое критически зависит от конкретного фактора (или комбинации факторов), каждый фактор в CLEAR может быть взвешен по-разному. Чтобы обеспечить сопоставимость, даже среди таких настроенных метрик, может потребоваться обеспечить такие условия, чтобы сумма всех коэффициентов равнялась 5, аналогично нормализации к единице, такой как интеграл волновой функции в квантовой механике. Например, система портативных устройств может иметь строгие ограничения по энергии (E) и пространственному объему (A), что приводит к метрике CLEAR C0.8L0.8E1.2A1.2R для такой технологии. Действительно, было бы интересно сравнить тренды из различных настроенных метрик с возможностью прогнозирования технологий в будущем.

Кроме того, мы можем воспринимать будущие каналы связи или сети динамически реконфигурируемыми, позволяя микросхеме изменять свою идеальную рабочую точку в зависимости от текущего приложения, нагрузки, режима питания и т.д. Такие приложения, управляемые динамическими данными систем (DDDAS) востребованы из-за их комбинированной способности обработки когнитивной информации. Ожидается, что адаптация компьютерных систем к множеству ограничений будет иметь синергию с появляющимися системами теории информации, такими например как, нейроморфные и резервуарные вычисления, где адаптация и настройка весов обеспечивают работу машинного обучения, арифметику систем исчисления остатков или даже встроенной кремниевой фотоники оптических вычислений (см. здесь, тут, здесь и здесь).

Стоит также отметить, что, как это и случилось со всеми предыдущими показателями эффективности прогнозирования производительности технологических платформ, CLEAR может в конечном итоге начать отклоняться от своего первоначального тренда, когда в новой технологии будут использоваться более уникальные физические особенности. В настоящее время в CLEAR адекватно охватываются все доминирующие факторы производительности в современных технологиях, что позволяет на точном уровне прогнозировать эволюцию вычислительных систем на момент написания статьи.

Таким образом, CLEAR может быть не только инструментом для картографирования и прогнозирования перспектив, но и может проложить путь к аппаратным умным и когнитивным компьютерным платформам управления, где компромиссы между производительностью и стоимостью пересматриваются и оптимизируются в режиме реального времени.

В итоге, CLEAR можно рассматривать как новый закон Мура, который целостно отражает тенденции развития технологий различных уровней иерархического применения.
Подробнее..

Перевод Проблемы метрики количество транзисторов на чипе

15.06.2020 10:23:56 | Автор: admin


В техноиндустрии количество транзисторов и плотность транзисторов часто используют для демонстрации технического достижения и некой вехи в развитии. После выхода нового процессора или системы на чипе многие производители начинают хвастать сложностью своей схемы, измеряя количество транзисторов в ней. Недавний пример: когда компания Apple выпустила iPhone 11 с A13 Bionic внутри, она похвалялась тем, что процессор содержит 8,5 млрд транзисторов. В 2006 Intel сходным образом хвасталась Montecito, первым процессором с миллиардом транзисторов.

По большей части это постоянно увеличивающееся количество транзисторов является следствием закона Мура и мотивацией к дальнейшей миниатюризации. Индустрия переходит на новые техпроцессы, и количество транзисторов на единицу площади продолжает расти. Поэтому количество транзисторов часто считается показателем здоровья закона Мура, хотя это на самом деле и не совсем корректно. Закон Мура в оригинальном виде это наблюдение, согласно которому количество транзисторов экономически оптимального дизайна (т.е. с минимальной стоимостью одного транзистора) удваивается каждые два года. С точки зрения потребителя, закон Мура это на самом деле обещание того, что завтрашние процессоры будут лучше и ценнее сегодняшних.

В реальности плотность транзисторов значительно колеблется в зависимости от типа чипа, и особенно от способа компоновки самого чипа. Что ещё хуже, не существует стандартного способа подсчёта транзисторов, из-за чего для одной и той же схемы эти цифры могут отличаться на 33-37%%. В итоге количество транзисторов и плотность транзисторов это лишь приблизительные метрики, и если замкнуться только на них, можно потерять из виду общую картину.

На компоновку продукта влияет его предназначение


Плотность транзисторов тесно связана с предназначением и стилем разработки продукта. Будет, по меньшей мере, некорректно сравнивать такие сильно отличающиеся друг от друга компоновки, как ASIC с фиксированным быстродействием (к примеру, Broadcom Tomahawk 4 25.6Tb/s или Cisco Silicon One 10.8Tb/s) и высокоскоростной процессор для дата-центров (к примеру, Intel Cascade Lake или Google TPU3).

От ASIC требуется поддержка определенной пропускной способности, а увеличение частоты не приносит ему пользы. К примеру, чип Cisco Silicon One предназначен для высокоскоростных сетей, использующих 400Gbps Ethernet, и от увеличения частоты на 10% он ничего не выиграет. 400Gbps это стандарт IEEE, а следующая ступень скоростей уже 800Gbps. В итоге большинство команд разработки ASIC оптимизируют чипы по минимуму стоимости, автоматизации инструментов разработки, уменьшению количества специальных схем и плотности транзисторов.

И наоборот, чем быстрее серверный чип, тем больше он стоит, и поэтому он всегда будет получать преимущество от увеличения частоты. К примеру, Xeon 8268 и 8260 24-ядерные процессоры, и отличаются в основном базовой частотой (2,9 ГГц и 2,4 ГГц), в результате чего их стоимость отличается на $1600. Поэтому команда разработки серверов будет стремиться к оптимизации по частоте. Высокоскоростные процессоры обычно используют больше специальных схем и более крупные транзисторы. В современных схемах на базе FinFET это даёт увеличение количества транзисторов с 2, 3 плавниками, и даже больше. И наоборот, низкоскоростная логика, типа параллельных GPU или ASIC чаще использует более плотную компоновку транзисторов всего с одним плавником, принося в жертву тактовую частоту для увеличения плотности. Транзисторы с низкой утечкой также обычно имеют больший размер.

Плотность и количество транзисторов определяются балансом разработки


Ещё больше влияет на количество транзисторов и плотность транзисторов реальная компоновка чипа. Каждый современный чип состоит из какой-то комбинации логики для вычислений, памяти (обычно SRAM) для хранения и I/O для передачи данных. Однако по плотности три этих компонента значительно разнятся см. таблицу 1. У Poulson и Tukwila одна платформа, одинаковые цели, связанные с высокой скоростью работы, и высочайший уровень надёжности.


Таблица 1: количество транзисторов и плотность транзисторов основных участков поколений Poulson и Tukwila процессора Itanium

Процессоры состоят из четырёх основных участков: ядра CPU, кэш L3, системный интерфейс и I/O. Судя по раскрытой производителем информации, у Poulson на кристалле есть ещё 18 мм2 для других функций. Участок ядер CPU содержит ядра и оптимизированные по быстродействию кэши L1 и L2, и основное место там занимает высокоскоростная логика для операций свыше 1,7 ГГц для Tukwila и 2,5 ГГц для Poulson. Крупные кэши L3 (24 Мб для Tukwila и 32 Мб для Poulson) разработаны для максимальной ёмкости и используют самые плотные ячейки 6T SRAM из возможных. В системном регионе находится большой ассортимент функций матричный переключатель для передачи данных I/O и памяти по кристаллу, QPI и контроллеры памяти, протокол когерентности с использованием справочника и кэши справочника, модули управления питанием. Системный участок обычно не такой плотный, поскольку логика там работает на фиксированной частоте, и во многих из более крупных компонентов высокоскоростные шины, пересекающие кристалл, занимают больше места, чем транзисторы. И, наконец, регион I/O содержит физические интерфейсы для внешних коммуникаций, реализованных через высокоскоростные последовательные связи (QPI links). Связи по-разному передают сигналы, и в сумме у них набирается порядка 600 контактов.

В количественном плане два этих процессора иллюстрируют критически важные тренды, которых придерживаются практически все крупные разработчики чипов. Во-первых, в различных частях чипа плотность транзисторов может отличаться в разы более, чем в 20 раз, что во много раз больше, чем упоминаемое в законе Мура удвоение плотности, связанное с улучшением процессоров на одно поколение. Естественно, самым плотным участком является регион кэша, состоящий из сверхплотной SRAM он и содержит большинство транзисторов. Кэш примерно в 3-5 раз плотнее, чем вычислительная логика в ядрах, что опять-таки больше, чем удвоение. Наименее плотная часть это I/O, поскольку там содержатся деликатные аналоговые схемы типа PLL и DLL, цифровые фильтры, и крупные I/O транзисторы высокого напряжения, которые используются для отправки данных с чипа и получения им данных. Кроме того, многие участки I/O должны занимать достаточно места по краям чипа, чтобы их можно было соединить со всеми контактами, и занимаемая ими площадь определяется количеством контактов, а не плотностью схем.

Данные выше демонстрируют, что плотность транзисторов современных чипов является в основном функцией их предназначения и компоновкой самого чипа. Для экстремального примера представьте себе 32 нм схему, основанную на Poulson, но не имеющую кэша L3 плотность транзисторов такого чипа равнялась бы примерно 2,57 млн/мм2, или менее половины реальной плотности Poulson. И в другую сторону гипотетический вариант Poulson, содержащий только вычислительную логику и кэш, без системы I/O, имел бы плотность транзисторов порядка 9 млн/мм2.


Таблица 2: количество транзисторов и плотность транзисторов для некоторых чипов на 7 нм и 12 нм, по сообщению производителей

В таблице 2 содержатся подробности о нескольких чипах, произведённых по техпроцессам 7 нм и 12 нм от TSMC, подчёркивающие влияние компоновки чипа на плотность транзисторов. Radeon VII и RX 5700 от AMD похожи по компоновке, используют один техпроцесс, и их плотность транзисторов почти одинаковая. Плотность транзисторов у AMD Renoir и Nvidia A100 в 1,5 раза больше возможно, поскольку это было целью разработчиков, или, возможно, благодаря более современным инструментам разработки. Ещё одно полезное сравнение Nvidia V100 GPU и NVSwitch, 18-портовый коммутатор от NVLink. Техпроцесс у них один, однако последний в основном ориентирован на I/O, и в результате плотность транзисторов у V100 в 1,37 раза больше, чем у NVSwitch.

Наконец, SoC от двух смартфонов в 1,35 2,29 раз плотнее, чем остальные процессоры на 7 нм. Эта впечатляющая плотность достигнута благодаря разным целям оптимизации. SoC смартфонов делают так, чтобы они были подешевле, а их плотность была повыше. Процессоры AMD стремятся к высокой производительности. Кроме того, компании Apple и HiSilicon крупнее и богаче, они могут позволить себе большие команды разработчиков и большие траты на оптимизацию. Однако возможно также, что количество транзисторов и плотность транзисторов у мобильных SoC отличаются потому, что для них транзисторы считают по-другому. Последний столбец таблицы 2 показывает, как именно производитель подсчитывает количество транзисторов мы подробнее обсудим это чуть позже.

Не все транзисторы созданы равными


Ещё одна проблема использования подсчёта количество транзисторов или плотность транзисторов в качестве метрики состоит в том, что эти цифры неоднозначны и могут ввести в заблуждение. Обычно мы представляем себе транзисторы в виде физической реализации логических блоков и схем. При вычислениях этим можно обозначить всё что угодно от ядра процессора или модуля работы с плавающей запятой до инвертера. Для хранения это может быть кэш, регистровый файл, ассоциативное запоминающее устройство (content-addressable-memory, CAM) или битовая ячейка SRAM. Для аналоговых компонентов или I/O это может быть PLL, или передатчик/приёмник, расположенные вне чипа. Транзисторы, физические реализующие эти блоки, называют активными транзисторами (в отличие от схематических транзисторов). Однако в реальности не все транзисторы созданы равными, и современные процессоры производятся со множеством неактивных транзисторов. Транзисторы, формирующиеся в процессе изготовления называют макетными. Макетные транзисторы это описанные выше активные транзисторы, но также среди них есть и фиктивные транзисторы, а также транзисторы, используемые в качестве развязывающих конденсаторов.

Фиктивные транзисторы вставляют в схему для повышения эффективности производственного процесса. К примеру, определённые шаги отжига и травления в процессе производства лучше работают на относительно однородной поверхности, и если вставить дополнительные транзисторы в пустые места, это увеличит однородность. Для многих аналоговых схем такие транзисторы нужны для достижения желаемой эффективности. Ещё пример эффективность современных FinFET зависит от нагрузки на транзисторы, являющейся функцией транзисторов, находящихся поблизости. Для достижения нужной эффективности иногда приходится разместить несколько транзисторов поблизости, чтобы получить нужную нагрузку.

Хотя фиктивные транзисторы повсеместно применяются, их используют не так уж много. А вот развязывающие конденсаторы на основе MOSFET используются повсеместно. В целом логика современного чипа никогда не достигает 100% пространственной эффективности. При всех чудесах современных средств разработки всё равно останутся пустые места между отдельными логическими ячейками (к примеру, между вентилями NAND), между функциональными модулями (кэш L1D), и даже между целыми блоками (например, ядрами CPU). Пустое пространство возникает вследствие того, что инструменты разработки пытаются удовлетворить правилам, гарантирующим эффективное производство и частоту, использовать доступные ресурсы (например, маршрутные слои) и собрать электромеханическую головоломку из логических клеток, функциональных модулей и блоков. Пустое пространство может занять до 10-25% чипа. Для увеличения выхода годных изделий кристаллы должны быть относительно однородными, и пустое пространство не может оставаться реально пустым. Многие схемы заполняют эти места развязывающими конденсаторами, чтобы улучшить обеспечение питанием. Кроме того, в некоторых схемах развязывающие конденсаторы располагают внутри стандартных библиотек ячеек. Транзисторы в роли развязывающих конденсаторов основной источник неактивных макетных транзисторов, однако точные данные по их количеству сложно найти.

Наши друзья из TechInsights провели технический анализ процессора на уровне схемы, в который входил и подсчёт макетных транзисторов на небольшом участке кристалла. Они поделились своими открытиями для небольшого списка SoC на 7 нм. Данные основаны на небольшом количестве избранных мест с каждого из SoC, обычно с GPU, где плотность транзисторов должна быть наибольшей. Они обнаружили, что в изученных ими местах порядка 70-80%% транзисторов были активными, а оставшиеся 20-30%% развязывающими конденсаторами или фиктивными. Однако эти цифры основаны на небольшом количестве выборок, поскольку подобный анализ требует большого количества денег и времени. Чтобы подтвердить эти цифры и развить тему, мы собрали данные по нескольким современным схемам, и обнаружили, что обычно процент активных транзисторов составляет 63-66 от общего количества, а 33-37%% транзисторов развязывающие конденсаторы. Числа у TechInsights получились ниже, вероятно, потому, что они изучали наиболее плотные логические участки SoC, и не учитывали пустое пространство, где могло оказаться больше развязывающих конденсаторов.


Таблица 2: количество транзисторов и плотность транзисторов для некоторых чипов на 7 нм и 12 нм, по сообщению производителей

Из этих данных совершенно ясно следует, что между количеством активных и макетных транзисторов в чипе часто есть большая разница. К сожалению, многие компании обычно не указывают, число каких транзисторов они учитывают. Данные по процессорам от AMD и Nvidia из Таблицы 2 взяты из технических документаций. На основе неформального обсуждения этого вопроса с двумя этими производителями, мы привели число активных транзисторов в последнем столбце. Судя по всему, число транзисторов, указанное для HiSilicon Kirin 990 5G, может означать макетные транзисторы, что может объяснить несоответствие между этими схемами. Непонятно, реализован ли чип Apple A13 с использованием 8,5 млд активных или макетных транзисторов. В первом случае их достижение по плотности было бы впечатляющим.

Кажется неразумным учитывать эти фиктивные транзисторы и развязывающие конденсаторы наравне с активными транзисторами. Активные транзисторы реализуют функции и особенности, ценимые пользователями будь то ядра CPU, выборочное отключение питания для улучшения энергопотребления в режиме простоя, ускорители нейросетей или кэш. Однако фиктивные транзисторы и развязывающие конденсаторы это просто лишние компоненты, не добавляющие прямой ценности, а в некоторых случаях даже проигрывающие более сложным технологиям. К примеру, траншейные конденсаторы от IBM гораздо эффективнее развязывающих конденсаторов, и позволяют создавать плотные чипы eDRAM, уменьшая стоимость системы. Intel FIVR увеличивает эффективность платформы и полагается на MIM-конденсаторы, практически устраняя необходимость в развязывающих конденсаторах, а также, вероятно, уменьшает количество развязывающих конденсаторов, необходимых на кристалле. В обоих случаях уменьшение количества развязывающих конденсаторов приносит пользу. Суть закона Мура состоит в том, чтобы создавать ценность для потребителей, продуктивно используя дополнительные активные транзисторы, а фиктивные транзисторы и развязывающие конденсаторы этой ценности не добавляют.

Дело не в том, сколько там транзисторов, а в том, как вы их используете


Подводя итоги, Становится видно, что количество транзисторов и плотность транзисторов метрики весьма проблемные. На них сильно влияет общая компоновка чипа и объёмы критически важных блоков вычислительной логики, SRAM, I/O. SRAM наиболее плотная из всех трёх, поэтому небольшое изменение размера кэша сильно изменит количество транзисторов, при этом практически не повлияв на быстродействие и ценность. Более того, не все макетные транзисторы созданы равными. Активные транзисторы это фундаментальные строительные блоки таких ценных компонентов, как CPU и GPU. С другой стороны, фиктивные транзисторы и развязывающие конденсаторы больше похожи на лишний груз. Надеюсь, что большинство компаний не будут объединять активные и макетные транзисторы, но важно отличать два этих типа при сравнении схем.

Несмотря на все проблемы с количеством транзисторов, эта метрика потенциально полезна в очень редких случаях. Почти всегда процессор с 100 млрд транзисторов будет сложнее и ценнее процессора с 100 млн транзисторов. Вероятно, анализ всё ещё остаётся верным для двукратной разницы в количестве транзисторов особенно для чипов, обрабатывающих задачи параллельно, типа GPU, или для двух очень похожих процессоров (к примеру, двух SoC для смартфонов или двух серверных процессоров). Но сложно поверить, что небольшое различие в количестве транзисторов обязательно приведёт к наличию разницы в ценности. На самом деле отличным примером могут служить Radeon VII и RX 5700 от AMD. У Radeon VII на 28% больше транзисторов, однако быстродействие у него почти такое же, в частности из-за того, что в линейке RX 5700 используется более современная архитектура. Кроме того, RX 5700 оказывается гораздо дешевле, поскольку использует GDDR6 вместо HBM2. Реальная ценность для потребителей заключается не в количестве транзисторов, а в том, как они используются. Небольшие различия в количестве транзисторов не имеют значения по сравнению с хорошей архитектурой, выбором функций и другими факторами.

Многие из этих критических утверждений верны и для плотности транзисторов, и для техпроцессов. Если небольшое увеличение в количестве транзисторов не обязательно влияет на пользовательскую ценность, то вряд ли на это повлияет соответствующее небольшое увеличение в плотности. С другой стороны, такие факторы, как эффективность транзисторов, динамическое питание, энергопотребление в простое, инструменты разработки, доступность подложек и передовые свойства могут придать большую ценность. Плотность всего лишь один из множества аспектов процесса, и если зацикливаться на нём, то можно за деревьями не заметить леса.
Подробнее..

Софт пожирает мир. Закат универсальных CPU

24.03.2021 12:04:07 | Автор: admin

Tesla по сравнению с другими автомобилями сегодня примерно как первый смартфон среди кнопочных телефонов в 2006 году

Десять лет назад Марк Андриссен опубликовал в WSJ статью Почему софт пожирает мир ("Why Software Is Eating The World"). Он утверждал, что произошёл фундаментальный сдвиг в важности программного обеспечения для человеческой цивилизации.

Раньше компьютерные компании IBM, Oracle или Microsoft продавали компьютеры и софт в качестве инструментов. Теперь появилось поколение компаний, которые создают программное обеспечение и используют его сами, чтобы войти в другую отрасль и изменить её. Uber и Airbnb не продают программное обеспечение таксопаркам и гостиничным компаниям, а используют его сами. Tesla и Amazon показывают удивительный рост скорее как софтверные компании, а не как магазин и производитель автомобилей. Трансформируя целые отрасли экономики, софт пожирает мир.

В то же время персональный компьютер теряет статус универсальной технологии. Это два параллельных процесса, которые происходят на наших глазах.

Понятие универсальной технологии


В экономике есть теория универсальных технологий (general-purpose technology, GPT). Это многоцелевые технологии, которые применяются сразу во многих отраслях и меняют всю экономику целиком, потенциально вызывая и социальные изменения в обществе. Примеры таких технологий паровой двигатель, железная дорога, электричество, электроника, автомобиль, компьютер, интернет. Подробнее о GPT см. научную работу "General purpose technologies Engines of growth?" (Journal of Econometrics, Volume 65, Issue 1, January 1995, pages 83-108).

Например, автомобиль. Целые отрасли экономики трансформировались под влиянием грузоперевозок и массовой автомобилизации. Скажем, сеть магазинов Walmart основана исходя из того факта, что у большинства людей есть личные автомобили. Бизнес полностью основан на двух технологиях: 1) грузоперевозки; 2) личные автомобили. И речь идёт о розничных магазинах, а не о транспортной компании.


Walmart

Или электричество. также сильно трансформировало целые отрасли экономики и изменило общественный уклад.

Сейчас то же самое происходит с программным обеспечением, пишет рыночный аналитик Бенедикт Эванс. Софт продолжает свою бурную деятельность, разрушая и трансформируя целые отрасли.

Софт пожирает мир


Интересно посмотреть на конкретные отрасли, которых были дестабилизированы программным обеспечением в прошлом и что произошло дальше. Одной из первых стала музыкальная индустрия, затем книгоиздательство. Хотя в фундаментальном смысле эти рынки по-прежнему контролируют музыкальные лейблы и книжные издательства, а не IT-компании, поскольку музыка, книги всё это слишком мелкие, нишевые рынки по сравнению с IT.

В телевидении и кинобизнесе технологии (а теперь и пандемия) тоже сломали старую модель и изменили все правила, но в целом вопросы регулируются внутренними концернами, а не IT-компаниями, потому что для IT они не являются стратегическими вопросами первостепенной важности. Контент больше не правит миром.

Софт начал пожирать розничную торговлю и другие рынки, пишет Эванс, сравнивая нынешнюю революцию с автомобильной, когда массовое владение автомобилями изменили экономику. Сейчас смартфоны на руках 80% населения и никто пока не знает, к каким революционным изменениям это приведёт. По мнению Эванса, это сложно понять прежнему поколению специалистов, заставших эпоху до смартфонов. По-настоящему революционные вещи придут от нового поколения людей, для которых это естественная среда обитания. Первое поколение таких людей сейчас заканчивает университеты.

Закат универсальных процессоров


Согласно теории GPT, универсальная технология может столкнуться с проблемами в конце своего жизненного цикла: в процессе замедления прогресса другие технологии вытесняют её в определённых нишах. По мнению учёных Нейла Томпсона (MIT) и Свеньи Спануты (ETH Zurich), сейчас подобное происходит с универсальными компьютерами, см. статью "The Decline of Computers as a General Purpose Technology" (Communications of the ACM, March 2021, Vol. 64 No. 3, Pages 64-72, doi: 10.1145/3430936).

Сегодня мы наблюдаем такой переход. Прогресс в CPU замедляются, и поэтому приложения переходят на специализированные процессоры. Исследователи подчёркивают: речь не о том, что компьютеры в целом разучатся делать какие-то вычисления, а именно об окончании экономического цикла GPT. На его место приходит фрагментарный цикл, когда экономика подталкивает пользователей к специализированным вычислительным платформам на процессорах специального назначения. Этот процесс угрожает подкрепляющему циклу технологического развития (см. рис. 1).


Рис. 1. Исторический подкрепляющий цикл технологического развития (а) заменяется фрагментарным циклом (b)

Фрагментация означает, что отдельные направления вычислений будут развиваться с разной скоростью. Это хорошо для приложений, которые движутся в быстрой полосе, но плохо для остальных, которые больше не будут получать выгоду от прогресса универсальных CPU и, таким образом, обречены на движение в медленной полосе.

Переход от универсальных к специализированным CPU может замедлить общие темпы совершенствования компьютеров, считают исследователи.

На протяжении десятилетий человечество извлекало пользу из этого благотворного экономического цикла GPT по мере прогресса универсальных процессоров. Рынок вырос от нескольких дорогостоящих мейнфреймов для военной, космической и других областей до более чем двух миллиардов универсальных компьютеров. Этот рост подпитывал увеличение инвестиций в улучшение процессоров. Например, Intel за последнее десятилетие потратила $183 млрд на НИОКР и новые производственные мощности. Это принесло огромные дивиденды: по некоторым оценкам, производительность процессоров с 1971 года увеличилась примерно в 400 000 раз.

Альтернатива специализированные процессоры. Поскольку универсальный CPU должен хорошо выполнять множество различных вычислений, это приводит к неоптимальным конструктивным компромиссам. Штраф за производительность от этого компромисса особенно высок для специализированных приложений, которые можно сильно распараллелить. Например, специализированные интегральные схемы ASIC или части гетерогенных микросхем показывают лучший результат для специализированных приложений, поскольку железо адаптировано к вычислениям.

Насколько сильно специализация отражается в конструкции процессора видно в сравнении типичных CPU и GPU.

Тип Модель Параллельных вычислений Скорость Полоса памяти Доступ к кэшу L1
CPU Intel Xeon E5-2690v4 28 2,63,5 Ггц 76,8 ГБ/с 512 тактовых циклов
GPU Nvidia P100 3584 1,1 ГГц 732 ГБ/с 80 тактовых циклов

GPU работает на меньшей тактовой частоте, но в каждом такте может выполнять в 100 раз больше параллельных вычислений, чем CPU. Это делает его намного быстрее для сильно распараллеленных задач. Например, приложения для машинного обучения (AlexNet и Caffe) выполняются в 35+ раз быстрее на GPU, чем на CPU, по данным Nvidia.

В то же время у специализированных процессоров существенные недостатки: они запускают только ограниченный набор программ, их труднее программировать и часто они требуют для управления универсального CPU. Для универсальных процессоров постоянные затраты (единовременные инженерные затраты, NRE) распределяются по большому количеству микросхем. В отличие от них, у специализированных процессоров гораздо меньшие рынки сбыта и, следовательно, более высокие постоянные затраты на каждый чип. Для понимания, общая стоимость разработки и производства специализированного CPU на передовых технологиях составляет около $80 млн, на технологиях более старого поколения $30 млн.

За последние десятилетия специализированные процессоры (кроме GPU) использовались только в узких нишах: военные приложения, игры, майнинг. Но ситуация начинает меняться. По мнению исследователей, на сегодняшний день все основные вычислительные платформы мобильные устройства, Интернет вещей и облачные/суперкомпьютерные вычисления переходят на специализированные процессоры. Разве что рынок ПК остаётся на более универсальных CPU.

Отраслевые эксперты группы International Technology Roadmap for Semiconductors (ITRS), которая координирует технологические усовершенствования для поддержания закона Мура, в своём докладе косвенно одобрили этот сдвиг в сторону специализации CPU. Они признали, что традиционный универсальный подход с уменьшением размера транзисторов больше не должен определять требования к конструкции, а её следует адаптировать к конкретным приложениям.

Для измерения темпов совершенствования процессоров можно рассмотреть два ключевых показателя: общая производительность и производительность на доллар. Исторически обе эти метрики быстро улучшались благодаря закону Мура и масштабированию Деннарда. К сожалению, масштабирование Деннарда закончилось в 20042005 гг из-за технических проблем, а закон Мура тоже подходит к концу, поскольку производители достигли физических пределов транзисторов в современных материалах.


Рис. 2. Ежегодное улучшение результата SPECInt в новых моделях CPU (a) и ежегодное снижение цен с поправкой на производительность (b), источники: 1, 2

Из-за коварных законов физики растёт стоимость производства микросхем. В 2017 году стоимость строительства и оснащения завода по производству микросхем последнего поколения превысила $7 млрд.


Рис. 3. Стоимость нового завода (a) и количество производителей, освоивших передовой техпроцесс по производству микросхем в данном году (b)

На пике закона Мура специализированным процессорам было трудно пробиться на рынок, потому что универсальные CPU слишком быстро развивались и инвестиции в специализированные процессоры были невыгодными даже при условии многократной разницы в производительности на начальном этапе.

Но с нынешней скоростью улучшения CPU в районе 8% в год ситуация кардинально изменяется: инвестиции в специализированные CPU становятся крайне выгодными.

Как уже сказано выше, закат эпохи универсальных процессоров означает угасание целой универсальной технологии со всеми негативными эффектами. Из-за фрагментации рынка CPU мы теряем взаимное подкрепление в цикле развития, что имеет всеобщий депрессивный эффект:

  • становится сложнее финансировать инновации,
  • новые CPU не такие впечатляющие, по сравнению со старыми
  • меньше новых пользователей (многие пропускают апгрейд на новое поколение CPU, ожидая следующего)
К сожалению, депрессивные эффекты тоже подкрепляют друг друга, как и положительные эффекты в момент расцвета GPT.

Если текущие тенденции сохранятся, то к 20262032 годам (в зависимости от темпов роста рынка) передовые полупроводниковые производства сможет поддерживать только один производитель-монополист, а ежегодные постоянные затраты на строительство одного нового объекта для каждого размера узла будут равны ежегодному доходу отрасли. Чтобы предотвратить такой мрачный сценарий, уже через 10 лет производители будут вынуждены резко замедлить разработку новых технологических процессов и снизить финансирование, что ещё больше замедлит прогресс в универсальных CPU, считают исследователи.

Вывод


Хотя персональные компьютеры теряют роль универсальной технологии, но эту роль приобретает программное обеспечение. Для человечества это ключевая фундаментальная технология, на которой начинает базироваться экономика, а затем и многие общественные структуры. По крайней мере, такое происходит в развитых странах. Программирование фундамент для всего.

По мнению некоторых аналитиков, по этим признакам сейчас начинается раздел между странами первого, второго и третьего мира. Они отличаются по тому, в какой степени общество полагается на универсальные технологии нового поколения программное обеспечение, интернет, ИИ. Несмотря на глобализацию последних десятилетий, разница в уровне жизни бедных и богатых стран может вырасти именно по этой причине. Говорят, что глобализация в этом смысле стала большим обманом. Она вовсе не сократила отставание от золотого миллиарда, а только увеличила его.

В любом случае, программное обеспечение это новая форма базовой грамотности современного человека. Если в стране или в компании низкий уровень грамотности, это невозможно компенсировать ничем другим. Всё теперь работает на софте.



На правах рекламы


Серверы для размещения сайтов и разработки это про наши эпичные! Все серверы из коробки защищены от DDoS-атак, скорость интернет-канала 500 Мегабит, автоматическая установка удобной панели управления VestaCP для размещения сайтов и даже автоматическая установка Windows Server на тарифах с 4 ГБ ОЗУ, 2 vCPU и 20 ГБ дискового пространства или выше. Лучше один раз попробовать ;)

Подробнее..

Компания IBM изготовила полупроводники с техпроцессом 2 нм. В чем же подвох?

10.05.2021 20:18:52 | Автор: admin
image

Компания IBM освоила производство полупроводников с технологическим процессом 2 нм. Если не обнаружится никаких нюансов, то в скором времени можно ожидать просто огромного роста производительности и энергоэффективности чипов.


Хронология уменьшения размера технологического процесса


Наиболее известное правило в мире высоких технологий наблюдение, или закон Мура, гласит: каждые два года количество транзисторов на чипе увеличивается вдвое. Владельцы компьютеров могут вспомнить свои первые ПК, сравнить их с существующими современными моделями. Новое устройство всегда компактнее и мощнее предыдущего: согласно закону Мура, каждые 24 месяца количество чипов на интегральной схеме также увеличивается в два раза.
Этой формуле более 50 лет, она стала основной концепцией для создания современной техники, но, согласно подсчетам, закон Мура не вечен. Человечество уже подходит к максимальным возможным значениям в производстве полупроводников.


В 2007 году Мур признал, что вскоре закон утратит свою силу так как есть предел темпа развития технологий.

3 мкм такого технологического процесса компания Zilog достигла в 1975 году, Intel в 1979-м.
1,5 мкм Intel уменьшила технологический процесс до этого уровня в 1982 году;
0,8 мкм уровень Intel в конце 1980-х.
0,60,5 мкм компании Intel и IBM находились на этом уровне в 19941995 годах;
350 нм Intel, IBM, TSMC к 1997-му;
250 нм Intel, 1998 год;
180 нм Intel и AMD, 1999 год.
130 нм этого уровня компании Intel, AMD достигли в 20012002 годах;
90 нм Intel в 20022003 годах;
65 нм Intel в 20042006 годах;
4540 нм Intel в 20062007 годах;
3228 нм Intel в 20092010 годах;
2220 нм Intel в 20092012 годах;
1416 нм Intel наладила производство таких процессоров к 2015 году;
10 нм TSMC делала такие процессоры уже в 2016-м, а Samsung в 2017 году;
7 нм TSMC, 2018 год;
6 нм TSMC только анонсировала такой технологический процесс в 2019 году;
5 нм TSMC начала тестирование такого техпроцесса в 2019 году;
3 нм Samsung обещает делать процессоры с таким технологическим процессом к 2021 году.
2нм IBM освоило производство в 2021 году.


Основная часть


image


По словам представителей компании, инженеры IBM смогли разместить 50 миллиардов транзисторов на пластине, площадь которой сопоставима с площадью ногтя. Площадь кристалла составила 150 мм квадратных, а это означает, что на квадратный миллиметр поместилось 333.3 миллиона транзисторов. Плотность воистину потрясающая: для сравнения у топовых продуктов TSMC она составляет 91.2 миллиона, а у Intel 100.8. Подобный прорыв может стать настоящей революцией в мире цифровых технологий.
Ниже приведен список популярных компаний и размер их процессора и количество транзисторов.


Manufacturer Example Process Size Peak Transistor Density (millions/sq mm)
Intel Cypress Cove (desktop) CPUs 14 nm 45
Intel Willow Cove (laptop) CPUs 10 nm 100
AMD (TSMC) Zen 3 CPUs 7 nm 91
Apple (TSMC) M1 CPUs 5 nm 171
Apple (TSMC) next-gen Apple CPUs, circa 2022 3 nm ~292 (estimated)
IBM May 6 prototype IC 2 nm 333

Переход на 2-нм техпроцесс может повысить производительность на 45%, а если в приоритете поставить энергоэффективность, то при нынешних показателях производительности она вырастет на 75%, если сравнивать с топовыми на данный момент 7-нм чипами, что в первую очередь существенно отразится на автономности мобильных устройств.


image

Действительно ли IBM сделали 2нм процесс или это только маркетинговый ход? Разберем на примере 14 и 7нм у двух ведущих компаний по производству процессоров.


Пристальное изучение полученных изображений полупроводниковой структуры показало несколько любопытных фактов. Так, различия ширины затвора транзистора у 14 и 7 нм техпроцессов оказались минимальны: 24 нм у Intel против 22 нм у AMD, высота затворов так и вовсе оказалась равна на уровне погрешности. Как видим, никакого кратного отличия, на которое намекают маркетинговые наименования техпроцессов, нет.


image

Это ещё раз подтверждает тезис о том, что числа в названии современных литографических технологических процессов уже давно не имеют ничего общего с реальностью. Так, компания Samsung созналась, что её 8 нм технология это просто 10 нм с новой библиотекой элементов и обновлённым трассировщиком.


image

Всё это наводит на некоторые мысли. Так, рост производительности процессоров AMD RYZEN вероятнее всего может быть обусловлен в первую очередь именно инженерной работой и совершенствованием архитектуры, а не успехами TSMC в переименовании своих техпроцессов. Следовательно, ощутимый прирост от поколения к поколению будет зависеть от задела к модернизации, избранной AMD технологии чиплетов. Поскольку это первый опыт применения данной компоновки кристаллов, делать какие-то долгосрочные прогнозы сложно, но очевидно, что однажды возможности дальнейшего совершенствования будут исчерпаны, и AMD придётся у перейти к схеме +5% каждый год, либо менять парадигму и искать новые пути развития.


В то же время переход процессоров Intel на 10 и 7 нм может принести гораздо больший, чем можно предполагать, прирост, поскольку компания не увлекалась маркетингом нанометров, просто добавляя знаки + к своим 14 нанометрам, следовательно, новый техпроцесс может оказаться действительно значительно более продвинутым. Кроме того, Intel уже смотрит в будущее и проводит исследования в области альтернативных методов пространственной компоновки транзисторов и структур кристалла процессора.


Как бы то ни было, становится очевидно, что пресловутые числа в названиях техпроцессов не отражают физической реальности и размеров полупроводниковых элементов. Грядущие 5 и 3 нм от TSMC и Samsung, вероятнее всего, так же будут представлять из себя по сути 7++ и 7+++ технологии. Размеры элементов транзистора уменьшаются незначительно, увеличение плотности размещения транзисторов на единице площади достигается в первую очередь совершенствованием библиотек элементов, развитием программ-автотрассировщиков, оптимизацией самой структуры и компоновки блоков кристалла.


Какие же недостатки будут в производстве процессоров меньше 5нм?


image

Переход на новые уровень становится все сложнее. Используемые 5 7 нм обеспечивают должную производительность и компактность практически для всех существующих задач. Помимо этого проблема роста производительности успешно решается путем наращивания количества ядер. Причем этот показатель растет впечатляющими темпами.


Стоимость только создания производственной линии нового поколения исчисляется в сотнях миллиардов долларов. О том, во сколько обойдется создание завода для более мелких техпроцессов, остается только догадываться.


Повышение плотности расположения транзисторов имеет ряд существенных проблем. Первая тепловыделение. Самые горячие процессоры от Intel имеют TPD (уровень теплоотдачи) больше 250 Вт. Становится уже недостаточно даже воздушного охлаждения. Дальнейшее повышение плотности приведет к тому, что схемы будут просто выгорать.


Другая более существенная проблема квантовые процессы. При переходе на единицы нанометров существенно возрастает ток утечки, и эта проблема распространяется на другие транзисторы. В итоге, критически страдает энергопотребление. Не стоит забывать и про эффект туннелирования, который делает невозможным проектирование стабильно работающей архитектуры.


Каковы перспективы будущего? Пока есть запас в виде технологий 5, 3 и даже 2 нанометра. Не стоит забывать и про квантовые компьютеры. Пока они служат только для узкоспециализированных задач, но это временно. А значит, опасаться, что уже в текущем десятилетии мы упрёмся в физические ограничения создания транзистора на атомном уровне, не стоит. Тормозом станет, скорее, непомерная стоимость разработки и изготовления более совершенных степперов и проблема с созданием новых сверхмощных источников УФ-излучения. Впрочем, решение, возможно, уже не за горами и кроется в применении новых материалов, в частности соединений германия, гафния, либо графена. Но это уже совсем другая история.

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru