Русский
Русский
English
Статистика
Реклама

Nvme

Разговор с майнером Chia, имеющим 1ПБ ёмкости

23.04.2021 20:10:29 | Автор: admin

Вашему вниманию предлагается расшифровка моего разговора с майнером Chia, который произошёл 21 апреля 2021 года, вечером. Я выступаю в роли продавца SSD, а майнер в роли покупателя. В ходе этого разговора я узнал много нового о криптовалюте Chia.




Майнер: Добрый день, скажите, пожалуйста, а у вас ещё остались SSD Intel P3700 1.6TB?


C: Да, 1 штука осталась.

Майнер: Вот это да! Я понимаю, на них хайп сейчас.


C: И то она U.2.

Майнер: Да, я понял. Кстати, они себя хорошо показали. Я брал ещё Intel P3605 1.6TB, которые втыкаются прямо в PCI-E, но U.2 Intel P3700 работает производительнее.


C: А что вы хотите купить? Есть ещё несколько дисков в PCI-E формате.

Майнер: Мне уже их совать некуда. Я у вас 2 шт P3605 брал, 1шт P3700, и один HGST SN260 на 7.68ТБ, и ещё докупал в другом месте пару новых. Подумаю, определюсь и заберу то, что решу.


C: Вы тоже можете воспользоваться хайпом. Продать то, что купили и купить себе более высокой ёмкости.

Майнер: Мне не нужно продавать, я их использую для майнига Chia. Мне, наоборот, не хватает. Я просто чуть пораньше людей в тему въехал, с ноября 2020. И беру для плоттинга. Плоттинг идёт мощный.


HGST SN260 он, конечно, самый крутой, однозначно. Только нужно было брать версию на 6.4ТБ, у неё ресурс больше, 3 DWPD. А то я уже 50% (7ПБ) ресурса потратил. Intel PЗ605 хорошо держатся, а U.2 P3700 вообще красавчик.


C: Кстати, я узнал особые команды, с помощью которых Вы можете отформатировать HGST SN260 7.68ПБ в ёмкость 4.48ПБ, а ресурс будет при этом 7.5 DWPD (70ПБ), в 5 раз больше.

Майнер: Готов заплатить за эту информацию.


С: Не нужно. Вышлю вам в чат. Ответьте, пожалуйста, на вопрос: почему плоттинг Chia так быстро расходует ресурс?

Майнер: Дело в том, что все вычисления производятся в временном файле. Она делает temp-файл размером 0.29 ТБ. На том устройстве, на котором работает плоттинг. У меня два Ryzen 3950X и Threadripper 3970. И они много пишут на ССД. Я думаю, что Intel P3605 год не доживут, несмотря на ресурс в 14ПБ.


Лучше всего (в плане ресурса) в плоттинге себя показывают SATA S3710 на 800ГБ и U.2 P3700 1.6TB. Последний я ставлю в лидеры, ресурс 43.8ПБ.


А U.2 P3700 ещё и по скорости очень хорош.


Вот что я хочу сказать. В криптовалюте я давно. Мы сейчас имеем дело с одним из самых хайповых проектов за всю историю после битка и эфира. Поэтому в этом направлении нужно двигаться. У меня сейчас одних хардов 1ПБ.


Скорость роста сети колоссальная, неимоверная, такого не было никогда. Ни на одной из 5000 криптовалют известных мне. Ежедневный прирост мощности сети 7%.


Когда я начинал заниматься этим вопросом скорость сети была 120ПБ. А сейчас прошло чуть меньше месяца времени и уже 458ПБ. Совсем недавно было 470ПБ. Видимо, какая-то крупная нода отвалилась.


Сложность сети выросла в 3 раза меньше, чем за месяц. Это феноменальный случай, такого не было ещё в практике. Эфир медленнее рос, биток намного медленнее рос. Ну это, понятно, он был первый, никто ещё не знал что такое крипта.


Сейчас я майню Chia. Она пока ещё не передвигается, спотовые монеты. Есть понятия в криптовалюте: спот и поставочный фьючерс. Последнее это обязательство по сути дела. Со вчерашнего дня Chia вышла на торги на двух биржах.


Биржи, конечно, не ахти себе какие: одна корейская и ещё на одной. Вышла Chia по очень интересной стоимости. На HotBit, южнокорейская биржа, вчера пиковая свечка давала $5000. Потом опустилась, понятное дело, до $2000. Это фьючерс.


Спот будет возможность перемещать через 2-3 недели. Hot Spot это, по сути, сама монета. Она находится на кошельках и все ждут, когда появится возможность её перемещать между кошельками. Цена, конечно, упадёт. Её уронят. Я думаю, что ниже $100 она не спустится. А потом с $500 будет подниматься выше. Вот такие у меня прогнозы.


C: Мне интересно, 1 ядро в режиме плоттинга в состоянии весь SSD загрузить или очень важна многоядерность?

Майнер: Вот, например, моя конфигурация Ryazen 3950x (16 ядер, 32 потока), HGST SN260 7.68TB, u.2 Intel P3700 и харды HDD Seagate. На формирование 1 плота, который участвует в майнинге, фильтрует сеть и подтверждает блоки/транзакции, требуется 1 поток.


Если память хорошая. Память нужна ECC, с коррекцией ошибок, так как она заточена для работы 24x7. С обычной памятью у меня были глюки, вылетает, не везёт.


Проц нужен 4.2-4.6Ггц и выше, желательно. У Intel есть 5Ггц. Но Intelы в совокупности существенно проигрывают Ryzen на текущий момент. Даже поколение Gen 11, процессоры 10980XE проигрывают Ryzen. А Threadripper ставит Intel на колени.


C: Получается 1 поток обрабатывает 0.3ТБ?

Майнер: Процесс формирования плоттинга разделён на 4 фазы.


Первая фаза арифметическая. Формирование контрольных таблиц. Она занимает, ориентировочно, 40% времени всего плоттинга. В этой фазе в основной используется процессор, а SSD используется не очень сильно.


В этой фазе можно работать 4 потоками. Больше смысла нет. Выделяя на каждый поток 4GB RAM.


2, 3 и 4 фазы нельзя пустить в несколько потоков. Они идут в одну фазу, последовательно. Это версия 1.10.05. Я начинал с testnet. Размер temp-файла был 0.6ТБ. Сейчас оптимизировали до 0.29-0.76ТБ в зависимости от количества оперативной памяти. Размер этого файла плавающий. В процессе формирования плота он динамически изменяет свой объём.


На Intel у меня получается запускать параллельно 4 и иногда подгружать 5-6-й, когда предыдущие 4 плота в фазе минимального объёма по temp-диску.


C: Правильно ли понимаю, хороший процессор в состоянии загрузить практически любой объем SSD-дисков, которые вы к нему подключите?

Майнер: Да, на текущий момент я не могу обеспечить SSD-мощность свой ThreadRipper 3970x (32 ядра). По сути дела, он простаивает.


C: В теории многие x8 PCI-e SSD (например Samsung Pm1725) могут работать на x4. Можно их больше подключить, если использовать что-то типа свитчей. Что-то по аналогии с видеокартами, когда их можно множество подключить по узким шинам, которых достаточно для майнинга.

Майнер: Самая существенная проблема в другом: как организовать СХД больше петабайта ёмкости. В ближайшей перспективе многие из мне известных майнеров перешагнут рубеж в петабайт.


Сейчас разводим всё через контроллеры, через USB, через хабы, SATA, через всё что только можно. Это будет большая проблема.


Люди начали входить и имеют возможности ставить фермы, например, по 5ПБ. А как это разводить это сложно. Потому что 2 машины в сети фармят, занимаются добычей в сети по уже готовым плотам и сам харвест. Харвест это комбайн, который формирует плоты. Их проблемно в сеть зацепить больше 3-х на аппаратном и программном уровне. Поэтому каждый выкручивается по своему. Кто-то оффлайн формирует плоты.


C: Не понял такой момент: между SSD и HDD есть огромная разница в производительности при плоттинге. Но HDD вы тоже используете. Зачем?

Майнер: Да, используем. Есть такой режим засеивание на себя. Делается и временный файл на HDD и готовые плоты на него же и скидываются.


C: Но на SSD плоттить же выгоднее или нет?

Майнер: В сотни раз. Или в десятки. А по экономике самое выгодное это HDD SAS-диски по 10 000 RPM в полках. В полке по 10-15 дисков. Главное, чтобы контроллер удержал пропускную способность. Диски эти можно купить по 500-600 рублей. На HDD, у которых скорость чтения/записи ниже 140МБ/сек уже не интересно плоттить.


Цикл плоттинга занимает порядка 62 000 секунд. Intel в 2 потока у меня идёт 36 000 секунд. Существенная разница. На Интеле за сутки я могу 3 раза запустить цикл плоттирования.


C: Кстати могу сказать, что из тех кто закупался в 20-х числах марта у меня было всего 2 майнера. Вы и ещё один человек, который купил 2 диска по 6.4TB.

Майнер: Думаю, я его знаю ).


Я пришёл в Chia довольно плавно. В сентябре-ноябре был такой проект FileCoin. Он оказался очень рентабельным. Смысл похожий, но технически он более сложный. Было требование наличия 10 Гбитной сети, 4 машины участвовало в процессе майнинга. Но в итоге китайцы всех свалили: привезли много контейнеров с серверами на Epic в Италию и выбили нас из проекта, раздавили как котят. Сложность сети увеличилась, а стоимость монеты не росла. Кто-то может играть вдолгую. Есть ресурсы, чтобы намайнить и забыть об этом. А потом забрать своё, когда цена достигнет цели. У всех разная экономическая ситуация. Кто-то вынужден сливать по рынку, чтобы окупить все свои затраты.


В ноябре 2020 началась активная фаза развития Chia. А через несколько месяцев стартует похожий израильский проект.


При текущих ценах: фьючерс $5000, спот, допустим, будет $500, а я вложил $45 000. Таким образом окупаемость у меня будет 100% за срок менее 1.5 месяцев. Такие цифры.


C: Какая должна быть оптимальная износостойкость у SSD для этого проекта?

Майнер: Оптимальная чем выше, тем лучше. Укатается всё. Если кажется, что Intel P3700 1.6TB c ресурсом 43.8ПБ это вечное решение. Нет, это не так. Не больше года. Укатаем. Напомню, что 7ПБ ресурса было потрачено у 7.68ТБ диска HGST SN260 менее, чем за месяц. Ушлёпал.


Сейчас я объясню откуда лезут эти сумасшедшие цифры расходуемого ресурса. В данный момент сложность сети k=32. При данной сложности размер 1 плота 101 ГБ. По заявлениям разработчиков срок годности этих плотов 10 лет. Они так планировали (смеётся). Я думаю к концу года этот блок умотают и будет следующий с k=33. При блоке с k=32 объём записи в временный файл 2.2ТБ.


C: Да, да, я сброшу команду для переформатирования на меньшую ёмкость и у него ресурс увеличивается в 3-5 раз в зависимости от конечной ёмкости.

Майнер: В общем касаемо HGST мысли такие. Он может параллельно работать по 16 плотам это для него предельная пропускная способность. При этом удержание рабочей температуры на отметке до 47 градусов Цельсия при работе на него вентилятора с производительностью 120 м3. Получаем необходим общем от него 4.8 тб при максимальной надежности. Тогда мы получаем оптимальную железяку для плотинга Chia на процессоре с тактовой частотой 4-4,6 ГГц на ядро.


C: Если переформатировать HGST SN200 7.68TB в 6.4TB, получается, емкость упадет процентов на 15, но ресурс увеличится в 3 раза. Он получается теряет в объеме и увеличивается в ресурсе, существенно, при чём там нелинейная зависимость, при объёме в 4.4ТБ он будет уже иметь ресурс 7.5 DWPD (70ПБ).

Майнер: Вот это очень важно, очень важно. Пускай сейчас он ужмется до 4 ТБ, пускай ужимается, вообще без разницы, мне хватает, дальше я упираюсь в производительность процессора, но при этом если я выиграю на надежности, это просто бомба.


C: То есть для вас минимальный размер SSD это 4 ТБ и желательно выиграть на надежности много раз, правильно?

Майнер: Верно, да. Для HGST 4 ТБ 4.5 ТБ, больше и не надо, он так заваливает нормально.


Ёмкость на этом диске сейчас не критична. Этот диск, он просто огненный, он очень хорошо отрабатывает, то что он емкий это мне позволяет например, напрямую, без буфера, через сетку выкидывать уже готовый плот, не разгружаться на HDD, то есть в этом плане диск просто уникальный, просто бомбический, а я даже плоты которые он плотит, на нем темп-файл у меня работает и он готовые плоты тоже на себя складывает и все это делает очень быстро. Ему бы, вот этому диску, надежности ну и если бы скорости вообще было бы бомба. А вообще 2 таких диска, на мой взгляд, справятся где-то, ну 2 нет, 3 справятся с Threadripper'ом 32-ядерным, я так думаю.


C: С разогнанным или с обычным?

Майнер: Нуу, зачем его гнать, он и сам дурак. Я думаю что через 2-3 месяца мы все подойдем к Threadripperам, как он там, 3990 Мы все подойдем в 64 ядерным Threadripperам. Ну буквально вот квартал может, потому что слабые модели уже просто не увезут и будет формировать 33, 34, 35 блоки. Я про них, если интересно будет, звоните, пишите, я все расскажу, все что знаю.


При формировании готового плота на блоке К=32, готовый размер 101 как я сказал, а при этом объем записи по темп-диску 2.2 ТБ. Для того что бы создать 1 готовый плот, например сейчас 10 плотов иметь у себя и майнить 10 плотами то вероятность получения награды, при текущей сети, это 9 месяцев, то есть это совсем слабо.


С: Даа, это какой объем получается, что 9 месяцев придётся ждать награду?

Майнер: Ну вот 10 плотов, это 1 ТБ по сути дела. Который даст 1 чиа за 9 месяцев


Да да, при условии, что сеть еще сложно растет и каждый месяц утраивается, и соответственно это время отодвигается, то есть возможность получения награды по этому блоку будет сведена к 1 блоку в 5 лет, 1 монета в 5 лет, такое тоже не исключаю.


На текущий момент отсутствует организация в poolы, то есть, есть понятие соломайнинг, а есть понятие пулмайнинг, poolы пока не работают. Сделали китайцы один pool, они сейчас нам кровь сворачивают, этот pool сильно растет.


Програмное обеспечение пула не имеет никакого отношения к разработчикам, и мы русские, белорусы, украинцы, нас здесь много, славяне, назовем их так, мы туда боимся идти потому, что, во-первых, переплачивать, то есть сейчас мы имеем с вами сложность 464ПБ по сути дела все это хозяйство надо переплочивать. Кто останется в соло это киты на рынке, которые могут позволить себе миллионы, могут несколько десятков миллионов долларов вкладывать в это хозяйство. Они смогут себе позволить остаться в соло, остальным придется переплачивать. Хайп пошел, сейчас народ NVME порвет, а потом к вам побежит. Мы это уже все проходили, только мы это все проходили в ноябре.


С: О, молодцы, как вы это предугадали все?

Майнер: Да я намучался, я этих Transcend, этих Barracud, Crystal'ов полведра у меня уже жженых. Samsungов Pro, так это все баловство на 3 дня. То есть если дать ему хорошую нагрузку, ну неделю он проживет, ну полторы, вот, потом он просто кончается. Я думаю вам в этом направлении двигаться надо и смотреть. Цена будет расти, она относительно однозначно будет расти, хайп этот не остановить, сейчас еще задействованы на территории РФ 2-3 крупных группировки, которые идут впереди всегда. Это нарнийцы, лексусовская группа зашла, суммарно это 600-700 человек. Это передовые, первые дивизии пошли.


Потом будет вторая волна отстающих, у которых начнётся боязнь упущенной выгоды. Будут майнить на всём. На говне и палках, по-русски говоря.


Третья волна пойдут все подряд.


C: Нужно 4 ГБ на поток? Нужно иметь большую память?

Майнер: Да не особо. Обычно тех разъёмов, что есть на матерях хватает. 128ГБ на 16 ядер хватает, на 32 потока, с головой.


Память желательно ставить классную, то если как и с SSD скупой платит дважды. Поэтому память нужно поставить с коррекцией ошибок.


C: А сам вот этот период пиковой нагрузки на память, когда он просчитывается плот, он довольно длительный? Что, есть вероятность того, что ошибка вылезет на обычной памяти?

Майнер: Ну вот у меня работает второй месяц не выключаясь без rebootа машины.


C: Я имею ввиду другое, то что вот там же что бы что-то намайнить, надо что-то посчитать. И сама вот эта итерация она на сколько длительная? Потому что если она очень длительная понятно что там будет, на плохой памяти ошибки выскочат, если она не очень длительная то даже плохая память если будет, скажем 10% времени глючить, это не так страшно.

Майнер: Нуу, по опыту, память без коррекции плохо работает и я мучался с ней


C: Понял.

Майнер: Я ушел, просто продал память, хоть она там высокой частоты была, там 3.6 Гц, без разницы, лучше уйти на память более специализированную для этого, ну здесь, не знаю, серверная память работает, хорошая. Ну опять же, серверную память, в потребительские материнские платы еще надо выбрать в какую воткнуть.


C: Дааа, это ведь только Ryzen умеет поддерживать такую ECC память ?

Майнер: Нет, Intel тоже умеет, их 299 chipset умеет это делать. Есть у них просто модельки там разные Pro, Creator, вот эти модели надо смотреть, которые изначально заточены под это и поддерживают этот чипсет и поддерживают работу с памятью с коррекцей ошибок.


Я с огромной радостью помогу, все что знаю готов рассказать. Если интересно давайте я скину ресурсы информационные где наши передовые группы, где сейчас это активно идет.


C: Я думаю, интересно.

Майнер: Ну да я оставлю ссылки, я сейчас ссылки брошу в чат на Авито.


Неофициальная группа для обмена опытом и взаимопомощи между русскоязычными участниками Chia Network.


Русское сообщество


C: Да, спасибо.

Майнер: И посмотрите сами, почитаете. Ну там просто надо посидеть пару дней почитать. Я так понимаю, по разговору с вами, у вас подготовка хорошая, поэтому схватить и понять, особого труда для вас не составит.


Вообще ставится, запускается на любом утюге, абсолютно, можно поставить майнинг и покрутить. Мы начинали вообще там, не знаю, на Celeron (смеётся), на ноутбуках в testnet'е когда еще mainnet'а не было, а был testnet и проект проходил обкатку


А сам проект, что бы понимать, почему я в нем, почему я в нем, потому что доказательство у него интересное, по сути дела blockchainы первого уровня возьмем, эфир возьмем, bitcoin возьмем, ну там новомодные, недавние (Алтеран, Слан слышно нечётко), они в любом случае используют доказательство, proof-of-work, proof-of-stake, он не совсем понятный алгоритм, а, и blockchainы первого уровня вынуждены будут, как бы искать На них все опирается, blockchainы второго уровня на которых там уже строится на ethereum, следующий blockchain и вся DF-технология и вся вот эта куча, им не принципиально


Вот, а она выигрывает чем? То что по энергозатратам, конечно, в сотни раз ниже чем bitcoin, это большущий плюс, команда с Лос-Анджелеса это второй большой плюс, в инвесторах Andreessen Horowitz это третий большой плюс.


Andreessen Horowitz это авангард группа, это те кто владеют всеми деньгами, так что они бы просто так туда не заходили бы, на премайне тем более и четвёртыйбольшой плюс это монета, монета которая будет проходить IPO, не ICO, она будет выходить на Чикагскую биржу и по сути у этой монеты большой премайн, ей с 2017 года занимаются, ее просто не показывали в массы и она в основной своей массе намайненна и это как раз при листинге на фондовой бирже, на Чикагской, это и будет являться тем активом который будет торговаться Ну как-то вот опять скомкано, но попытался свою мысль донести


C: Да, вот мне кстати к слову не понятно как она смогут криптовалюту продавать через биржу, то есть я понимаю что на бирже есть токены, ценные бумаги, но что бы биржа торговала криптовалютой, официально типа Чикагской, таких прецедентов вообще по-моему не было или будут торговать своими акциями?

Майнер: Они будут торговать акции, а обеспеченность акций это наличие у команды токенов.


C: Ааа, то есть получается, например: Вы, через эту биржу ничего продать не сможете, через Чикагскую?

Майнер: Да, например: я смогу купить на Чикагской бирже купить акцию и тем самым, косвенно, купить эту монету.


C: А вот продать как?

Майнер: Саму монету?


C: Да.

Майнер: Саму монету Она залистится, она в обороте ее без проблем продавай/покупай сколько угодно.


C: То есть просто вот эти нелегальные биржи, они фактически следовать курсу Чикагской биржи. Да? И получится тож на тож примерно?

Майнер: Нуу, примерно да, только нельзя их назвать нелегальными, потому что сейчас проходит процедура согласования листинга на Coinbase, Coinbase имеет аккредитацию во всех штатах, не в одном, не в частичном, а во всех штатах, поэтому Coinbase сам на IPO прошла, успешнее гораздо, в 6 раз. И листинг на Coinbase подразумевает 100% успешность в ближайшей перспективе краткосрочной 7-12 лет развитие крипто-проекта. То есть в этом я не сомневаюсь. И в бизнес плане у ребят у этих они не опираются на Binance, Poloniex они опираются именно на Coinbase. И разработчики то там не самые последние люди в Силиконовой Долине. Они доминируют, они хоть и сделали проект под Китай, но на сегодняшний момент доминирует Америка 100% в этом проекте.


C: Очень интересно, спасибо за информацию.

Майнер: Готовьтесь там, везите железки, готовьтесь, у вас все только начинается, я вам точно говорю. И U.2 P3700, народ еще вообще не понял что это такое и как с ними работать, но U.2 P3700 тоже бомба.


C: Да, ладно

Майнер: Она скоростная, вот даже смотрите, я запускал к примеру, на одинаковых параметрах на Intel P3700 и на PCIe P3605, и на U.2 через переходник, я кабель до сих пор так и не смог приобрести, не успеваю, на 10 циклах, то есть 10 кратное повторение цикла при полной загрузке обоих носителей, U.2 P3700 заканчивала 10 цикл, PCIe P3605 только начинала 8.


Ну вот я у вас брал PCIe P3605 и U.2 P3700 брал. U.2 поставил на адаптер PCIный и воткнул рядышком и работал на обоих дисках, и получил вот такую вещь.


U.2 P3700 себя показал лучше и производительнее на 20%. Я вам и звонил спросить, есть ли ещё U.2.


Я вам объясню, разработчики в ноябре они выложили, на GitHub есть скрытые ресурсы и они выложили туда экономику по себестоимости при формировании плотов на разных моделях, P3700 имеет себестоимость 7 центов и ближайшие к нему конкуренты они уже в несколько раз хуже. А хвост, это потребительские SSD, они в сотни раз имеют себестоимость выше при формировании плота. Я изначально был на P3700 потому что у меня эта информация была. 7 центов себестоимость формирования плота, она отнесена только лишь через стоимость SSD она не отнесена через стоимость остального железа и энергии в том числе.


Вот, приятно было поговорить, спасибо что выслушали меня.


C: Вы наоборот, ввели меня в курс дела и я впервые такие интересные факты услышал только от вас, никто еще не в курсе. И вот я вам хочу сказать, вот с понедельника реально пошел спрос, все причём врут, говорят, что берут там для каких-то там невинных целей, ну, короче говоря, для монтажа видео, для того, для сего. Берут в основном на 1.6ТБ по 1шт, видимо, любители-майнеры, один правда взял парочку дисков. Ну в целом, у меня подозрение что многие врут и мало кто говорит истинную причину покупки.

Майнер: А смысл врать то им какой вообще ?


C: Вот я не знаю зачем, хотят первыми быть или что. То есть с понедельника идет взрывной спрос, на прошлой неделе такого не было.

Майнер: Это была первая волна, готовьтесь ко второй, вторая будет сильнее, а третья будет вообще просто накрывать. Я сейчас рассматриваю возможность помимо того, что я всем обеспечен, у меня на перед куплено, на 3 месяца вперед куплено хардов и есть еще свободное ликвидность в достаточном количестве. Я рассматриваю возможность сейчас инвестирования в лопаты, потому что их будет не хватать, ну вот эти, что бы золото добывали люди.


C: А вы думаете не заработать ли на перепродаже оборудования?

Майнер: А почему бы и нет. Кое-какая наличность есть, почему бы её не использовать.


C: Ну если реально все прям настолько вырастет, то купить для перепродажи тоже не так-то просто будет, по выгодной цене, так скажем.

Майнер: Верно, верно, я знаю цена на маркете и чего хотят, какие деньги, это я все понимаю. Ну видите у людей тоже в голове всякое разное, то есть, кто-то с улицы, кто-то первый раз, кто-то в магазин бегут в DNS, кто еще там куда-то. Много люди ошибок делают. Вообще сейчас все сделали 1 ошибку, все наступили в эти грабли, я вам докладываю 99%. К вам сейчас обратится 2% это те кто смекитил и сообразил, а сейчас все сели на NVME сейчас они через неделю их сожгут и придут за нормальными SDD к вам. Вот как всё будет развиваться.


C: Но у меня их скорее всего уже не останется, судя по всему, к концу недели.

Майнер: Значит вам надо срочно сейчас в этом направлении двигаться. Вы же понимаете что выгребут не только у вас, выгребут у всех, а выгребут все что есть, потому, что хайп вы не сдержите, вы себе представьте глаза здорового человека который видит стоимость фьючерса $5000, который понимает что он на своем утюге заработать эти деньги замайнив Ну понимаете, сейчас будут продавать все подряд, брать кредиты и бежать к вам покупать SSD вот и все.


C: Даа, знал бы я об этом, было бы у меня товара значительно больше. 90% товара уже раскупили.

Майнер: Надо было нам раньше общаться, почему мы не общались не знаю. Ну ладно, ничего страшного все еще только начинается, вы не думайте что это конец. Смотрите, рынок bitcoinов который сейчас наблюдается, развитие на криптовалютном рынке, даже сейчас небольшая коррекция это всего лишь 4 волна, там потом будет 5 волна согласно теории Эллиота, волновой, а тот же например фондовый рынок, например, возьмем, он 32 года был в бычьей фазе, поэтому все это только начинается и прет, и прет. Я думаю что мне хватит времени нахождения на бычьем рынке чтобы, заработать на всю мою оставшуюся жизнь.


C: Дай Бог.

Майнер: Как-то так, такие мысли. Вот занимаюсь активно.


C: Ну вы крутой, я в шоке, что вы все это заранее настолько предвидели.

Майнер: Я просто в нужное время в нужном месте оказался, не более того. Я давно этим занимаюсь и активно торгую, и руками, и алготрейдинг у меня налажен, и команда есть у меня, которая торгует моими депозитами. Я в этой теме давно, именно в криптовалюте, а проект, мимо него просто нельзя было пройти, там было однозначное решение. Я до этого не майнил, я не майнер, я по сути дела, я спекулянт, я торгаш, торгую тем, что все покупают. Все покупают bitcoin, а я им просто торгую. Вот разница какая. А здесь было совершенно очевидно, что в проект надо заходить, а туда попасть на пресейлеи вместе с фондами, на предпродаже не было возможности. На самом деле основные деньги зарабатываются в криптовалюте не на спекуляциях, они зарабатываются на инвестициях, если есть возможность заходить в хорошие проекты на ранней стадии в период предпродаж, то хорошие результаты получаются. Flow например, 400 иксов, это просто безумие, безумные деньги. $1000 туда вложенная в сентябре сейчас имеет $400 000, представляете какие деньги? Я понимаю, что они залочены и я не смогу их получить еще год, но тем не менее свое уже забрал давно. А с этим проектом было понятно, когда туда не было дороги попасть на пресейле, а была одна дорога через майнинг, я не раздумывая принял решение майнить и всё, поэтому я в этом проекте.


C: Круто, ну что ж, хорошего вечера!

Майнер: Спасибо, вам тоже, спасибо что выслушали.


C: Вам спасибо! Ладно, счастливо, XXXXX.

Майнер: Счастливо, ага.


Благодарности


  • За разрешение поделиться расшифровкой разговора анонимному майнеру.
  • За изображение спасибо TripletConcept. Его лучше смотреть в полном размере в отдельном окне.

Подробнее..

Huawei OceanStor Dorado 18000 V6 в чём её хай-эндовость

21.10.2020 14:12:03 | Автор: admin
Обстоятельно аргументируем, что делает OceanStor Dorado 18000 V6 по-настоящему хай-эндовой системой хранения данных с порядочным заделом на ближайшие годы. Заодно развеиваем распространённые опасения относительно All-Flash-хранилищ и показываем, за счёт чего Huawei выжимает из них максимум: end-to-end NVMe, дополнительное кэширование на SCM и целая пачка других решений.




Новый ландшафт данных новое хранение данных


Интенсивность работы с данными повышается во всех отраслях. И банковская сфера тому нагляднейшая иллюстрация. За последние несколько лет число банковских транзакций увеличилось в десять с лишним раз. Как показывает исследование BCG, только в России на отрезке с 2010 по 2018 год количество безналичных транзакций с помощью пластиковых карт показало более чем тридцатикратный рост с 5,8 до 172 на одного человека в год. Дело прежде всего в триумфе микроплатежей: большинство из нас сроднилось с онлайн-банкингом, и банк у нас теперь под рукой в телефоне.

IT-инфраструктура кредитной организации должна быть готова к такому вызову. А это действительно вызов. Помимо всего прочего, если раньше банку требовалось обеспечить доступность данных лишь в свои рабочие часы, то теперь 24/7. Ещё недавно 5 мс считались приемлемой нормой задержкой, и что же? Сейчас даже 1 мс перебор. Для современной системы хранения данных целевое значение 0,5 мс.

То же самое с надёжностью: в 2010-е сформировалось эмпирическое понимание того, что достаточно довести её уровень до пяти десяток 99,999%. Правда, понимание это успело устареть. В 2020 году для бизнеса абсолютно нормально требовать 99,9999% применительно к хранилищу и 99,99999% применительно к архитектурному решению в целом. И это вовсе не блажь, а насущная необходимость: либо временного окна на обслуживание инфраструктуры нет, либо оно крохотное.



Для наглядности удобно спроецировать эти показатели на плоскость денег. Проще всего на примере финансовых организаций. На диаграмме выше указано, какую сумму в течение часа зарабатывает каждый из топ-10 мировых банков. У одного только Промышленного и коммерческого банка Китая это ни много ни мало $5 млн. Ровно во столько обойдётся часовой простой IT-инфраструктуры крупнейшей кредитной организации КНР (причём в расчёте учтена лишь упущенная выгода!). При таком ракурсе видно, что сокращение даунтайма и повышение надёжности не то что на единицы процентов даже на доли процента полностью рационально обоснованны. Не только из соображений повышения конкурентоспособности, но и попросту ради сохранения рыночных позиций.

Сопоставимые изменения происходят в других индустриях. Например, в воздушных перевозках: до пандемии авиасообщение год от года только набирало обороты, и многие стали пользоваться им почти как такси. Что касается потребительских паттернов, в обществе укоренилась привычка к тотальной доступности сервисов: по прибытии в аэропорт нам требуется подключение к Wi-Fi, доступ к платёжным сервисам, к карте местности и т. д. Как следствие, нагрузка на инфраструктуру и сервисы в публичных пространствах возросла многократно. И те подходы к её, инфраструктуры, построению, которые мы считали приемлемыми даже год назад, стремительно устаревают.



Не рано ли переходить на All-Flash?


Для решения задач, о которых было сказано выше, с точки зрения производительности AFA all-flash arrays, то есть полностью построенные на флеше массивы, подходят как нельзя лучше. Разве что до последнего времени сохранялись сомнения в том, сравнимы ли они по надёжности с собранными на основе HDD и с гибридными. В конце концов, у твердотельной флеш-памяти есть такой показатель, как средняя наработка на отказ, или MTBF (mean time between failures). Деградация ячеек вследствие операций ввода-вывода, увы, данность.

Так что перспективы All-Flash омрачал вопрос, как предотвратить гибель данных в том случае, если SSD прикажет долго жить. Резервное копирование вариант привычный, вот только время восстановления было бы неприемлемо большим исходя из современных требований. Другой выход наладить второй уровень хранения на шпиндельных накопителях, однако при такой схеме теряется часть преимуществ строго флешевой системы.

Однако цифры говорят иное: статистика гигантов digital-экономики, включая Google, за последние годы показывает, что флеш кратно надёжнее, чем жёсткие диски. Причём как на коротком промежутке времени, так и на длинном: в среднем до выхода флеш-накопителей из строя проходит четыре-шесть лет. В плане надёжности хранения данных они ничуть не уступают накопителям на шпиндельных магнитных дисках, а то и превосходят таковые.



Ещё один традиционный аргумент в пользу шпиндельных накопителей их ценовая доступность. Спору нет, стоимость хранения терабайта на жёстком диске до сих пор сравнительно невелика. И если брать в расчёт только расходы на оборудование, держать терабайт на шпиндельном накопителе дешевле, чем на твердотельном. Однако в разрезе финансового планирования имеет значение, не только почём было куплено конкретное устройство, но и какова совокупная стоимость владения им вдолгую от трёх до семи лет.

С такого угла зрения всё совсем иначе. Даже если вынести за скобки дедупликацию и компрессию, которые, как правило, применяются на флеш-массивах и делают их эксплуатацию выгоднее экономически, остаются такие характеристики, как занимаемое носителями место в стойке, тепловыделение, энергопотребление. А по ним флеш выигрывает у предшественников. В результате TCO систем хранения данных на флеше с учётом всех параметров часто бывает едва ли не вдвое ниже, чем в случае с массивами на шпиндельных накопителях или с гибридами.

Согласно отчётам агентства ESG, на All-Flash системах хранения данных Dorado V6 реально добиться снижения стоимости владения до 78% на интервале в пять лет в том числе за счёт эффективной дедупликации и компрессии и благодаря невысоким энергопотреблению и тепловыделению. Немецкая аналитическая компания DCIG также рекомендует их к использованию как оптимальные с точки зрения TCO из доступных на сегодняшний день.


Использование твердотельных накопителей даёт возможность экономить полезное пространство, снижает число отказов, сокращает время на обслуживание решения, уменьшает энергопотребление и тепловыделение СХД. И оказывается, что AFA в экономическом отношении как минимум сопоставим с традиционными массивами на шпиндельных накопителях, зачастую же превосходит их.



Роял-флеш от Huawei


Среди наших All-Flash хранилищ топовое место принадлежит hi-end-системе OceanStor Dorado 18000 V6. Да и не только среди наших: целом по индустрии она держит рекорд скорости до 20 млн IPOS в максимальной конфигурации. Кроме того, она чрезвычайно надёжна: пусть даже полетят разом два контроллера, или до семи контроллеров один за другим, или сразу целый движок данные уцелеют. Изрядные преимущества восемнадцатитысячной даёт зашитый в неё ИИ, в том числе гибкость в управления внутренними процессами. Посмотрим, за счёт чего всё это достигается.



В значительной части фора у компании Huawei имеется потому, что она единственный на рынке производитель, делающий системы хранения данных сам целиком и полностью. У нас своя схемотехника, свой микрокод, своё сервисное обслуживание.

Контроллер в системах OceanStor Dorado построен на процессоре собственной разработки и производства Huawei Kunpeng 920. В нём задействован модуль управления Intelligent Baseboard Management Controller (iBMC), тоже наш. Чипы ИИ, а именно Ascend 310, которые оптимизируют предсказания по отказам и дают рекомендации по настройкам, также хуавеевские, равно как и платы ввода-вывода модуль Smart I/O. Наконец, и контроллеры в твердотельных накопителях спроектированы и изготовлены нашими силами. Всё это дало базу для того, чтобы сделать интегрально сбалансированное и высокопроизводительное решение.



За последний год мы реализовали проект по внедрению этой, самой топовой своей СХД в одном из крупных российских банков. В результате более 40 единиц OceanStor Dorado 18000 V6 в metro-кластере показывают стабильную производительность: с каждой системы удаётся снять более миллиона IOPS, и это с учётом задержек из-за расстояния.




Сквозной NVMe


Новейшие системы хранения данных Huawei поддерживают end-to-end NVMe, на чём мы неспроста делаем акцент. Традиционно используемые протоколы доступа к накопителям были разработаны в седой айтишной древности: в фундаменте у них SCSI-команды (привет, 1980-е!), которые тянут за собой уйму функций для обеспечения обратной совместимости. Какой способ доступа ни возьми, протокольный overhead в таком случае колоссальный. В итоге у хранилищ, которые используют завязанные на SCSI протоколы, задержка ввода-вывода не может быть ниже 0,40,5 мс. В свою очередь, будучи протоколом, созданным для работы с флеш-памятью и избавленным от костылей ради пресловутой обратной совместимости, NVMe Non-Volatile Memory Express сбивает latency до 0,1 мс, притом не на СХД, а на всём стеке, от хоста до накопителей. Неудивительно, что NVMe лежит в русле трендов развития data storages на обозримое будущее. Сделали ставку на NVMe и мы и постепенно отходим от SCSI. Все производимые сегодня системы хранения данных Huawei, включая линейку Dorado, NVMe поддерживают (правда, как end-to-end он реализован только на передовых моделях серии Dorado V6).



FlashLink: пригоршня технологий


Краеугольная для всей линейки OceanStor Dorado технология FlashLink. Точнее, это термин, объединяющий интегральный набор технологий, которые служат для обеспечения высоких производительности и надёжности. Сюда входят технологии дедупликации и компрессии, функционирования системы распределения данных RAID 2.0+, разделения холодных и горячих данных, цельнострайповой последовательной записи данных (случайные записи, с новыми и изменёнными данными, агрегируются в крупный стек и пишутся последовательно, что повышает скорость чтения-записи).

Помимо всего прочего, FlashLink включает в себя две важные составляющие Wear Leveling и Global Garbage Collection. На них стоит остановиться отдельно.

Фактически любой твердотельный накопитель это СХД в миниатюре, с большим числом блоков и контроллером, который обеспечивает доступность данных. А обеспечивается она в том числе за счёт того, что данные с убитых ячеек перебрасываются в не убитые. Тем самым гарантируется, что их удастся прочитать. Существуют различные алгоритмы такого переноса. В общем случае контроллер старается отбалансировать износ всех ячеек накопителя. У такого подхода есть минус. Когда внутри SSD происходит перемещение данных, число осуществляемых им операций ввода-вывода разительно сокращается. На текущий момент это неизбежное зло.

Таким образом, если в системе много твердотельных накопителей, на графике её производительности вырисовывается пила, с резкими подъёмами и спадами. Беда в том, что какой-то один накопитель из пула может запустить миграцию данных в любой момент, а общий performance снимается единовременно со всех SSD в массиве. Но инженеры Huawei придумали, как избежать возникновения пилы.

Благо и контроллеры в накопителях, и контроллер хранилища, и микрокод у Huawei родные, эти процессы в OceanStor Dorado 18000 V6 запускаются централизованно, синхронно на всех накопителях массива. Причём по команде контроллера СХД и именно тогда, когда нет большой нагрузки по вводу-выводу.

Чип искусственного интеллекта также участвует в выборе правильного момента для переноса данных: на базе статистики обращений за предыдущие несколько месяцев он с высочайшей вероятностью способен спрогнозировать, ожидать ли в ближайшее время активного ввода-вывода, и если ответ отрицательный, а нагрузка на систему на текущий момент невелика, то контроллер командует всем накопителям: кому требуется Wear Leveling, произвести его разом и синхронно.


Плюс ко всему контроллер системы видит, что творится в каждой ячейке накопителя, в отличие от СХД конкурирующих производителей: те вынуждены закупать твердотельные носители у сторонних вендоров, ввиду чего cell-level детализация контроллерам таких хранилищ недоступна.

Как следствие, у OceanStor Dorado 18000 V6 очень короткий период потери производительности на операции Wear Leveling, а выполняется она, в основном когда никаким другим процессам не мешает. Это даёт высокую стабильную производительность на постоянной основе.



Из чего складывается надёжность OceanStor Dorado 18000 V6


В современных системах хранения данных выделяется четыре уровня надёжности:

  • аппаратная, на уровне накопителя;
  • архитектурная, на уровне оборудования;
  • архитектурная вместе с программной частью;
  • совокупная, относящаяся к решению в целом.


Поскольку, напомним, все составные части СХД наша компания проектирует и выпускает сама, мы обеспечиваем надёжность на каждом из четырёх уровней, с возможностью досконально отслеживать, что на каком из них происходит в моменте.



Надёжность накопителей гарантируется в первую очередь ранее описанными Wear Leveling и Global Garbage Collection. Когда SSD выглядит для системы как чёрный ящик, ей невдомёк, как конкретно в нём изнашиваются ячейки. Для OceanStor Dorado 18000 V6 накопители прозрачны, благодаря чему возможна равномерная балансировка по всем накопителям массива равномерно. Таким образом получается значительно продлить срок жизни SSD и заручиться высоким уровнем надёжности их функционирования.



Также на надёжность накопителя влияют дополнительные избыточные ячейки в нём. И наряду с простым резервом в СХД используются так называемые DIF-ячейки, где содержатся контрольные суммы, а также дополнительные коды, позволяющие уберечь каждый блок от единичной ошибки, в дополнение к защите на уровне RAID-массива.



Залогом надёжности архитектурной служит решение SmartMatrix. Вкратце это четыре контроллера, которые сидят на пассивном бекплейне в составе одного движка (engine). Два таких движка соответственно, с восемью контроллерами подключаются к общим полкам с накопителями. Благодаря SmartMatrix, даже если перестанут функционировать семь контроллеров из восьми, сохранится доступ ко всем данным как на чтение, так и на запись. А при потере шести контроллеров из восьми можно будет даже продолжать операции кэширования.



Платы ввода-вывода на том самом пассивном бекплейне доступны всем контроллерам, как по фронтенду, так и по бэкенду. При такой схеме подключения full-mesh, что бы ни выходило из строя, доступ к накопителям всегда сохраняется.



О надёжности архитектуры уместнее всего говорить в контексте вариантов отказов, защиту от которых система хранения данных в состоянии обеспечить.

Хранилище переживёт без потерь ситуацию, если отвалятся два контроллера, в том числе одновременно. Достигается такая устойчивость за счёт того, что любой блок кэша непременно имеет ещё две копии на разных контроллерах, то есть в общей сложности он существует в трёх копиях. Причём по крайней мере одна находится на другом движке. Таким образом, даже если перестанет работать движок целиком со всеми четырьмя своими контроллерами, гарантировано сохранение всей информации, которая находилась в кэш-памяти, потому что как минимум в одном контроллере из оставшегося движка кэш будет продублирован. Наконец, при последовательном подключении можно потерять до семи контроллеров, и даже при их выбывании блоками по два, причём опять-таки сохранится весь ввод-вывод и все данные из кэш-памяти.



При сравнении с хранилищами класса hi-end прочих производителей видно, что только Huawei обеспечивает полную защиту данных и полную их доступность даже после гибели двух контроллеров или движка целиком. Большинство вендоров использует схему с так называемыми контроллерными парами, к которым подключаются накопители. К сожалению, в такой конфигурации при выходе из строя двух контроллеров возникает риск утраты доступа к накопителю по вводу-выводу.



Увы, объективно не исключён отказ одиночного компонента. В таком случае производительность на какое-то время просядет: необходимо, чтобы перестроились пути и возобновился доступ по операциям ввода-вывода относительно тех блоков, которые либо пришли на запись, но ещё не были записаны, либо были запрошены на чтение. У OceanStor Dorado 18000 V6 средний тайминг перестроения составляет примерно одну секунду значительно меньше, чем у ближайшего аналога в индустрии (4 с). Достигается это благодаря всё тому же пассивному бекплейну: когда контроллер выходит из строя, остальные сразу видят его ввод-вывод, и в частности какой блок данных не был дозаписан; в итоге ближайший контроллер подхватывает процесс. Отсюда и возможность восстановить производительность буквально за секунду. Надо добавить, интервал стабилен: секунда на один контроллер, секунда на другой и т. д.



В пассивном бекплейне OceanStor Dorado 18000 V6 все платы доступны всем контроллерам без какой-либо дополнительной адресации. А значит, любой контроллер способен подхватить ввод-вывод по любому порту. В какой бы фронтенд-порт ни пришёл ввод-вывод, контроллер готов будет его отработать. Отсюда минимальное число внутренних пересылок и заметное упрощение балансировки.

Балансировка по фронтенду выполняется с помощью драйвера multipathing, и дополнительно осуществляется балансировка внутри самой системы, благо все контроллеры видят все порты ввода-вывода.



Традиционно все массивы Huawei выполнены таким образом, что не имеют единой точки отказа. Замене на горячую, без перезагрузки системы, поддаются все её компоненты: контроллеры, модули питания, модули охлаждения, платы ввода-вывода и пр.



Повышает надёжность системы в целом и такая технология, как RAID-TP. Это название RAID-группы, которая позволяет подстраховаться на случай одновременного выхода из строя до трёх накопителей. Причём ребилд на 1 Тбайт стабильно занимает менее 30 минут. Лучший из зафиксированных результатов в восемь раз быстрее, чем с тем же объёмом данных на шпиндельном накопителе. Таким образом, есть возможность использовать чрезвычайно ёмкие накопители, допустим на 7,68 или даже 15 Тбайт, и не беспокоиться о надёжности системы.

Важно, что ребилд осуществляется не в spare drive, а в spare space резервную ёмкость. В каждом накопителе выделено место, используемое для восстановления данных после отказа. Таким образом, восстановление производится не по схеме много в один, а по схеме много во много, благодаря чему и удаётся заметно ускорить процесс. И до тех пор пока имеется свободная ёмкость, восстановление можно продолжать.



Отдельно следует упомянуть о надёжности решения из нескольких хранилищ в metro-кластере, или, в терминологии Huawei, HyperMetro. Такие схемы поддерживаются на всём модельном ряду наших систем хранения данных и допускают работу и с файловым, и с блочным доступом. Причём на блочном функционирует как по Fibre Channel, так и по Ethernet (в том числе по iSCSI).

В сущности, речь идёт о двунаправленной репликации с одной СХД на другую, при которой реплицированному LUN придан тот же LUN-ID, что и основному. Работает технология прежде всего благодаря консистентности кэшей с двух разных систем. Таким образом, для хоста абсолютно всё равно, с какой стороны он находится: и здесь и там он видит один и тот же логический диск. Как следствие, ничто не мешает развернуть кластер отказоустойчивости, растянутый на две площадки.

Для кворума же используется физическая или виртуальная Linux-машина. Расположена та может быть на третьей площадке, и требования к её ресурсам невелики. Распространённый сценарий арендовать виртуальную площадку исключительно под размещение кворумной VM.

Технология допускает и расширение: два хранилища в metro-кластере, дополнительная площадка с асинхронной репликацией.



Исторически у многих заказчиков формируется зоопарк хранения: куча СХД от разных производителей, разных моделей, разных поколений, с разной функциональностью. Вместе с тем число хостов бывает внушительным, и зачастую они виртуализованы. В подобных условиях одна из приоритетных задач администрирования быстро, единообразно и с удобством предоставлять логические диски для хостов, желательно так, чтобы не вникать в то, где эти диски находятся физически. Для того-то и предназначено наше программное решение OceanStor DJ, которое умеет унифицированно управлять различными системами хранения данных и предоставлять с них сервисы без привязки к конкретной модели хранилища.



Те же и ИИ


Как уже было сказано, в OceanStor Dorado 18000 V6 встроены процессоры с алгоритмами искусственного интеллекта Ascend. Задействуются они, во-первых, для прогнозирования отказов, а во-вторых, для формирования рекомендаций по настройке, что также увеличивает производительность и надёжность хранилища.

Горизонт предсказаний два месяца: ИИ-машинерия предполагает, что с высокой вероятностью произойдёт за это время, не пора ли будет делать расширение, менять политики доступа и т. д. Выдаются рекомендации заранее, что позволяет загодя намечать окна по обслуживанию системы.



Следующий этап развития ИИ от Huawei предполагает его вывод на глобальный уровень. В ходе сервисного обслуживания отработки отказов или рекомендаций Huawei агрегирует сведения из систем логирования со всех хранилищ наших клиентов. На основании собранного производится анализ произошедших или потенциально возможных сбоев и выносятся глобальные рекомендации исходя не из функционирования одной конкретной СХД или даже десятка, а из того, что происходит и происходило с тысячами таких устройств. Выборка огромна, и с опорой на неё алгоритмы ИИ начинают обучаться крайне быстро, отчего точность предсказаний ощутимо растёт.

Совместимость





В 20192020 годах было много инсинуаций по поводу взаимодействия нашего оборудования с продуктами VMware. Чтобы окончательно пресечь их, ответственно заявляем: VMware партнёр Huawei. Были проведены все мыслимые тесты на совместимость нашего железа с её ПО, и в итоге на сайте VMware в листе hardware compatibility указаны доступные на сегодняшний день СХД нашего производства без каких-либо оговорок. Иначе говоря, с программной средой VMware можно использовать хранилища Huawei, включая Dorado V6, с полноценной поддержкой.



То же касается нашего сотрудничества с Brocade. Мы продолжаем взаимодействовать и проводить тесты на совместимость нашей продукции и по их результатам с полной уверенностью утверждаем, что наши системы хранения данных полностью совместимы с новейшими FC-коммутаторами Brocade.



Что дальше?


Мы продолжаем развивать совершенствовать свои процессоры: они становятся быстрее, надёжнее, растёт их производительность. Улучшаем и чипы ИИ на их базе в том числе выпускаются модули, которые ускоряют дедупликацию и компрессию. Те, кто имеет доступ к нашему конфигуратору, могли заметить, что в моделях Dorado V6 эти карты уже доступны к заказу.

Также мы движемся в сторону дополнительного кэширования на Storage Class Memory энергонезависимой памяти с особо низкими задержками, порядка десяти микросекунд на чтение. Помимо всего прочего, SCM даёт прирост производительности, прежде всего при работе с big data и при решении OLTP-задач. После ближайшего апдейта SCM-карты должны стать доступны для заказа.

И конечно, функциональность файлового доступа будет расширяться на всём модельном ряду хранилищ данных Huawei следите за нашими обновлениями.
Подробнее..

Система хранения данных Huawei Dorado 18000 V6 поставила мировой рекорд производительности 21 млн IOPS

27.10.2020 14:04:24 | Автор: admin
По результатам теста SPC-1, признанного независимого стандарта в оценке производительности систем хранения данных, full-SSD хранилище корпоративного класса Huawei Dorado 18000 V6 поставило новый мировой IOPS-рекорд и подтвердило своё превосходство на глобальном рынке по другим техническим параметрам, включая время задержки и соотношение цена производительность.



В октябре 2020 года hi-end система хранения данных Dorado 18000 V6 заняла первое место в наиболее авторитетном индустриальном тесте производительности SPC-1. Преодолев отметку 21 млн операций ввода-вывода в секунду, она побила предыдущий отраслевой рекорд: у решения, находящегося теперь на втором месте, максимальный достигнутый показатель в два с лишним раза ниже.



Надо отметить, что высочайшую производительность наша All-Flash СХД удерживала в том числе при работе алгоритмов уплотнения данных (сжатие и компрессия), служащих для повышения эффективности хранения. В общем случае эти процессы могут периодически снижать производительность, однако в Dorado 18000 V6 они оптимизированы таким образом, чтобы избегать подобных спадов или сводить их к минимуму.

Впечатляющие результаты наше хранилище продемонстрировало и по соотношению стоимость производительность: 2,914 юаня, или около $0,436, в расчёте на 1 IOPS. Среднее время отклика системы в ходе проведения теста составило 0,286 мс, что значительно лучше целевого показателя для современных систем хранения данных (0,5 мс). В свою очередь, коэффициент полезного использования ёмкости в рамках SPC-1 был зафиксирован на уровне 68,35% выше, чем у прочих продуктов в топ-10 рейтинга.

Испытания производительности систем хранения данных регулярно проводит независимая, не аффилированная с вендорами организация Storage Performance Council. В ходе бенчмаркинга замеряется, сколько IOPS способна выдавать СХД при произвольных нагрузках ввода-вывода, когда занята обработкой онлайн-транзакций (OLTP) в режиме реального времени. Таким образом удаётся оценить, насколько производительно решение при обслуживании критически важных бизнес-приложений: биллинговых систем, сервисов интернет-банкинга, медицинских информационных систем, ERP-платформ и т. д.

Перечисленные достижения стали возможны в том числе благодаря инновационным решениям, использованным в Dorado 18000 V6: ИИ-чипам Ascend 310, сквозному NVMe, набору технологий FlashLink, архитектуре SmartMatrix и др. В деталях преимущества системы мы недавно описали в отдельном посте на Хабре.

Системы хранения данных Huawei проходят тесты SPC с 2010 года, и это не первый рекорд, поставленный ими.

Полная версия официального отчёта о результатах тестирования доступна на сайте Storage Performance Council.
Подробнее..

NVMe Namespaces возможности и подводные камни

03.03.2021 16:23:30 | Автор: admin

Уверен, многие слышали про NVM Express, или просто NVMe. Изначально для меня это были просто быстрые диски. Потом я осознал, что это интерфейс для подключения этих дисков. Затем стал понимать NVMe как протокол для передачи данных по PCIe-шине. И не просто протокол, а протокол, разработанный специально для твердотельных накопителей!

Мало-помалу я пришел к пониманию, что это целая спецификация. И понеслось Сколько интересных особенностей использования, оказывается, существует у NVMe. Сколько всего придумано Было даже немного обидно, что мимо меня прошел такой пласт информации.

Так что же такое NVMe? Рассмотрим подробнее.

Началось все с SATA-интерфейса. На самом деле до него существовала масса других интерфейсов SCSI, UltraSCSI, ATA, PATA и прочие, но это уже дела давно минувших дней. В этой статье мы рассмотрим только актуальные сейчас интерфейсы.

Скорость передачи данных по SATA-интерфейсу достигает 560 Мбайт/с, чего с лихвой хватает для HDD-дисков, производительность которых варьируется от 90 до 235 Мбайт/с (есть отдельные прототипы, скорость которых достигает 480 Мбайт/с). Но вот для SSD-дисков этого недостаточно, уже сейчас их производительность достигает от 3000 до 3500 Мбайт/с. SAS-интерфейс также не подойдет, его максимальная скорость всего лишь 1200 Мбайт/c.

Для того, чтобы реализовать весь потенциал твердотельных накопителей, великие умы решили использовать PCIe-интерфейс. Сейчас он позволяет передавать данные со скоростью от 8 до 32 Гбайт/c. Чтобы унифицировать подключение SSD к PCIe-интерфейсу, была разработана спецификация NVMe. Точно так же, как в свое время была создана спецификация для подключения USB-Flash-накопителей.

Полностью разбирать NVMe мы не будем. В этой статье я хочу поделиться с вами сильно заинтересовавшей меня особенностью NVMe Namespaces, или Пространства имен.

Надеюсь, среди читателей есть те, кто интересуется изучением этой технологии. Буду рад комментариям опытных пользователей. А если вы, как и я, только начинаете разбираться в теме, рекомендую ознакомиться с циклом статей об истории SSD. В свое время она помогла мне утрамбовать и разложить по полочкам много хлама в моей голове.

Ближе к NVMe


NVMe в Linux


Начну издалека. К изучению и поиску информации о пространствах имен меня побудил вопрос: Почему NVMe-диски в Linux называются именно так?

Все привыкли к обозначению дисков в Linux в виде блочных устройств. Они представляют собой файловые дескрипторы, которые обеспечивают интерфейс для взаимодействия с физическими или виртуальными устройствами. И такие устройства имеют не случайное, а вполне строгое название, содержащее некоторую информацию. Обратимся к следующему выводу из devfs:

root@thinkpad-e14:~$ ls -l /dev/ | grep -E "nvme"crw-------  1 root    root    241,   0 окт 25 22:04 nvme0brw-rw----  1 root    disk    259,   0 окт 25 22:04 nvme0n1brw-rw----  1 root    disk    259,   1 окт 25 22:04 nvme0n1p1brw-rw----  1 root    disk    259,   2 окт 25 22:04 nvme0n1p2brw-rw----  1 root    disk    259,   3 окт 25 22:04 nvme0n1p3

Здесь перечислены все NVMe-устройства, подключенные к рабочей машине. Рассмотрим блочное устройства /dev/nvme0n1p1. Часть nvme, как ни странно, применяется для NVMe-устройств. Число, идущее следом, обозначает порядковый номер контроллера диска, который отвечает за все операции, производимые с накопителем. Заключительная часть p1 указывает на номер раздела на диске. И наконец, часть, которая заслуживает нашего внимания, n1. Это и есть номер пространства.

Для простоты можно также провести некоторую аналогию с обыкновенными SSD:

/dev/sda аналог /dev/nvme0n1
/dev/sda1 аналог /dev/nvme0n1p1

Обратите внимание на устройство /dev/nvme0. Это NVMe-контроллер. Он является символьным устройством. Таким образом, мы можем обращаться к нему, отправляя определенные команды, чем мы и воспользуемся далее.

Namespace vs Partition


У вас может возникнуть вопрос: чем namespace отличается от partition? Отбросим все возможности и преимущества NVMe Namespace. Partition это раздел диска на уровне хоста. Namespace же является разделом на уровне контроллера. То есть Namespace является неким логическим пространством, с которым хост работает как с блочным устройством.

Еще один уровень разделов добавляет гибкости в организации системы хранения, что позволяет использовать различные технологии, направленные на увеличение надежности, производительности и безопасности данных. Мы рассмотрим их позже.

Параметры NVMe-контроллера


Всеми операциями с данными занимается специальный NVMe-контроллер. Помимо этого, в своей памяти он хранит метаданные о себе и внутреннем устройстве информации: серийный номер, модель, всевозможные настройки диска, пространств, закрепленных за ним, формат данных и так далее.
Предлагаю рассмотреть их под микроскопом. Для этого я отправил контроллеру специальную команду, в ответ на которую он вернул метаданные. Позже я объясню, как это сделать, а сейчас взгляните на них. Так как данных достаточно много, я не стал вставлять их целиком, но вы обязаны знать, что те параметры, о которых я буду говорить далее, на самом деле существуют:

{  "vid" : 5197,  "ssvid" : 5197,  "sn" : "00000000000000",  "mn" : "00000000000000000000000000",  "fr" : "7L1QFXV7",  "rab" : 2,  "ieee" : 9528,  "cmic" : 0,  "mdts" : 9,  "cntlid" : 5,  "ver" : 66304,  "rtd3r" : 100000,  "rtd3e" : 8000000,  "oaes" : 512,  "ctratt" : 0,  "rrls" : 0,  "crdt1" : 0,  "crdt2" : 0,  "crdt3" : 0,  "oacs" : 23,  "tnvmcap" : 256060514304,  "unvmcap" : 0,  ...}

Метаданные хранятся в контроллере в виде последовательности байтов в порядке от старшего к младшему, поэтому далее я буду придерживаться следующего формата записи:
[интервал в байтах (формата Big-Endian)] / название параметра / расшифровка.

Пример для лучшего понимания. Следующая запись означает, что с 71 по 64 байт хранится значение параметра fr, который расшифровывается как firmware revision:

[71:64] / fr / firmware revision.
[23:4] / sn / serial number. Содержит серийный номер контроллера.
[63:24] / mn / model number. Содержит номер модели, или part number.
[71:64] / fr / firmware revision. Содержит номер ревизии прошивки контроллера.
[257:256] / oacs / optional admin command support. Указывает на наличие дополнительных команд и функций контроллера. Состоит он из 16 бит, каждый из которых отвечает за определенную команду. Если бит равен 1, то контроллер дает возможность:

  • [15:10] зарезервированы;
  • [9] получить статус LBA;
  • [8] получить доступ к дорбелл буферу (Doorbell Buffer Config);
  • [7] управлять виртуализацией (Virtualization Management);
  • [6] использовать команды NVMe-Mi Recieve и NVMe-Mi Send (NVMe Management Interface);
  • [5] использовать директивы (Directives);
  • [4] использовать команды для самопроверки (Self-Test Commands);
  • [3] управлять пространствами имен (Namespace Management);
  • [2] обновлять прошивку контроллера (команды Firmware Commit и Firmware Download);
  • [1] форматировать пространства имен (NVM Format);
  • [0] поддержка команд протокола безопасности (Security Send, Security Receive).

В данной статье мы затронем только те функции, которые относятся к пространствам имен, а именно Namespace Management и NVM Format. Если вас интересуют подробности о других функциях, можно обратиться к спецификации NVM Express Revision 1.4.

Параметры NVMe-пространств


Теперь рассмотрим метаданные NVMe-пространств:

{  "nsze" : 500118192,  "ncap" : 500118192,  "nuse" : 233042000,  "nsfeat" : 0,  "nlbaf" : 0,  "flbas" : 0,  "mc" : 0,  "dpc" : 0,  "dps" : 0,  "nmic" : 0,  "rescap" : 0,  ...  ]}

[7:0] / nsze / namespace size. Это максимальный размер пространства в логических блоках. В данном случае 500118192 512-байтных блоков, что, кстати, и указано в выводе blockdev:

root@thinkpad-e14:~$ sudo blockdev --getsz /dev/nvme0n1500118192

[15:8] / ncap / namespace capacity. Это количество логических блоков, выделенных пространству для хранения данных в текущий момент.

[23:17] / nuse / namespace use. Это количество логических блоков, занятых данными в текущий момент.

Обратите внимание, что параметры nsze и ncap равны. Какой смысл указывать максимальный объем и объем, который выделен в текущий момент? Значит ли это, что в текущий момент может быть выделено меньше, чем доступно? Да!

Дело в том, что пространства имен поддерживают технологию Thin Provisioning. Это означает, что пространству выделяется только часть от указанного объема. Другая часть будет оставаться в общем пуле и выделяться этому или другим пространствам по требованию: при заполнении выделенного объема или при достижении критического порога. В общем, эта технология позволяет эффективнее использовать ресурсы для хранения данных. Подробнее и нагляднее с этой технологией можно ознакомиться в этой статье.

В нашей же ситуации nsze и ncap равны, так как пространство было создано без поддержки тонкого распределения. Выглядеть такое пространство на диске будет так:


ncap и nsize будут указывать на одно общий объем пространства. В случае с использованием тонкого распределения на диске пространство будет выглядеть так:


Здесь nsze указывает на максимальный объем, ncap на выделенный, а nuse в обоих случая показывает только то, что занято. Когда значение nuse достигнет значения ncap, то ncap увеличится, но не больше, чем nsze.

Стоит отметить, что для поддержки этой технологии необходима соответствующая настройка пространства имен, а также поддержка тонкого распределения со стороны контроллера.

[24:24] / nsfeat / namespace features. Этот параметр особенно интересен. Он указывает на наличие дополнительных особенностей пространства. Состоит он из 8 бит (перечислены они тоже в Big Endian), каждый из которых отвечает за определенную функцию. Если значение бита равно 1, то функция активна, 0 нет:

  • [7:5] зарезервированы;
  • [4:4] поддержка дополнительных полей для оптимизации ввода-вывода;
  • [3:3] отключение переиспользования поля NGUID;
  • [2:2] поддержка делоцированных и незаписанных блоков (Context Attributes);
  • [1:1] поддержка дополнительных полей для атомарной записи (Atomic Operations);
  • [0:0] поддержка тонкого распределения.

[26:26] / flbas / formatted lba size. Этот параметр указывает на структуру LBA. Также состоит из 8 бит:

  • [7:5] зарезервированы;
  • [4:4] при значении 1: указывает, что метаданные будут храниться в конце блока; при значении 0: метаданные передаются отдельным буфером;
  • [3:0] позволяет выбрать один из 16 возможных форматов LBA.


[29:29] / dps / end-to-end data protection type settings. Указывает на тип сквозной защиты данных. Состоит из 8 бит:

  • [7:4] зарезервированы;
  • [3:3] указывает на тип передачи метаданных;
  • [2:0] указывает на наличие защиты данных и ее тип.

[30:30] / nmic / namespace multi-path and Namespace Sharing Capabilities. Это поле указывает на поддержку функций, связанных с мультидоступом к пространствам имен:

  • [7:1] зарезервированы;
  • [0:0] значение 1 указывает на то, что данное пространство является публичным (public namespace) и может связываться с несколькими контроллерами, а значение 0 на то, что пространство является приватным (private namespace) и привязывается только к одному.

На этом можно завершить краткий обзор параметров. Их количество огромно, что позволяет очень тонко настроить пространства имен под различные задачи, которые мы рассмотрим в конце статьи. Подробное описание каждого параметра можно изучить в спецификации NVM Express Revision 1.4.

Публичные и приватные пространства


В статье уже упоминались такие термины, как публичные пространства и приватные пространства. Но я не вносил ясности в их значение, поэтому считаю нужным уделить им немного времени.

Одним из этапов создания пространства является его закрепление за NVMe-контроллером. Доступ к пространству и будет осуществляться через тот контроллер, за которым оно закреплено. Но пространство может быть закреплено не только за одним контроллером приватное, но и за несколькими контроллерами публичное.

Если приватное пространство можно назвать обычным, так как из него ничего интересного слепить нельзя, то публичное пространство позволяет использовать такую возможность, как namespace multi-path.

Взаимодействие с NVMe


Приступим к вопросу взаимодействия с NVMe-устройствами: как посылать различные команды контроллеру, создавать пространства имен, форматировать их и т. д. Для этого в мире Linux существует утилита nvme-cli. С ее помощью и можно выполнять данные операции.

nvme list


Чтобы вывести список NVMe-устройств, не обязательно обращаться к devfs подобным образом:

root@thinkpad-e14:~$ ls /dev/ | grep "nvme"nvme0nvme0n1nvme0n1p1nvme0n1p2nvme0n1p3

Или использовать lspci, чтобы узнать что же такое подключено к машине:

root@thinkpad-e14:~$ lspci | grep -E "NVMe|Non-Volatile"07:00.0 Non-Volatile memory controller: Samsung Electronics Co Ltd Device a809

Достаточно использовать команду nvme list:

root@thinkpad-e14:~$ nvme list -o json{  "Devices" : [    {      "NameSpace" : 1,      "DevicePath" : "/dev/nvme0n1",      "Firmware" : "9L1QFXV7",      "Index" : 0,      "ModelNumber" : "SAMSUNG MZALQ256HAJD-000L1",      "ProductName" : "Non-Volatile memory controller: Samsung Electronics Co Ltd Device 0xa809",      "SerialNumber" : "00000000000000",      "UsedBytes" : 38470483968,      "MaximumLBA" : 500118192,      "PhysicalSize" : 256060514304,      "SectorSize" : 512    }  ]}

В качестве примера я вывел информацию в формате JSON. Как вы можете наблюдать, здесь выводится не просто список устройств, а еще и различная информация о них. Думаю, что часть атрибутов (например, DevicePath или ModelNumber) в комментариях не нуждаются, поэтому обращаю внимание только на некоторые:

  • Index номер контроллера;
  • UsedBytes используемый объем пространства в байтах;
  • PhysicalSize максимальный объем пространства в байтах;
  • SectorSize формат LBA, или логического блока, минимального адресуемого блока данных;
  • MaximumLBA максимальное количество логических блоков.

nvme id-ctrl, nvme id-ns


Ранее в статье, чтобы получить метаданные об устройстве, я отправлял контроллеру команду Identify. Для этого я использовал команду nvme id-ctrl для идентификации контроллера:

root@thinkpad-e14:~$ nvme id-ctrl /dev/nvme0

И nvme id-ns для идентификации пространства:
root@thinkpad-e14:~$ nvme id-ns /dev/nvme0n1

Обратите внимание, что необходимо указать устройство контроллер или пространство имен.

nvme create-ns, nvme delete-ns


Создание пространств имен проходит в несколько этапов. Сначала его нужно сформировать. Для этого используется команда nvme create-ns:

root@thinkpad-e14:~$ nvme create-ns /dev/nvme0 --nsze 1875385008 --ncap 1875385008 --flbas 0 --nmic 1 --dps 0create-ns: Success, created nsid:1

Аргументы, которые указываются этой команде, вам уже знакомы. Мы их рассмотрели в разделе Параметры NVMe-пространств.

Для удаления пространства используется команда nvme delete-ns:

root@thinkpad-e14:~$ nvme delete-ns /dev/nvme0n1          delete-ns: Success, deleted nsid:1

nvme attach-ns, nvme detach-ns


Второй этап создания NVMe-пространств привязка к контроллеру сформированного пространства. Для этого необходимо использовать команду nvme attach-ns:

root@thinkpad-e14:~$ nvme attach-ns /dev/nvme0 --namespace-id 1 --controllers 1attach-ns: Success, nsid:1

Данной командой мы привязываем пространство с идентификатором 1 к контроллеру /dev/nvme0. Также обратите внимание на аргумент --controllers. Здесь перечисляются идентификаторы NVMe-контроллеров, к которым можно привязать пространство. Этот аргумент опционален и используется при создании публичных пространств.

По какой-то причине нумерация контроллеров начинается с 1, то есть контроллер /dev/nvme0 имеет идентификатор 1, который и указывается в аргументе --controllers. Надеюсь, это поможет вам избежать потерю времени на изучении следующей ошибки:

root@thinkpad-e14:~$ nvme attach-ns /dev/nvme0 --namespace-id 1 --controllers 0                            NVMe Status:CONTROLLER_LIST_INVALID: The controller list provided is invalid(211c)

Чтобы отвязать пространство, используется команда nvme detach-ns:

root@thinkpad-e14:~$ nvme detach-ns /dev/nvme0n1 --namespace-id 1 --controllers 1detach-ns: Success, nsid:1

После этого пространство исчезает из списка блочных устройств и его становится невозможно использовать. В аргументе --controllers также необходимо указывать только те контроллеры, от которых вы хотите отвязать пространство.

nvme reset


После привязки пространства к контроллеру, как правило, его можно использовать для работы. Однако случается так, что контроллер не может увидеть пространства. В таком случае его необходимо перезапустить использовать команду nvme reset.

nvme format


В случае если необходимо изменить формат LBA у пространства, на помощь приходит команда nvme format:

root@thinkpad-e14:~$ nvme format /dev/nvme0n1 --lbaf 0Success formatting namespace:1

Аргумент --lbaf указывает на формат LBA.

Однако эту команду также можно использовать и для безопасной затирки данных на NVMe-накопителе:

root@thinkpad-e14:~$ nvme format /dev/nvme0n1 --ses 1 -rSuccess formatting namespace:1

Аргумент --ses указывает на уровень затирки:

  • 1 удалить все данные;
  • 2 удалить зашифрованные данные.

Аргумент -r указывает на то, что контроллер будет перезапущен после безопасной затирки.

Применение


Возможных вариантов использования пространств много. В основном они используются для увеличения производительности, резервирования и применяются в СХД, однако есть и более приземленные варианты использования.

Spare Area


Начнем с довольно обычной практикой использования. Spare Area, или Резервная область, была придумана еще до NVMe. Это специальное пространство на твердотельном накопителе, которое используется самим контроллером для внутренних операций и недоступно хосту.

Изменяя размер пространств, мы можем изменить и размер резервной области. Дело в том, что весь объем диска равен сумме объемов всех пространств и объема резервной области:


Соответственно, если мы уменьшим общий объем пространств, то оставшийся объем уйдет в пользу резервной области.

Если вы хотите узнать больше про резервную область, можете обратиться к этой статье.

Шифрование и изоляция



NVMe-диски поддерживают самошифрование по спецификации OPAL. Более того, для каждого пространства имен используются различные ключи шифрования.

Также контроллер предоставляет возможность защиты от записи. Существует три уровня:

  • только для чтения до следующей перезагрузки;
  • только для чтения до следующей перезагрузки после отключения функции защиты от записи;
  • только для чтения на протяжении всей работы.


Это часто применяется в стационарных и мобильных ПК. В пространство, доступное только для чтения, можно поместить, например, загрузчик, чтобы избежать его повреждения. Таким же образом можно защитить другие важные данные.

Multiple Using


Как упоминалось ранее, пространства являются разделами на уровне контроллера, которые видны конечному хосту как отдельное устройство. А можно ли разделить NVMe-накопитель большого объема не несколько приватных пространств, каждое из которых затем выделить разным хостам? Можно! А с использованием сетевого протокола NVMe-oF (NVMe Over Fabrics) выделить эти пространства можно не только виртуальным хостам, но и физическим.

При таком использовании накопителя схема разделения будет выглядеть следующим образом:


NVMe-контроллер позаботится о том, чтобы пространства были изолированы друга от друга: данные будут храниться в отделенных друг от друга областях накопителя, у каждого хоста будет собственная очередь для ввода-вывода. Тем не менее, spare area, или резервные области, по-прежнему будут общими.

Namespace Multi-path и Namespace Sharing


Namespace Sharing, или Public Namespaces, подразумевает под собой возможность совместного доступа одного или нескольких хостов к пространству через два и более контроллеров.


Для чего это необходимо? На рисунке показана схема использования публичных пространств. Да, интересно: мы можем обратиться к пространству NS B через контроллер NVMe Controller 1 и NVMe Controller 2. Но я не вижу в этом какой-то полезности пока схема не будет выглядеть следующим образом:


Здесь мы видим, что контроллеры находятся на совершенно разных хостах и у нас есть несколько независимых путей к данным: через хост-контроллеры Host A (синие контроллеры) и Host B (фиолетовые контроллеры). Теперь это можно использовать для резервирования или для наращивания производительности: если синий путь будет сильно нагружен, то мы пойдем по фиолетовому.

Такой подход позволяет организовать высокопроизводительные и высоконадежные гибкие программно-определяемые СХД из обычных серверных платформ с использованием NVMe-oF.

Итог


NVMe Namespaces это не только ценный мех не просто логическое разделение диска. Это очень интересная и важная технология, которая позволяет строить удобные инфраструктурные решения по хранению данных. Возможности для резервирования, шифрования, увеличения срока службы диска позволяют поддерживать стабильную работу высоконагруженных сервисов.

В данной статье мы рассмотрели далеко не все аспекты и тонкости использования пространств имен. Получился, скорее, обзор или знакомство. Однако я надеюсь, что это поможет вам при желании начать более глубокое изучение технологии.

Послесловие


При написании статьи я столкнулся с попаболью рядом проблем, мешавших мне завершить работу. Будьте внимательны при выборе дисков для тестирования различных возможностей NVMe. Мне далеко не с первого раза удалось разобраться в проблемах и подобрать себе диск, который бы минимально удовлетворял моим требованиям. Да и производители дисков неохотно делятся такой информацией, а некоторые даже вводят в заблуждение, поэтому пришлось действовать наобум. В частности, я столкнулся с такими проблемами:

  • Диски Samsung 970 EVO/970 EVO Plus с прошивками 2b2qexe7/2b2qexm7 не реализуют команды reset и format;
  • Диски Samsung 970 EVO/970 EVO Plus с прошивками 2b2qexe7/2b2qexm7 не реализуют управление пространствами при помощи команд create-ns, дelete-ns, detach-ns, atach-ns;
  • Диски Samsung PM991 с прошивкой 9L1QFXV7 имеют баг, из-за которого перезагрузка контроллера при помощи команды reset приводит к ошибке;
  • Диски Samsung PM991 с прошивкой 9L1QFXV7 имеют баг, из-за которого форматирование пространства при помощи команды format приводит к ошибке;
  • Диски Samsung PM991 с прошивкой 9L1QFXV7 не реализуют управление пространствами при помощи команд create-ns, delete-ns, detach-ns, atach-ns.

Я уверен, что диски из корпоративного сегмента лишены этих проблем, однако не всем по силам приобрести такие железки, поэтому подробно изучайте диски и мануалы по ним при покупке. А если есть возможность изучить диски до покупки и посмотреть параметры NVMe-контроллера, обязательно воспользуйтесь ею.

Полезные источники


  1. SSD: устройство, компоненты и принципы работы
  2. A Quick Tour of NVM Express
  3. NVMe 1.4 Specification
  4. NVMe Namespaces
  5. Base NVM Express Part One
  6. NVMe Command Line Interface (NVMe-CLI)
  7. NVMe Over Fabrics
  8. Также по теме

Подробнее..

Не только размер имеет значениеили что нам принес новый протокол NVMe

17.07.2020 10:14:14 | Автор: admin
Известная история. Как только появляются более мощные компьютеры, как только возрастает производительность процессоров и емкость носителей данных, и пользователь с облегчением вздыхает теперь мне всего и на всё хватит, не придется ужиматься и экономить, так почти сразу появляются новые потребности, отбирающие всё больше ресурсов, новое ПО, которое тоже ни в чем себе не отказывает. Вечная проблема. Нескончаемый круговорот. И бесконечный поиск новых решений. Облачные хранилища, нейронные сети, искусственный интеллект даже трудно себе представить, каких гигантских мощностей требую эти технологии. Но не будем расстраиваться, ведь для любой задачи рано или поздно находится решение.



Одним из таких решений стал протокол NVM-express, который, как говорят специалисты, совершил революцию в использовании твердотельной энергонезависимой памяти. Что же такое NVMe и какие преимущества он принес с собой?


Скорость работы компьютера во многом зависит от быстроты считывания данных с носителей и скорости обработки команд. Какой бы высокопроизводительной не была операционная система в целом, всё может свести на нет обычный жесткий диск, который заставляет программы подтормаживать при открытии или задумываться при выполнении объемных задач. Не говоря уже о том, что HDD практически исчерпал свой потенциал по наращиванию объемов хранения информации и потому стал бесперспективным. А механический привод и подавно устарел и замедлял развитие компьютерных технологий.

И вот на смену HDD пришли SSD твердотельные накопители, энергонезависимые немеханические запоминающие устройства. Первые накопители SSD появились на рынке во второй половине 2000-х. Довольно скоро они уже стали соперничать с жесткими дисками по объему. Но вот полностью раскрыть свой потенциал и преимущества в скорости, параллельности обращений к ячейкам долгое время не могли, потому что существующие интерфейсы и протоколы были построены по старым стандартам, призванным поддерживать накопители HDD через интерфейсы SATA и еще более древними SCSI (SAS).

Следующим шагом в раскрытии потенциала энергонезависимой памяти стал переход на шины PCI-express. Но для них к тому времени еще не были разработаны новые промышленные стандарты. И вот в 2012 году выпускаются первые компьютеры, в которых реализован протокол NVM-express.

Сразу следует обратить внимание на то, что NVMe это не устройство и не интерфейс его подключения. Это протокол, а точнее спецификация протокола обмена данными.

Поэтому словосочетание накопитель NVMe не совсем корректное, а сравнение типа HDD SSD NVMe абсолютно ошибочное и вводит в заблуждение пользователя, который только знакомится с темой. Правильно сравнивать HDD с SSD с одной стороны, SSD, подключенный через интерфейс SATA (по протоколу AHCI) и SSD, подключенный через шину PCI-express с использованием протокола NVM-express, с другой. Сравнивать HDD с SSD, вероятно, уже мало кому интересно. Все понимают разницу, и всем хорошо известны преимущества последнего. Разве что отметить некоторые (весьма разительные) преимущества. По сравнению с жёсткими дисками твердотельные накопители имеют меньший размер и вес, являются беззвучными, а полное отсутствие механических приводов делает их многократно более устойчивыми к повреждениям (например, при падении) да и просто увеличивает срок службы.

Сравнение возможностей SSD со старой шиной и старым протоколом и SSD на шине PCIe с протоколом NVMe, безусловно, представляет гораздо больший интерес и будет полезно всем, кто привык держаться в курсе новинок, тем, кто собирается купить новый компьютер и даже тем, кто, например, ищет лучший хостинг.

Интерфейс SATA, как уже говорилось, создавался для жестких дисков, головка которых одновременно физически может получить доступ только к одной ячейке. Ничего удивительного, что в SATA-устройствах всего один канал. Для SSD этого плачевно мало, ведь одно из их преимуществ поддержка параллельных потоков. Контроллер SSD также управляет начальным позиционированием, что является еще одним существенным преимуществом. Шина PCI-express обеспечивает многоканальную работу, а протокол NVMe реализовывает это преимущество. В результате данные, хранящиеся на твердотельных накопителях, передаются через 65 536 параллельных очередей управления, каждая из которых может содержать одновременно более 65 536 команд. Сравните: SATA и SCSI могут использовать только одну очередь, поддерживающую до 32 и до 254 команд соответственно.

Кроме того, старые интерфейсы для выполнения каждой команды требуют двух обращений к оперативной памяти, а NVMe умудряется это делать за один раз.

Третьим существенным преимуществом является работа с прерываниями. Протокол NVMe разрабатывался для современных платформ, использующих многоядерные процессоры. Поэтому в него заложены параллельность обработки потоков, а также оптимизированный механизм работы с очередями и обработкой прерываний, что позволяет обеспечить более высокий уровень производительности. Иными словами, при появлении команды, имеющей более высокий приоритет, ее выполнение начинается быстрее.

Многочисленные тесты, проведенные различными организациями и экспертами доказывают, что скорость работы SSD NVMe в среднем в 5 раз выше, чем при подключении SSD по старым интерфейсам.

Теперь о том, всем ли доступны SSD, реализованные на PCIe с протоколом NVMe. И речь идет не только о стоимости. По цене такая реализация пока еще заметно выше, хотя цены на компьютерные компоненты, как известно, высоки лишь в самом начале продаж и имеют тенденцию к довольно быстрому снижению.

Речь идет о конструктивных решениях, о том, что на профессиональном языке принято называть форм-фактором. Иначе говоря, в каком видеданные комплектующие выпускаются производителями. В настоящий момент на рынке существует три форм-фактора.



Первый так и называется NVMe SSD. Он представляет собой плату расширения и подключается в те же слоты, что и видеокарта. Для ноутбука такая непригодна. Впрочем, как и для многих стационарных компьютеров, так как все большее их собирается на компактных материнских платах, где слотов PCIe бывает чаще два или даже один (который обычно занят видеокартой).



Второй форм-фактор U2. Внешне он напоминает обычный жесткий диск, но гораздо меньше в размерах. U2 обычно используют на серверах, поэтому обычному пользователю вряд ли стоит его приобретать.



Третий M2. Это наиболее развивающийся форм-фактор. Его активно используют в ноутбуках, а с недавнего времени он уже реализован и на некоторых материнских платах для стационарных ПК. Однако, приобретая себе M2 стоит быть очень внимательным, потому что в таком форм-факторе до сих пор выпускаются и SATA SSD.

Впрочем, внимательность нужна и при оценке целесообразности приобретения для себя любого из названных форм-факторов. Для начала следует оценить,есть ли в вашем ноутбуке или на материнской плате ПК нужные слоты. И даже если они есть, достаточно ли мощный процессор у вашего компьютера, потому что слабый процессор все равно не даст вам ощутить преимущества SSD. Если всё это у вас есть и к тому же вы часто оперируете большими массивами данных, безусловно, NVMe SSD это то, что вам нужно.



На правах рекламы


VDS с NVMe SSD это именно про виртуальные серверы от нашей компании.
Уже давно используем исключительно быстрые серверные накопители от Intel, мы не экономим на железе, только брендовое оборудование и одни из лучших дата-центров в России и ЕС. Поспешите проверить ;)

Подробнее..

Что мы привезли на CES 2021 от накопителей до кардридеров

22.01.2021 14:05:41 | Автор: admin
Привет, Хабр! В этом году выставка потребительской электроники CES 2021 прошла в уже привычном для многих онлайн-формате. И хотя многие бренды, которые выставлялись на выставке в прошлом году, не стали анонсировать свои новинки в начале текущего, Kingston продолжает блюсти традиции. Переход в онлайн позволил компании без посредников поведать о своих планах гораздо большему количеству людей, нежели в режиме традиционной выставки.



Итак, в рамках CES 2021 мы дискутировали не только о новых трендах, которых компания будет придерживаться на протяжении всего года, но и показали новые устройства для специалистов, а также решения корпоративного класса. Далее по тексту расскажем какие.

Kingston Ghost Tree PCIe NVMe Gen 4.0


Большинство потребительских NVMe-накопителей, вышедших в 2020 году и соответствующих спецификациям PCIe 4.0 выпущены на базе контроллеров Phison PS5016-E16. К сожалению, они не способны полностью реализовать потенциал нового интерфейса и полностью задействовать его пропускную способность.

Kingston же не спешил с анонсами своих решений, поэтому Ghost Tree PCIe NVMe Gen 4.0 получился оптимизированным и сбалансированным. В то время как конкуренты предлагают схожие накопители с пропускной способностью на уровне 4-5 Гбайт/с, мы говорим о скорости чтения/записи на уровне 7 Гбайт/с.

Накопители серии Ghost Tree также построены на 8-канальном контроллере. Пока не скажем, на каком именно, но можем с уверенностью утверждать, что SSD-решения с емкостью от 1 до 4 Тбайт смогут на полную задействовать производительность интерфейса PCIe 4.0. Убедитесь в этом сами, когда мы опубликуем первые тесты на страницах нашего блога.

Kingston NV Series Gen. 3.0x4


Наравне с накопителями топового класса, в рамках CES 2021 мы анонсировали линейку PCIe 3.0-устройств, которые ориентированы на начинающих пользователей. Максимальная емкость таких накопителей будет ограничена двумя терабайтами, что помогает снизить розничную стоимость и сделать данные SSD доступными для большинства потребителей.

Kingston SSD DC1500M U.2 NVMe


Накопитель Kingston SSD DC1500M U.2 NVMe относится к решениям корпоративного класса и приходит на смену SSD Kingston DC1000M U.2 NVMe. Эта новинка обеспечивает высокую пропускную способность и низкую латентность, и предназначена для размещения в серверах последнего поколения.

DC1500M нацелен на решение широкого спектра задач и нагрузок, которые подразумевают интенсивное использование данных большим количеством пользователей единовременно. Подходит накопитель и для ЦОД, занимающихся облачными вычислениями, а также хостинг-провайдеров и виртуальных инфраструктур, которые обслуживают и оптимизируют бизнес-процессы компаний.

Накопители NVMe SSD с поддержкой PCIe 4.0


В прошлом году локомотивом выставочных анонсов стал SSD-накопитель Kingston DC1000B M.2 NVMe, но он предлагал поддержку PCIe 3.0, что вполне логично. С появлением системных плат, предлагающих PCIe поколения 4.0 вырос и спрос на соответствующие накопители, поэтому форвардами 2021 года в линейке наших NVMe-устройств станут твердотельные решения с поддержкой нового интерфейса. В этом году мы планируем выпускать как клиентские U.2-решения, так и профессиональные устройства для серверных кластеров. Давайте коротко пройдемся по каждой из моделей накопителей, которые уже скоро появятся на рынке.

Внешний SSD Kingston XS2000 с поддержкой USB 3.2



Помимо NVMe-решений корпоративного и потребительского уровня, мы анонсировали внешний SSD-накопитель USB 3.2 Gen 2x2, который будет предлагаться с емкостями от 500 Гбайт до 2000 Гбайт. Kingston XS2000 позиционируется как производительное хранилище для фотографий, видеороликов и других файлов, а его главными особенностями являются высокая скорость записи (до 2500 Мбайт/с) и быстрый доступ к требуемым данным. Для подключения к ПК и ноутбукам используется порт USB-C, являющийся основным при использовании USB 3.2 Gen 2.

Kingston Workflow: кардридеры и док-станции для них


И последняя интересная штука с CES 2021 внешние кардридеры (Workflow SD Reader и Workflow microSD Reader), которые можно использовать и как самостоятельные устройства, и вкупе с док-станцией Workflow Station. Кому и для чего такие гаджеты могут понадобиться? Если с карт-ридерами все понятно (как правило, они нужны фотографам и видеографам для доступа к данным, находящимся на картах памяти и переброски их на ПК), то о док-станции стоит поговорить отдельно.



По сути Kingston Workflow Station позволяет работать сразу с несколькими типами кардридеров, что актуально, если у пользователя есть необходимость работать с данными, записанными на картах памяти разного типоразмера. Приведем пример: допустим, что вы снимаете 4K-видео для YouTube на профессиональную камеру (с установленной внутри SD-картой) и параллельно ведете видеозапись на смартфон (с установленной внутри microSD-картой) для размещения получившегося видео в сервисах типа Instagram и TikTok. В этом случае наличие мини-хаба позволит вам одновременно подключить к компьютеру и ноутбуку две карты памяти разных типоразмеров, не используя переходники (microSD на SD).

Казалось бы, аргументов недостаточно, поэтому давайте представим, что видео, с которым вам предстоит поработать, обладает разрешением 4K/8K. Как следствие, конечные файлы обладают большим весом, поэтому для копирования их на ПК и для манипуляций непосредственно в рамках карты памяти, необходима высокая пропускная способность, которая реализована через подключение Type-C (USB 3.2 Gen 2). Как итог: в сочетании с высокопроизводительными картами памяти и USB-накопителями Kingston это позволит значительно ускорить рабочие процессы на стадии постпродакшна.

Итоги


На этом мы заканчиваем экскурс в анонсы новинок, представленных на CES 2021, и переходим к обсуждениям. Расскажите в комментариях, какие устройства вы считаете наиболее интересными и тесты каких накопителей вы хотели бы увидеть на страницах нашего блога?

____________________________________________________________________________________________________________

Для получения дополнительной информации о продуктах Kingston Technology обращайтесь на официальный сайт компании.
Подробнее..

NVMe против UFS 3.1 Битва типов памяти в смартфонах. Разбор

27.07.2020 16:04:10 | Автор: admin
iPhone быстрые? Да! Но почему?

Apple мало что рассказывает нам про внутренности своих девайсов. Как будто скрывает от нас страшную тайну!

Например, знали ли вы что в iPhone и в Android используется совершенно разный тип флеш-памяти? NVMe в iPhone и UFS в Android.



Может в этом секрет скорости девайсов Apple?Сегодня разберемся в том, как устроена флеш-память. Узнаем, чем отличаются стандарты памяти? И главное сравним, кто всё-таки быстрее Android или iPhone! Такой информации больше нигде не найдете. Так что, читайте и смотрите до конца!



Флеш-память


Начнём с того что на флешках, картах памяти, в смартфонах и SSD-дисках везде используют один тот же тип памяти флеш-память. Это современная технология, пришедшая на смену магнитным носителям информации, то есть жестким дискам.

У флеш-памяти куча преимуществ. Она энергоэффективная, дешевая, прочная и безумно компактная. На чипе размером с монетку помещается до терабайта данных!



[caption id=attachment_144997 align=aligncenter width=601] Размер чипа Toshiba на фото 16x20 мм[/caption]

Но как удаётся хранить такие огромные объемы информации при таких крошечных размерах?

Как работает флеш-память?


Давайте разберемся как устроена флеш-память.

Базовая единица современной флэш-памяти это CTF-ячейка. Расшифровывается как Charge Trap Flash memory cell, то есть Память с Ловушкой Заряда. И это не какая-то образная ловушка а самая настоящая.



Эта ячейка способна запирать электроны внутри себя и хранить их годами! Примерно как ловушка из фильма Охотники за привидениями. Так что даже если ваш SSD-диск ни к чему не подключен и просто так лежит в тумбочке, знайте он полон энергии.

Наличие или отсутствие заряда в ячейке компьютер интерпретирует как нули и единицы. В общем-то как и всё в мире технологий.



Таких ячеек много и они стоят друг над другом. Поэтому такая компоновка ячеек называется Vertical NAND или VNAND. Она крайне эффективна и очень интересно организована.


Многоэтажная память


Небольшая аналогия. Представьте, что память это огромный многоэтажный жилой комплекс, в котором каждая квартира это ячейка памяти.

Так вот, в одном доме этого ЖК всегда 6 подъездов, на каждом этаже одного подъезда размещается 32 квартиры, т.е. ячейки памяти. А этажей в таком доме может быть аж 136 штук, но только если это самый современный дом.Такой дом с шестью подъездами называется блоком памяти.



К чему я это всё?NAND память организована так, что она не может просто считать и записывать данные в какую-то конкретную ячейку, ну или квартиру. Она сразу считывает или перезаписывает весь подъезд!

А если нужно что-то удалить, то стирается сразу целый дом, то есть блок памяти. Даже если вы просто решили выкинуть ковер в одной квартире не важно. Весь дом под снос!

Поэтому прежде чем удалить что-либо приходится сначала скопировать всю информацию в соседний блок.

А если памяти на диске осталось мало, меньше 30% от общего объема, то скорость работы такого диска сильно замедляется. Просто потому, что приходится искать свободный блок- место для копирования.

Так что следите за тем, чтобы память на телефоне или SSD-диске были заполнены не более чем на 70%! Иначе всё будет тупить.

Кстати, по этой же причине стирание информации потребляет намного больше энергии, чем чтение и запись. Поэтому хотите сэкономить заряд, поменьше удаляйте файлы!

Напомню, что в жестких дисках, которые HDD, другая проблема. Там информация считывается по одной ячейке. Жесткий диск вращается, а считывающая головка ездит туда-сюда по всей поверхности диска. И, если файлы разбиты на фрагменты, хранящиеся в разных концах диска скорость падает. Поэтому, для HDD полезна дефрагментация.

Что такое спецификация?


Но вернёмся к флеш-памяти.Естественно сам по себе чип с памятью бесполезен потому как всей этой сложной структурой нужно как-то управлять. Поэтому существуют целые технологические стеки, которые всё разруливают. Их называют стандартами или спецификациями.

Еще разок!

Есть чип с флеш-памятью, как правило это NAND память. Там хранятся данные.

А есть спецификация это целый набор технологий вокруг чипа, программных и аппаратных, которые обеспечивают взаимодействия с памятью. Чем умнее спецификация, тем быстрее работает память.

Так какие же спецификации используются в наших смартфонах и какая из них самая умная? Давайте разберёмся.

eMMC


Выход первого iPhone в 2007 году спровоцировал постепенный отказ от карт памяти. Появилась потребность в новом стандарте недорогой флеш-памяти для мобильных устройств. Так появился eMMC, что значит встроенная Мультимедиа карта или Embedded Multimedia Card. То есть прям как eSIM (Embedded SIM).

Стандарт eMMС постепенно обновлялся и его скорости росли. И eMMC до сих пор используется в большинстве смартфонов, но данный стандарт явно не рекордсмен по скорости и сильно проигрывает тем же SSD дискам.






UFS


Тогда в 2014 году появился новый стандарт с нескромным названием Universal Flash Storage или UFS! Новый стандарт был всём лучше eMMC.



Во-первых, в UFS последовательный интерфейс. А это значит, что можно одновременно и записывать и считывать. eMMC мог делать только что-то одно. Поэтому UFS работает быстрее!



Во-вторых, он в два раза более энергоэффективный в простое.

Эффективнее работает с файлом подкачки когда ОЗУ забита.И еще, существуют UFS карты памяти, которые могут быть бесшовно интегрированы в внутреннем хранилищем! Это же полноценная модульная память!

Кстати, по этой причине, внутреннюю память телефона правильнее называть eUFS. Embedded, ну вы помните.



UFS вышел сразу же в версии 2.0 в 2015 году, а первым телефоном с этим стандартом стал Samsung Galaxy S6. Samsung так гордились скоростью памяти, что даже выкинули слот microSD изGalaxy S6.Казалось бы, судьба стандартов флеш-памяти предрешена вот он новый король. Новый USB мира флеш-памяти.

Но внезапно выходит iPhone 6s и мы видим это!





Что? Как такое возможно? Что за чудо память в этих iPhone? Похоже, Apple пошли какой-то своей дорожкой.Если стандарты eMMC и UFS наследники каких-то там детских карт памяти, то память в iPhone прямой наследник взрослых SSD-дисков. Потому как в iPhone используется спецификация памяти NVMe. Такая же память используется в компах и ноутбуках.

NVMe


Название NVMe довольно сложно расшифровывается -NVM Express (NVMe, NVMHCI от англ. Non-Volatile Memory Host Controller Interface Specification).

Но ключевое слово в названии Express! Почему?

Спецификация NVMe специально разрабатывалась для SSD-дисков с памятью NAND, подключенных по шине PCI Express.

NVMe создавался с нуля как новый способ эффективной работы с SSD-дисками. Из него убрали всё лишнее и сосредоточились на скорости.

Поэтому, благодаря короткому технологическому стеку, NVMe имеет большое преимущество при случайной записи и чтении блоков над остальными стандартами.



Что это значит?

Это свойство особенно полезно для работы операционной системы, которая постоянно считывает и генерит кучу маленьких файлов размером по 4 КБ. Случайное чтение и запись NVMe это то, что делает iPhone таким быстрым.

Но, естественно, Apple не могли просто запихнуть целый SSD в смартфон. Они модифицировали протокол NVMe и разработали свой кастомный PCI-E контроллер.

Поэтому, то что стоит в iPhone решение абсолютно уникальное и в своё время было революционным. А они об этом даже ничего не сказали! Как всегда делает Apple.

Такая же история с MacBook. Apple первыми оказались от HDD. И они всегда ставят самую быструю память в ноуты. Во многом поэтому, даже на более слабом железе Mac ощущаются быстрее Windows-ноутбуков.

Тесты


Но вернёмся к смартфонам. Мы выяснили, что Android используют UFS-память, а Айфоны NVMe. Но проблема в том, что сложно сказать какая память действительно быстрее.

Скажем так есть, крутое сравнение от компании Micron. На базе кастомного Android девайса они сравнили NVMe и UFS 2.1 и получили преимущество NVMe по всем показателям! Вот такие:
  • Последовательная запись > 28%
  • Последовательное чтение > 15% быстрее при последовательном чтении.
  • IOPS (случайная запись и чтение) > 30%






CPDT Бенчмарк


Но кому это интересно? Сейчас много где есть UFS 3.0, а в Redmi K30 Pro вообще UFS 3.1.

Только посмотрите UFS 3.1 быстрее UFS 2.0 по разным показателям вплоть до 8 раз. Вот с чем надо сравнивать!

UFS 2.0 vs UFS 3.1


  • Последовательное чтение 6X
  • Последовательная запись 8X
  • Случайное чтение 5.3X
  • Случайная запись 5X



Значит надо просто скачать одинаковый тест под iPhone и Android, и готово! Мы узнаем кто чемпион. Только знаете что? Нет такого теста! Поверьте мы искали. Есть спорные тесты с непонятной методологией (PerfonaceTest), но приличного ничего нет.

Кроме Вот этого чудесного теста: Cross Platform Disk Test.Работает на всех платформах, подробно описана методология тестирования.И даже есть результаты тестов некоторых iPhone:



Но вот незадача, версия приложения для iOS так и не была выпущена.

Но мы не отчаялись! Как выяснилось, разработчика зовут Максим, он из Минска. Поэтому мы с ним связались и Макс любезно предоставил нам девелопер версию приложения под iOS.

Поэтому сегодня мы наверняка узнаем где всё-таки быстрее память: На самых последних iPhone или на самых крутых Android-смартфонах:
  • iPhone 11 Pro NVMe
  • Oneplus 8 Pro UFS 3.0
  • Redmi K 30 Pro UFS 3.1
  • и Macbook Pro 16 NVMe



В итоге побеждает дружба, в последовательной записи вроде бы все очень неплохо у Apple, но по произвольной они подчистую сливают Android-смартфонам. В копировании буквальное равенство результатов. При этом заметьте, что Poco F2 Pro с UFS 3.1 показал себя в тестах никак и проиграл и Sony Xperia 1 II, и OnePlus 8 Pro. Возможно решает не только это! А вот в сравнении с взрослым NVMe в ноутбуках мобильный NVMe в 3-4 раза медленнее и это конечно не радует. С другой стороны это значит, что смартфонам есть куда расти!



Еще раз хотим поблагодарить Максима за помощь и инструкции! Помните, тест не из лёгких, поэтому если у вас будет вылетать не ругайтесь!
Подробнее..

Перевод Накопители имеют значение почему использование SSD в Xbox и Playstation знаменует приход новой эры в консольных играх

01.07.2020 10:24:00 | Автор: admin


Новое поколение игровых консолей выходит уже в этом году, а шумиха, связанная с Xbox Series X и Playstation 5, не утихает уже больше года. Реальные технические подробности, а не только лишь слухи, просачивались медленно, и на сегодня мы ещё знаем об этих консолях слишком мало по сравнению с тем, сколько мы обычно знаем о будущих платформах ПК после их анонса, ещё до того, как они поступят в продажу. У нас есть некоторые цифры от Microsoft и Sony, связанные с максимальным быстродействием, но не полный список спецификаций.

Новое поколение консолей станет мощнее как по CPU, так и по GPU, однако это справедливо для каждого нового поколения, и никого не удивляет, когда чипы консолей обновляют микроархитектуру точно так же, как CPU и GPU от AMD, от которых они и происходят. Более интересно изменение схемы хранения данных у новых консолей они не просто идут вслед за рынком ПК и переходят с механических жёстких дисков на твердотельные накопители, они перегоняют его, стремясь получить наибольшую выгоду от использования твердотельных накопителей.


Внутренности Xbox Series X

Твердотельные накопители произвели революцию на рынке ПК, обеспечив невероятные улучшения быстродействия систем. Игры в основном выиграли за счёт увеличения скорости установки и загрузки, однако быстрая работа накопителей помогает также уменьшать задержки и устранить подёргивание при подгрузке игрой данных на лету. В последние годы твердотельные накопители типа NVMe на бумаге выдавали скорости в несколько раз большие, чем в принципе возможны для твердотельных накопителей на интерфейсе SATA, однако для игроков преимущества первых были довольно размытыми. Здравый смысл говорит, что в этом разочаровании виноваты два фактора: во-первых, практически все игры и игровые движки до сих пор рассчитаны на игру с жёсткого диска, поскольку у существующих консолей и не самых передовых ПК нет твердотельных накопителей. Программисты игр не могут воспользоваться преимуществами NVMe в полной мере без того, чтобы не сделать свои игры совершенно неиграбильными при использовании ими жёсткого диска. Во-вторых, твердотельные накопители на SATA уже стали достаточно быстрыми для того, чтобы передать звание узкого места какой-то другой части системы, например, процессу распаковки данных. Нужно ускорить что-то ещё, кроме твердотельных накопителей, для того, чтобы игры начали получать все преимущества быстродействия NVMe.

Microsoft и Sony в своих новых консолях работают с обеими этими проблемами. Вскоре разработчики игр смогут спокойно предполагать, что у пользователей будут очень быстрые накопители, как на консолях, так и на ПК. Кроме того, новое поколение консолей добавит дополнительное оборудование, призванное устранить узкие места, которые у них остались бы, будь это просто ПК средней руки с очень быстрым твердотельным накопителем. Однако пока что в нашем распоряжении есть только мощная шумиха, рекламирующая будущие устройства. Обе компании замечены в преувеличении или чрезмерном упрощении ситуации, когда они пытаются приукрасить новые возможности своих будущих консолей особенно в части твердотельных накопителей. И поскольку эти консоли пока представляют собой закрытые платформы, не появившиеся на рынке, некоторые из наиболее интересных технических подробностей до сих пор держатся в секрете.



Основной источник официальной технической информации по поводу PS5 (и в особенности её твердотельного накопителя) это ведущий дизайнер Марк Церни [Mark Cerny]. В марте он делал часовой доклад о технической стороне PS5, и около трети времени посвятил накопителям. В числе менее официальных источников находятся заявки на патенты Sony, судя по всему, относящиеся к PS5 включая и тот, что хорошо сочетается с подтверждёнными деталями о технологии хранения данных на этой консоли. В патенте раскрывается множество идей, исследованных компанией во время разработки PS5, и многие из них наверняка попадут в итоговый продукт.

Microsoft решила давать утечки технических подробностей тоненькой струйкой, разбрасывая информацию по периодическим постам в блогах и интервью, особенно с сайтом DigitalFoundry (где также хорошо описали и PS5). Там компания раскрыла зарегистрированные названия множества технологий, связанных с накопителями (к примеру, Xbox Velocity Architecture), однако во многих случаях кроме самого названия технологии нам больше ничего о ней не известно.

Кроме официальных источников у нас есть утечки, комментарии и слухи разного качества, идущие от партнёров и других источников в индустрии. Они определённо помогают поддерживать шумиху, однако конкретно об использовании твердотельных накопителей в консолях эти слухи дают очень мало технических подробностей. У нас остаётся очень много пробелов, требующих анализа того, что, возможно, и что, вероятно, будет в новых консолях.

Что нам известно о твердотельных накопителях этих консолей?


Microsoft и Sony используют специальные твердотельные накопители типа NVMe, хотя специальные они по-разному. Решение Sony пытается в два раза обогнать по скорости решение от Microsoft, и определённо оно будет более дорогим, хотя и менее объёмным. В целом, быстродействие твердотельных накопителей от Sony должно быть сравнимо с самыми дорогими PCIe 4.0 NVMe SSD, которые должны появиться в розничной продаже в конце года, а SSD от Microsoft лучше будет сравнить с накопителями типа NVMe начального уровня. Однако оба варианта это большой шаг вперёд по сравнению с механическими жёсткими дисками и даже твердотельным накопителем с интерфейсом SATA.

Подтверждённые спецификации твердотельных накопителей
Microsoft Xbox Series X Sony Playstation 5
Объём 1 ТБ 825 ГБ
Скорость последовательного чтения 2.4 ГБ/с 5.5 ГБ/с
Интерфейс NVMe PCIe 4.0 x4 NVMe
Каналов NAND 12
Энергопотребление 3.8 Вт

Самый важный и впечатляющий показатель твердотельных накопителей для консолей это скорость последовательного чтения. Скорость записи на твердотельные накопители практически не влияет на быстродействие видеоигр, а когда игры считывают данные блоками, обычно их размер превышает 4 кб объём, на котором рассчитываются показатели скорости твердотельных накопителей. Скорость чтения 2,4 ГБ/с у Microsoft в 10-20 раз быстрее, чем у механического ЖД, однако серьёзно отстаёт от текущих стандартов высокоскоростных потребительских твердотельных накопителей, способных насытить интерфейс PCIe 3.0 x4 скоростями по меньшей мере в 3,5 ГБ/с. 5,5 ГБ/с у Sony чуть быстрее, чем у имеющихся сегодня PCIe 4.0 SSD на контроллере Phison E16, но каждый из конкурентов на рынке высокоскоростных потребительских твердотельных накопителей уже готовит собственное продвинутое решение. К тому времени, когда оно появится, быстродействие твердотельных накопителей в PS5 будет ничем не примечательным оно будет соответствовать другим передовым твердотельным накопителям, и превосходить только другие консоли и дешёвые ПК, в бюджет которых не вписывается скоростной накопитель.

Sony раскрыла тот факт, что их твердотельный накопитель использует специальный контроллер с 12-канальным интерфейсом к флэш-памяти NAND. Это, вероятно, наиболее важное отличие их системы от типичных потребительских твердотельных накопителей. Обычно скоростные потребительские твердотельные накопители используют 8-канальные контролеры, а самые простые накопители 4-канальные. Больше каналов обычно встречается у твердотельных накопителей для серверов, особенно для тех, что требуют большой пропускной способности. Чаще встречаются 16-канальные контроллеры, но бывают и 12, и 18-канальные. Использование компанией Sony большего, по сравнению с последними потребительскими накопителями, количества каналов, означает, что их контроллер будет необычно крупным и дорогим. Но с другой стороны, им не нужно будет, чтобы каждый канал был сверхбыстрым, для того, чтобы достичь цели в 5,5 ГБ/с. Они могут использовать любую 64-слойную TLC NAND и получить адекватную скорость работы, при том, что потребительские твердотельные накопители, пытающиеся достичь подобного быстродействия, нужно сочетать с более новой и быстрой NAND флэш-памятью.

12-канальный контроллер даёт ещё и необычно большой максимальный объём. Консольному твердотельному накопителю не нужно быть сильно больше по объёму, чем типичному потребительскому, поэтому на 50% больше каналов может означать на 50% больший объём. У PS5 будет 825 ГБ места, а значит, каждый из каналов будет оборудован 64 ГиБ NAND, организованной либо на одном кристалле в 512 Гбит (64 ГБ), либо на двух по 256 Гбит (32 ГБ) на канал. Это значит, что номинальный объём NAND составит 768 ГиБ, или 824,6 ГБ. Свободного места на нём, за исключением зарезервированной области, будет, скорее всего, столько же, сколько места есть на накопителях, о которых производители пишут 750 ГБ, поэтому 825 ГБ от Sony представляет собой преувеличение более, чем на 10% а от такого любой юрист придёт в возбуждение.

Стоит упомянуть, что нереально ожидать от Sony разработки собственного высокоскоростного контроллера NVMe точно так же, как разработки собственного процессора или GPU. Ей пришлось договориться с существующим производителем контроллеров и заказать себе специальный контроллер вероятно, сделанный уже на существовавших технологиях однако, кто именно этот их партнёр, мы не знаем.

Твердотельный накопитель от Microsoft не будет выходить за пределы того, что существует на современных ПК. Сегодня SATA SSD для OEM уже пройденный этап, однако целый терабайт для ПК по цене консолей будет достаточно интересным предложением для пользователей. Различные источники говорят о том, что в Microsoft решили использовать готовый контроллер от одного из обычных подозреваемых (вероятно, Phison E19T), а сам накопитель делает один из крупных производителей. Однако компания всё равно может заявить об использовании специального форм-фактора и, вероятно, специальной прошивки.

Ни одна из двух компаний не поделилась информацией о внутренностях их твердотельных накопителей, кроме 12-канального контроллера от Sony, но их объём и скорость дают представление о том, что можно от них ожидать. Sony решила использовать TLC NAND, а менее скоростная цель Microsoft больше соответствует QLC NAND. 2,4 ГБ/с это немного больше, чем мы видим у текущих 4-канальных накопителей QLC, таких, как Intel 665p (со скоростью порядка 2 ГБ/с), но гораздо меньше, чем у 8-канального QLC типа Sabrent Rocket Q (3.2 ГБ/с для модели объёмом 1 ТБ). Лучше всего под описание Microsoft подходит 4-канальный накопитель с TLC NAND, однако более новые 4-канальные контроллеры типа Phison E19T должны поддерживать такие скорости с правильным вариантом QLC NAND. Любая консоль может в ближайшем будущем заполучить версию с удвоенной скоростью, использующую QLC NAND, для того, чтобы достичь такого же быстродействия, как у оригинальных моделей.

Без DRAM, ну и что?


Без конкретных показателей по записи и случайному чтению мы не можем исключить вероятность использования в любой из консолей DRAMless-контроллера. Включение в таблицы flash translation layer (FTL) накопителя кэша на DRAM в основном увеличивает быстродействие двумя способами: предотвращение падения скорости записи, когда накопитель достаточно заполнен для того, чтобы ему приходилось в фоне жонглировать данными, и увеличение скорости случайного доступа при чтении данных со всего накопителя. Два этих случаях к консолям не особенно подходят: они ориентированы на чтение и доступ только к одному набору данных игры в один момент времени. Даже если установочный размер игр дойдёт до 100-200 ГБ, объём используемых в один момент времени игрой данных не будет превышать пары десятков ГБ, а с этим легко справится DRAMless-накопитель при достаточном объёме SRAM на самом контроллере. В случае с Microsoft выбор DRAMless весьма вероятен, и если в любом другом контексте увидеть 12-канальный DRAMless-контроллер было бы странно, то для Sony такой вариант кажется подходящим (и позволяет сэкономить деньги, потраченные на многоканальность).

Упомянутый ранее патент от Sony подробно описывает, как именно можно подготовить DRAMless-контроллер для использования в консолях. Вместо того, чтобы кэшировать часть FTL таблицы соответствия физических и логических адресов на SRAM контроллера, Sony предлагает делать эту таблицу достаточно маленькой для того, чтобы она умещалась в буфер SRAM. У типичных твердотельных накопителей на каждый ТБ флэш-памяти есть 1 ГБ DRAM. Это прямое следствие того, как FTL работает с флэш-памятью блоками памяти по 4 кБ. Если работать с памятью более крупными блоками, это уменьшит требования к объёму памяти для хранения таблицы. Минус в том, что запись небольших кусочков информации будет идти медленнее. Western Digital продаёт специальный промышленный твердотельный накопитель, использующий для FTL не 4 кБ, а 32 кБ, и в результате ему нужно в восемь раз меньше DRAM. Скорость случайной записи этого твердотельного накопителя ужасная, однако скорость чтения конкурентноспособная. Патент от Sony предлагает выйти далеко за пределы 32 кБ и использовать блоки по 128 МБ для FTL, что уменьшит размер таблицы до нескольких килобайт. Для этого системе нужно очень тщательно подходить к вопросу о том, что и когда записывать на накопитель, однако скорость чтения, на которую полагаются игры, от этого не пострадает.

Короче говоря, если твердотельный накопитель от Sony будет очень быстро работать в предполагаемых режимах, то я готов спорить, что на ставить его на свой ПК с Windows вы не захотите. То же, возможно, будет справедливым и для твердотельных накопителей от Microsoft в зависимости от того, какую они сделают прошивку.

Расширяемость


И Microsoft, и Sony предлагают возможности по расширению хранилища NVMe в будущих консолях. Microsoft для этого собирается сделать специальный съёмный форм-фактор для твердотельных накопителей, напоминающий те времена, когда картриджи для консолей изменялись мегабайтами вместо терабайтов, а флэшки с USB не были распространены. Поскольку все компоненты те же, карта расширения функционально будет идентичной внутреннему накопителю. Минус в том, что Microsoft будет контролировать производство и продажу таких карт, что повлияет на их стоимость. Пока что только Seagate является подтверждённым партнёром по продаже этих проприетарных карт расширения.

Sony поступает наоборот, и даёт пользователю доступ к стандартному разъёму M.2 PCIe 4.0. Требования не совсем понятны: Sony будет проводить испытания на совместимость с накопителями сторонних производителей, чтобы опубликовать список совместимости, однако не говорят, будет ли их консоль отвергать накопители, не входящие в итоговый список. Накопителю, чтобы попасть в список, нужно чисто механически помещаться в разъём, а также предлагать быстродействие не хуже внутреннего накопителя от Sony. Это означает, что пока ни один из имеющихся в продаже накопителей не подходит для этой цели, однако в следующем году ситуация сильно поменяется.
Подробнее..

Перевод Пионеры отрасли энергонезависимой памяти

23.09.2020 14:17:26 | Автор: admin

Чип флэш-памяти NAND Intel/Micron

Устройства энергонезависимой памяти (Non-Volatile Memory, NVM) это электронные элементы хранения данных, предназначенные для чтения и записи, продолжающие хранить информацию после прекращения подачи питания на устройство. В их число входят устройства на основе магнитных дисков и отдельные типы полупроводниковых чипов. Полупроводниковые энергонезависимые устройства играют важную роль во всех аспектах цифровой вселенной от ячеек хранения информации огромных банков данных в облаке до портативных персональных устройств, и составляют один из крупнейших сегментов полупроводниковой промышленности, оцениваемой в 400 миллиардов долларов.

Как и любое важное полупроводниковое изделие, от транзистора до микропроцессора, NVM-устройства проделали большой путь от работ первых исследователей, взявших за основу труды своих предшественников и развив их благодаря вдохновению, удаче, пробам и ошибкам, а также решимости игнорировать сомнения скептиков. В этой статье мы в хронологической последовательности расскажем о некоторых из таких первопроходцев и их вкладе, от первых зачатков идеи, возникших в 1960 году в Fairchild до крупномасштабного производства флэш-чипов последнего десятилетия 20-го века.

По поручению Semiconductor Special Interest Group (SIG) Джефф Катц записал интервью с людьми, совершившими большой вклад в развитие коммерческих полупроводниковых NVM-устройств, для коллекции устной истории Музея компьютерной истории. Многие процитированные ниже личные комментарии взяты из расшифровок интервью, к которым можно перейти по ссылкам в тексте.

Что было до полупроводниковой энергонезависимой памяти


До появления полупроводниковых устройств наиболее успешной технологией энергонезависимого компьютерного хранения информации была память на магнитных сердечниках, в которой использовался эффект магнитного гистерезиса. В своей диссертации 1952 года на докторскую степень MIT Дадли Бак описал ферроэлектрические кристаллы, использовавшие для хранения и перемагничивания цифровой информации похожий механизм гистерезиса. Рейд Андерсон и Уолтер Мерц, работавшие в Bell Telephone Laboratories, продемонстировали в 1955 году ферромагнитное устройство хранения, ставшее предшественником архитектуры полупроводниковых NVM-устройств. Применив технологии осаждения и травления, они изготовили 256-битный массив кристаллов, соединённых металлическими дорожками; позже такие технологии начали применяться для производства полупроводниковых интегральных схем.


Фотография из Scientific American magazine, июнь 1955 года.

Основатели располагавшейся в Колорадо-Спрингс компании Ramtron Ларри Макмиллан и Джордж Рор стали пионерами в коммерческом производстве устройств FRAM (Ferroelectric Random Access Memory), впервые появившихся в 1952 году.

Эволюция технологий ячеек NVM-накопителей первые четыре десятилетия


В 1960-х начались исследования двух основных технологий проектирования полупроводниковых NVM-ячеек. В ячейке с плавающим затвором заряд хранится на электроде, не подключённом к внешней цепи. Захват заряда, чаще всего называемый нитридным захватом, позволяет хранить заряд в слое нитрида кремния, подключённого к активной цепи. Обе технологии обещали значительные преимущества и снижение затрат на производство, простоту использования и сохранение данных для различных областей применения.

Коммерческие компоненты и системы с использованием обеих технологий начали появляться в 1970-х. Изделия на основе захвата заряда чаще всего называли EAROM (Electrically Erasable Read Only Memory), а первые устройства с плавающим затвором EPROM (Erasable Programmable ROM).

К 1980-м годам доминирующей на рынке технологией стала память с плавающим затвором. EPROM и их усовершенствованные версии, в том числе и первые флэш-продукты, стали составлять значительный процент от мировой прибыли полупроводниковой отрасли. В 1990-х технология Flash обеспечила создание новых возможностей для NVM-устройств, их начали использовать в твердотельных накопителях и потребительских цифровых устройствах.

1960-е первооткрыватели элемента памяти



Са Чжитан, примерно 1989 год

Са Чжитан из исследовательской лаборатории Fairchild в Пало-Альто сообщил в 1961 году о том, что заряд можно хранить в течение долгого времени (несколько дней) на электроде затвора поверхностно-управляемого тетродного МОП-транзистора. Он отметил, что в разговоре с основателем Fairchild Виктором Гриничем и инженером Фрэнком Уонлэссом они сразу же поняли потенциал этого открытия в устройстве памяти с плавающим затвором. Они не стали разрабатывать идею продукта, поскольку в то время компания была занята устранением фундаментальных проблем стабильности в процессе производства МОП-транзисторов.

Самые первые задокументированные описания ячеек памяти с захватом заряда были созданы в лабораториях на обоих побережьях США в середине 1960-х. Эдгар Сэк, Чу Тинь и другие сотрудники Центральной исследовательской лаборатории Westinghouse использовали в 1966 году MNOS-структуру (Metal-Nitride-Oxide-Silicon) в качестве элемента захвата заряда. Чу и Джон Сцедон рассказали о MNOS-элементе Westinghouse на Solid State Device Research Conference 1967 года в Санта-Барбаре. Эту технологию перенесли в отдел полупроводниковых изделий компании в Янгвуде для разработки электронных артиллерийских запалов на замену механическим запалам.


Чистая зона отдела полупроводниковых изделий Westinghouse в Янгвуде, примерно 1959 год. Фото Э. Сэка

В том же 1967 году шесть учёных под руководством Ричарда Вегенера из Sperry Rand Research Center (Садбери, Массачусетс) описали электрически программируемое неразрушаемое MNOS-устройство хранения с захватом заряда. В предоставленном агентству НАСА отчёте 1968 года Исследование новых концепций адаптивных устройств Вегенер заявил, что MNOS это первое полупроводниковое устройство, обеспечивающее возможность электрически программируемого энергонезависимого хранения информации.

Дов Фроман-Бенчковски присоединился в 1965 году к исследовательской лаборатории Fairchild в Пало-Альто. В тандеме он писал докторскую по теме Перенос и захват заряда в MNOS-структурах и их применение в устройствах памяти в Калифорнийском университете в Беркли, где знал об этой теме больше, чем большинство профессоров. [Интервью с Довом Фроманом]. На основании своих работ он начал процесс подачи заявки на патент, который был зарегистрирован после его ухода из компании. В заявку на патент вошла структура маски для создания 9-битной MNOS-памяти с пословной организацией, которую он изготовил для демонстрации возможности крупномасштабных массивов интегральных устройств хранения.


Давон Канг и Саймон Зи

Изучая в 1967 году четырёхслойный чизкейк на обеденном перерыве в Bell Telephone Laboratories (BTL), Мюррей Хилл, Давон Канг и Саймон Зи пришли к идее добавления четвёртого плавающего слоя для хранения заряда в МОП-транзисторе. Для доказательства жизнеспособности концепции они изготовили в лаборатории пару десятков устройств. Устройства держались максимум час, после чего электроны начинали утекать [Интервью с Саймоном Зи]. Мой начальник сказал, что это совершенно бесполезно Кому может оказаться полезным такое устройство?, рассказывает Зи. Им разрешили опубликовать результаты работы в статье Плавающий затвор и его применение в устройствах памяти, опубликованной в июле 1967 года в Bell System Technical Journal, но BTL не стала развивать эту идею. Её просто положили на полку.


256-битное RMM на аморфных полупроводниках ECD/Intel, 1970 год

Автор многочисленных изобретений и предприниматель Стэнфорд Овшинский произвёл фурор в научном сообществе, заявив в 1968 году в New York Times о создании переключателя с памятью на основе элементов Овшинского. Это устройство, разработанное в его лаборатории Energy Conversion Devices (ECD) (Троя, штат Мичиган), использовало некристаллические халькогенидные материалы для создания переключателя, который включался или выключался, когда подаваемое напряжение достигало определённой величины. Овшинский заявил, что сможет производить более мелкие, быстрые, простые, надёжные и дешёвые электронные схемы, чем это возможно на основе транзисторов. Студент магистратуры Чарльз Си, работавший над переключателем в ECD, сообщил, что основное преимущество технологии заключается в том, что информацию можно хранить вечно (без ограничений по времени удержания данных). [Интервью с Чарльзом Си]

Незадолго до этого основавшие Intel Роберт Нойс и Гордон Мур объединились с Овшинским для изучения технологии создания энергонезависимой памяти, чтобы дополнить ею собственные будущие ОЗУ на основе биполярных и МОП-транзисторов. В статье 1970 года, написанной Гордоном Муром, Роном Нилом и Д. Нельсоном из ECD, описывается 256-битная Read Mostly Memory (RMM), состоящая из плёнки аморфного полупроводникового материала, размещённого между двумя молибденовыми электродами. Intel ограничилась этой демонстрацией концепции и не стала разрабатывать на её основе продукцию, однако она возродилась как основа для памяти на фазовых переходах 3D XPoint, о производстве которой Intel и Micron заявили в 2015 году; готовую продукцию Intel продавала под брендом Optane.

1970-е появление промышленных NVM-изделий



Мультичиповый модуль BORAM компании Westinghouse, примерно 1975 год.

В начале 1970-х энергонезависимые MNOS-устройства памяти оказались привлекательным выбором для проектировщиков аэрокосмической продукции и защитных систем. ВВС США заключили с Sperry Rand контракт на изготовление 1024-битного массива EAROM, а Westinghouse спроектировала для армии США и других заказчиков электрически перепрограммируемые гибридные модули Block-Oriented RAM (BORAM). Несколько чипов, расположенных на керамической подложке, обеспечивали малый вес и компактность авиационных и портативных систем.

Перейдя в 1969 году в Intel, Дов Фроман продолжил исследование технологий MNOS-хранения. Однако в процессе изучения проблем стабильности, вызываемых миграцией заряда в новом техпроцессе производства кремниевого затвора компании, он придумал альтернативную идею хранения заряда в проводнике с плавающим затвором. Это стало эволюцией того, что я называл устройством FAMOS (Floating-gate Avalanche-injection Metal Oxide Semiconductor) которая была основой EPROM. [Интервью с Довом Фроманом] До подачи заявки на патент архитектуры он не был знаком с работами Канга и Зи в Bell Labs.


Дов Фроман-Бенчковски, примерно 1971 год. Фото: Intel Corporation

Фроман прекратил дальнейшую работу над MNOS-накопителем, чтобы сосредоточить свои усилия на проектировании продукта с плавающим затвором, а в 1971 году Intel представила свою 2048-битную EPROM с маркировкой 1702. EPROM-устройства программировались электронным способом, но стирание и повторное использование было возможно только после физической обработки чипа УФ-излучением через кварцевое окошко в корпусе. Более дешёвые, однократно программируемые версии (One-Time-Programmable, OTP), не требовавшие дорогого окошка для стирания, оказались популярными в системах с использованием микропроцессоров (MPU). Несколько поколений более объёмных и быстрых EPROM составляли наиболее прибыльную линейку продуктов Intel до середины 1980-х.


Кварцевое окошко пропускает ультрафиолетовое излучение для стирания данных EPROM

Японские производители полупроводников быстро распознали коммерческую перспективность EPROM. Пионер разработки интегральных схем Ясуо Таруи из токийской Electrotechnical Laboratory с коллегами предложили в 1971 году устройство с плавающим затвором на проводившейся в Токио Solid State Device conference. За этим последовало множество исследовательских статей и успешных коммерческих продуктов японских компаний.


Руководство по EAROM компании GI, 1983 год

В 1969 году Эд Сэк перешёл из Westinghouse в General Instrument Corporation (Хиксвилл, штат Нью-Йорк). Он работал там вице-президентом и генеральным менеджером отдела микроэлектроники, начавшей коммерческое использование технологии MNOS в потребительской электронике. Его сравнение Westinghouse (Клуб джентльменов с примесью политики) и GI (Нижний Ист-Сайд Манхэттена с примесью уличных драк) демонстрирует значительные культурные различия военных и коммерческих полупроводниковых предприятий той эпохи. [Личный рассказ Эда Сэка]

В 1975 году GI представила Bit-Serial EAROM с маркировкой ER1400, которая была дополнена 16-битным микропроцессором CP1600 (совместная с Honeywell разработка); эти продукты были предназначены для цифрового, полностью твердотельного чипсета TV-тюнера, и продались миллионными тиражами. GI несколько десятилетий продолжала производить недорогие EAROM-устройства для потребительских товаров.

Среди прочих производителей, исследовавших технологии энергонезависимой MNOS-памяти, были McDonnell Douglas, Mitsubishi, NCR и RCA. Однако быстрый рост количества устройств и снижение цен, обеспеченные активной конкуренцией в области продукции с плавающим затвором, сделали EPROM предпочтительным для большинства сфер применения энергонезависимым решением.

Такие улучшения, как функция электрического стирания, ещё более упрочили позицию устройств с плавающим затвором. Эли Харари из Hughes Microelectronics (Ньюпорт-Бич, Калифорния) в 1976 году пришёл к идее о том, что можно уменьшить слой подзатворного оксида в устройстве Фромана-Бенчковски с 1000 до 100 ангстрёмов, что позволит обеспечить электрическое программирование и стирание, избавив таким образом от необходимости медленного внешнего стирания ультрафиолетовым излучением. [Интервью с Эли Харари] В 1980 году Hughes представила 8-килобитную КМОП-память Electrically-Erasable PROM (EEPROM) с маркировкой 3108, а также чип статической ОЗУ с энергонезависимой ячейкой, названный NOVRAM.


Джордж Перлегос

Джордж Перлегос сделал вклад в несколько важных NVM-разработок компании Intel, в том числе и в первую EEPROM: 16-килобитное устройство 2816, созданное в 1978 году. Вместе с Гордоном Кэмпбеллом и Филом Сэлисбери Перлегос основал в 1981 году SEEQ Technology. В этой компании Перлегос, стремясь избавиться от необходимости отдельного источника питания высокого напряжения, руководил разработкой 5213 единого EEPROM с 5-вольтным питанием, выпущенного в 1982 году. В его конструкцию был встроен генератор подкачки заряда, создающий напряжение, необходимое для обеспечения программирования. Чтобы создать подобную память, нам нужно было разработать настолько маленькие генераторы подкачки заряда, чтобы их можно было разместить в каждом столбце и в каждой строке. [Интервью с Джорджем Перлегосом] Чтобы стимулировать использование своих устройств в областях, требующих высокой надёжности, SEEQ рекламировала их как устройства, способные выдержать не менее миллиона циклов записи.

Бывший инженер-технолог National Semiconductor Рафаэль Клейн основал в 1978 году в Милпитас (штат Калифорния) компанию Xicor, чтобы заняться устройствами NOVRAM и EEPROM. На первых этапах Xicor разделила рост зародившегося рынка с SEEQ, однако не справившись с конкуренцией в области производства массовых дешёвых устройств, завершила свою работу в 2001 году.

1980-е появление архитектуры Flash


В 1980 году Фудзио Масуока из научно-исследовательского центра Toshiba в Кавасаки (Япония) нанял четырёх инженеров: М. Асано, Х. Ивахаси, Т. Комуро и С. Танака для работы над NVM-чипом для использования в массовых недорогих устройствах. В уже существовавших EPROM использовалось по два транзистора на ячейку памяти. Инженеры спроектировали более компактную однотранзисторную ячейку, соединяемую способом, напоминающим логический элемент NOR. Коллега Масуоки Сёдзи Ариизуми предложил название flash (вспышка), потому что стирание должно было происходить со скоростью вспышки фотокамеры. Масуока рассказал об ячейке NOR Flash на International Electron Devices Meeting (IEDM) 1984 года, проводившейся в Сан-Франциско. Хотя ему и удалось уменьшить размер ячейки, из-за проблем с производством необходимых для устройства МОП-структуры с тремя слоями поликремния Toshiba не стала реализовывать коммерческую версию изобретения.

По словам Харари, Сатьен Мухерджи и Томас Чань из стартапа Exel Microelectronics, Inc. (Сан-Хосе, Калифорния) спроектировали флэш-структуру, которую можно было производить промышленным способом; она стала основой того, что Intel позже назвала NOR flash.


Фудзио Масуока

Прибыв в Вашингтон, чтобы защищать компанию в патентной тяжбе с TI, Масуока придумал идею архитектуры NAND Flash, которая могла бы обеспечить ещё меньший размер ячейки и увеличенные скорости записи/стирания по сравнению с NOR Flash. По возвращении Масуока спросил у Хисео Тадзири, работавшего в Toshiba руководителем отдела разработки потребительской электроники, сможет ли цифровая камера с четырёхмегабитной флэш-памятью NAND заменить плёнку. [Интервью с Фудзио Масуока] Тадзири понял, что NAND и в самом деле сможет заменить плёнку, и это привело к тому, что финансировать проект начал отдел производства камер. Масуока рассказал об устройстве на IEDM 1987 года в Вашингтоне, а производство 16-мегабитных чипов NAND Flash началось в 1992 году.

Недовольный тем, что Toshiba, по его мнению, недостаточно вознаградила его работу, Масуока в 1994 году уволился, став профессором Университета Тохоку. Вопреки японской культуре лояльности компании, он подал иск против бывшего работодателя, требуя компенсации, а в 2006 году уладил спор, получив единовременную выплату в 87 миллионов йен (758 тысяч долларов).

Стефан Лаи устроился в отдел Intel в Санта-Кларе для разработки технологии масштабируемой EEPROM. Работая совместно с Диком Пэшли, он создал способ добавления функции электрического стирания в уже существовавшие малоразмерные ячейки EPROM для создания архитектуры NOR Flash, которую можно было бы изготавливать по стандартному производственному техпроцессу. Отдел NVM заявил, что технология не будет работать, поэтому Лаи и Пэшли встретились с Гордоном Муром, который сказал им: Я этим займусь, не суетитесь. [Интервью с отделом разработки Flash компании Intel] Начав разработку нового бизнес-устройства на основе Flash в Фолсоме (Калифорния), Пэшли и Лаи вместе с проектировщиком Найлсом Кайнеттом в 1986 году продемонстрировали работающие чипы, а в 1987 году выпустили 256-килобитный продукт NOR Flash.

К концу 1980-х мировой рынок полупроводниковых NVM-устройств всех технологих производства превысил два миллиарда долларов. Наиболее популярными продуктами той эпохи были EPROM на 64 Кбит, 128 Кбит, 256 Кбит и 1 Мбит, к тому же начали появляться первые устройства на 2 Мбита. Производители из США, лидерами среди которых были AMD, Intel, Motorola, SEEQ и TI, получали примерно 50% от мировой прибыли рынка. Оставшаяся прибыль разделилась между европейскими, в основном SGS-Thompson (10%), и японскими поставщиками Fujitsu, Hitachi, Mitsubishi, NEC, Oki, Toshiba (40%), однако их поставки были ограничены правительственными квотами на производство (MITI).

1990-е твердотельные накопители и новые потребительские области применения


В 1990-х технология Flash создала новые возможности для NVM-устройств в конфигурациях как с NAND, так и с NOR. Архитектура NOR Flash имела преимущества произвольного доступа и малого времени чтения, а её функция execute-in-place (XIP) идеально подходила для выполнения кода, а значит, и для сферы обработки данных. NAND Flash имела более низкие скорости чтения, но гораздо меньший размер ячейки, позволяя создавать недорогие устройства с повышенной плотностью, что идеально подходило для внешних накопителей. Кроме того, доступ чтения/записи к блокам NAND имитировал доступ к дисковым приводам.


Прототип SSD-модуля компании SanDisk (бывшей SunDisk), созданный для IBM (1991 год)

Эли Харари, в 1970-х ставший пионером техпроцессов с тонким слоем оксида в Hughes Aircraft, в 1988 году основал SunDisk (позже переименованную в SanDisk) для разработки устройств памяти большой ёмкости на основе флэш-памяти. Вскоре к нему присоединились сооснователи компании Джек Юань и Санджай Мехротра, а также архитектор систем Роберт Боб Норман. Первым крупным заказом компании стали 10 тысяч 20-мегабайтных 2,5-дюймовых ATA-устройств, совместимых с plug and play, которые в 1991 году должны были заменить 20-мегабайтный жёсткий диск Connor в ThinkPad PC компании IBM. В то время надёжность флэш-памяти была низкой, однако Харари вдохновляли отзывы заказчиков о прототипах устройств: Если несколько устройств проработают у меня все выходные без сбоев, значит, у вас получился хороший продукт. [Интервью с Эли Харари]

Для достижения уровней надёжности, необходимых для коммерческого применения, потребовалось несколько поколений усовершенствований техпроцессов производства и архитектуры систем флэш-памяти. Харари встроил в устройства метаданные, позволявшие его прошивке выполнять коррекцию ошибок, скрывая таким образом от пользователя проблемы с надёжностью критически важного для популярности технологии фактора. Массовые ноутбуки с SSD появились на рынке в конце 2000-х, а современные SSD являются самым быстрорастущим сегментом рынка компьютерных накопителей.


Основатели SanDisk: Юань, Мехротра и Харари

Новые возможности возникли у SanDisk после того, как компания представила в 1994 году карты CompactFlash для цифровых камер. Мы поняли, что вместо того, чтобы кто-то другой продавал плёнку или её продавали продавцы камер, нужно создать вторичный рынок флэш-карт. Превращение его в международный бренд стало поворотным фактором в истории компании, рассказывает Мехротра. [Интервью с Санджаем Мехротра] В 2016 году SanDisk приобрела компания Western Digital.

Современные флэш-технологии доминируют на рынке NVM-устройств, который в 2019 году превысил 50 миллиардов долларов, и составляют крупнейший сегмент мировой полупроводниковой промышленности. Крупнейшим поставщиком флэш-чипов стала Samsung, имея примерно 30% рынка. Другими крупными поставщиками являются Toshiba и Western Digital.

Награда за достижения Flash Memory Summit


Каждый год Flash Memory Summit награждает людей, проявивших лидерство в области продвижения разработки и использования флэш-памяти, а также связанных с ней технологий, вручая Премию за прижизненные достижения (Lifetime Achievement Award, LAA). Среди не упомянутых выше номинантов были Кинам Ким из Samsung, получивший премию за свой прогресс в развитии 3D NAND, а также Дов Моран и Арьех Мерги из M-Systems за инновации, в том числе за встраиваемую в мобильные телефоны флэш-память, файловые системы для Flash и флэш-накопитель USB.

Ссылки


1. C. T. Sah, A new semiconductor tetrode, the surface-potential controlled transistor, Proceedings of the IRE, vol. 49, no.11, (Nov. 1961) pp 1625.

2. C. T. Sah, Evolution of the MOS transistor from conception to VLSI, Proceedings of the IEEE, Vol. 76, 10 (October 1988) p. 1295.

3. Edgar A. Sack and David A. Laws, Westinghouse: Microcircuit Pioneer from Molecular Electronics to ICs, IEEE Annals of the History of Computing, Vol. 34 (Jan.-March 2012) pp. 7482.

4. Wegener, H.A.R., Lincoln, A.J., Pao, H.C., OConnell, M.R., Oleksiak, R.E. Lawrence, H. The variable threshold transistor, a new electrically-alterable, non-destructive read-only storage device, Electron Devices Meeting, 1967 International, Vol. 13 (1967) p. 70

5. H. A. R. Wegener, Investigation of New Concepts of Adaptive Devices, NASA-CR-86114, Report no. SRRC-CR-6843, Sept. 1968.

6. Dov Frohman-Bentchkowsky, Integrated MNOS memory organization US Patent 3641512A

7. Neale, R. G., D. L. Nelson, Gordon E. Moore, Nonvolatile and reprogrammable the read-mostly memory is here, Electronics (September 28, 1970) pp. 5660.

8. Tarui, Yasuo; Hayashi, Yutaka; Nagai, Kiyoko Proposal of electrically reprogrammable non-volatile semiconductor memory. Proceedings of the 3rd Conference on Solid State Devices, Tokyo. The Japan Society of Applied Physics (19710901): 155162.

9. MOS EPROM Forecast, Dataquest SIS Prod., Mkt., & Tech. Report 0004718 (August 1989) p. 2

Ссылки на транскрипты интервью


Интервью с Довом Фроманом, 0341, Science History Institute

Интервью с Довом Фроманом, каталог 102702214, Computer History Museum Collection

Интервью с Эли Харари, каталог 102745933, Computer History Museum Collection

Интервью с разработчиками Flash Intel, каталог 102658199 Computer History Museum Collection

Интервью с Санджаем Мехротра, каталог 102740455, Computer History Museum Collection

Интервью с Фудзио Масуока, каталог 102746703 Computer History Museum Collection

Интервью с Джорджем Перлегосом, каталог 102746703 Computer History Museum Collection

Личный рассказ Эда Сэка, каталог 500001027 Computer History Museum Collection

Интервью с Чарльзом Си, каталог 102746598 Computer History Museum Collection

Интервью с Саймоном Зи, каталог 102746858 Computer History Museum Collection



На правах рекламы


Наши эпичные серверы используют only NVMe сетевое хранилище с тройной репликацией данных. Вы можете использовать сервер для любых задач разработки, размещения сайтов, использования под VPN и даже получить удалённую машину на Windows! Идей может быть много и любую из них поможем воплотить в реальность!

Подробнее..

Почему мой NVMe медленнее SSD?

30.09.2020 14:10:05 | Автор: admin

В данной статье мы рассмотрим некоторые нюансы подсистемы ввода-вывода и их влияние на производительность.

Пару недель назад я столкнулся с вопросом, почему NVMe на одном сервере медленнее, чем SATA на другом. Посмотрел в характеристики серверов и понял, что это был вопрос с подвохом: NVMe был из пользовательского сегмента, а SSD из серверного.

Очевидно, что сравнивать продукты из разных сегментов в разном окружении некорректно, но это не является исчерпывающим техническим ответом. Изучим основы, проведем эксперименты и дадим ответ на поставленный вопрос.

Что такое fsync и где он используется


Для ускорения работы с накопителями данные буферизируются, то есть сохраняются в энергозависимой памяти до тех пор, пока не представится удобный случай для сохранения содержимого буфера на накопитель. Критерии удобного случая определяются операционной системой и характеристиками накопителя. В случае исчезновения питания все данные в буфере будут утеряны.

Существует ряд задач, в которых необходимо быть уверенным, что изменения в файле записаны на накопитель, а не лежат в промежуточном буфере. Эту уверенность можно получить при использовании POSIX-совместимого системного вызова fsync. Вызов fsync инициирует принудительную запись из буфера на накопитель.

Продемонстрируем влияние буферов искусственным примером в виде короткой программы на языке C.

#include <fcntl.h>#include <unistd.h>#include <sys/stat.h>#include <sys/types.h>int main(void) {    /* Открываем файл answer.txt на запись, если его нет -- создаём */    int fd = open("answer.txt", O_WRONLY | O_CREAT);    /* Записываем первый набор данных */    write(fd, "Answer to the Ultimate Question of Life, The Universe, and Everything: ", 71);    /* Делаем вид, что проводим вычисления в течение 10 секунд */    sleep(10);    /* Записываем результат вычислений */    write(fd, "42\n", 3);     return 0;}

Комментарии хорошо объясняют последовательность действий в программе. Текст ответ на главный вопрос жизни, Вселенной и всего такого будет буферизирован операционной системой, и если перезагрузить сервер нажатием на кнопку Reset во время вычислений, то файл окажется пуст. В нашем примере потеря текста не является проблемой, поэтому fsync не нужен. Базы данных такого оптимизма не разделяют.

Базы данных это сложные программы, которые одновременно работают с множеством файлов, поэтому хотят быть уверенными, что записываемые ими данные будут сохранены на накопителе, так как от этого зависит консистентность данных внутри БД. Базы данных спроектированы записывать все завершенные транзакции и быть готовыми к отключению питания в любой момент. Такое поведение обязывает использовать fsync постоянно в больших количествах.

На что влияет частое использование fsync


При обычном вводе-выводе операционная система старается оптимизировать общение с дисками, так как в иерархии памяти внешние накопители самые медленные. Поэтому операционная система старается за одно обращение к накопителю записать как можно больше данных.

Продемонстрируем влияние использования fsync на конкретном примере. В качестве испытуемых у нас следующие твердотельные накопители:

  • Intel DC SSD S4500 480 GB, подключен по SATA 3.2, 6 Гбит/с;
  • Samsung 970 EVO Plus 500GB, подключен по PCIe 3.0 x4, ~31 Гбит/с.

Тесты проводятся на Intel Xeon W-2255 под управлением ОС Ubuntu 20.04. Для тестирования дисков используется sysbench 1.0.18. На дисках создан один раздел, отформатированный как ext4. Подготовка к тесту заключается в создании файлов объемом в 100 ГБ:

sysbench --test=fileio --file-total-size=100G prepare

Запуск тестов:

# Без fsyncsysbench --num-threads=16 --test=fileio --file-test-mode=rndrw --file-fsync-freq=0 run# С fsync после каждой записиsysbench --num-threads=16 --test=fileio --file-test-mode=rndrw --file-fsync-freq=1 run

Результаты тестов представлены в таблице.
Тест Intel S4500 Samsung 970 EVO+
Чтение без fsync, МиБ/с 5734.89 9028.86
Запись без fsync, МиБ/с 3823.26 6019.24
Чтение с fsync, МиБ/с 37.76 3.27
Запись с fsync, МиБ/с 25.17 2.18
Нетрудно заметить, что NVMe из клиентского сегмента уверенно лидирует, когда операционная система сама решает, как работать с дисками, и проигрывает, когда используется fsync. Отсюда возникает два вопроса:

  1. Почему в тесте без fsync скорость чтения превышает физическую пропускную способность канала?
  2. Почему SSD из серверного сегмента лучше обрабатывает большое количество запросов fsync?

Ответ на первый вопрос прост: sysbench генерирует файлы, заполненные нулями. Таким образом, тест проводился над 100 гигабайтами нулей. Так как данные весьма однообразны и предсказуемы, в ход вступают различные оптимизации ОС, и они значительно ускоряют выполнение.

Если ставить под сомнение все результаты sysbench, то можно воспользоваться fio.

# Без fsyncfio --name=test1 --blocksize=16k --rw=randrw --iodepth=16 --runtime=60 --rwmixread=60 --fsync=0 --filename=/dev/sdb# С fsync после каждой записиfio --name=test1 --blocksize=16k --rw=randrw --iodepth=16 --runtime=60 --rwmixread=60 --fsync=1 --filename=/dev/sdb
Тест Intel S4500 Samsung 970 EVO+
Чтение без fsync, МиБ/с 45.5 178
Запись без fsync, МиБ/с 30.4 119
Чтение с fsync, МиБ/с 32.6 20.9
Запись с fsync, МиБ/с 21.7 13.9
Тенденция к просадке производительности у NVMe при использовании fsync хорошо заметна. Можно переходить к ответу на второй вопрос.

Оптимизация или блеф


Ранее мы говорили, что данные хранятся в буфере, но не уточняли в каком именно, так как это было не принципиально. Мы и сейчас не будем углубляться в тонкости операционных систем и выделим два общих вида буферов:

  • программный;
  • аппаратный.

Под программным буфером подразумеваются буферы, которые есть в операционной системе, а под аппаратным энергозависимая память контроллера диска. Системный вызов fsync посылает накопителю команду записать данные из его буфера в основное хранилище, но никак не может проконтролировать корректность выполнения команды.

Так как SSD показывает лучшие результаты, то можно сделать два предположения:

  • диск спроектирован под нагрузку подобного плана;
  • диск блефует и игнорирует команду.

Нечестное поведение накопителя можно заметить, если провести тест с исчезновением питания. Проверить это можно скриптом diskchecker.pl, который был создан в 2005 году.

Данный скрипт требует две физические машины сервер и клиент. Клиент записывает на тестируемый диск небольшой объем данных, вызывает fsync и отправляет серверу информацию о том, что было записано.

# Запускается на сервере./diskchecker.pl -l [port]# Запускается на клиенте./diskchecker.pl -s <server[:port]> create <file> <size_in_MB>

После запуска скрипта необходимо обесточить клиента и не возвращать питание в течение нескольких минут. Важно именно отключить тестируемого от электричества, а не просто выполнить жесткое выключение. По прошествии некоторого времени сервер можно подключать и загружать в ОС. После загрузки ОС необходимо снова запустить diskchecker.pl, но с аргументом verify.

./diskchecker.pl -s <server[:port]> verify <file>

В конце проверки вы увидите количество ошибок. Если их 0, то значит, диск выдержал испытание. Для исключения удачного для диска стечения обстоятельств опыт можно повторить несколько раз.

Наш S4500 не показал ошибок при потере питания, то есть можно утверждать, что он готов к нагрузкам с большим количеством вызовов fsync.

Заключение


При выборе дисков или целых готовых конфигураций следует помнить о специфике задач, которые необходимо решить. На первый взгляд кажется очевидным, что NVMe, то есть SSD с PCIe-интерфейсом, быстрее классического SATA SSD. Однако, как мы поняли сегодня, в специфических условиях и с определенными задачами это может быть не так.

А как вы тестируете комплектующие cерверов при аренде у IaaS-провайдера?
Ждем вас в комментариях.

Подробнее..

Перевод NVMe стирает разницу между памятью и накопителями

04.02.2021 20:12:33 | Автор: admin


История накопителей представляет собой гонку между носителями и вычислительными мощностями. На пути к компьютерной нирване встаёт узкое место хранение миллиардов нулей и единиц. Самый новый из игроков на этом поприще энергонезависимая память Non-Volatile Memory Express (NVMe), представляющая собой что-то вроде гибрида нескольких предыдущих технических решений.

В первом поколении домашних компьютеров в качестве накопителей использовались флоппи-диски и компакт-кассеты, но с ростом возможностей компьютеров постепенно росла и важность накопителей. К 1990-м большое распространение получили жёсткие диски, позволявшие хранить сначала мегабайты, а потом и гигабайты информации. В результате выросла необходимость в быстрой системе связи между накопителем и остальной системой. В то время чаще всего использовался интерфейс ATA (IDE) в режиме программного ввода-вывода Programmed Input-Output (PIO).

В результате технологии перешли на прямой доступ к памяти (DMA), интерфейс UDMA, также известный, как Ultra ATA и Parallel ATA, и основанные на этой системе интерфейсы SCSI в компьютерах Apple и большинстве серверов. В итоге Parallel ATA превратился в Serial ATA (SATA), а Parallel SCSI в Serial Attached SCSI (SAS). SATA в основном использовался в ноутбуках и настольных компьютерах до прихода NVMe и твердотельных накопителей.

Все эти интерфейсы разрабатывались с тем, чтобы не отставать от накопителей. В этом смысле, NVMe выбивается из общей картины своей интеграцией в систему. Также NVMe отличается тем, что не привязан к какому-то определённому интерфейсу или коннектору, что может сбить с толку. Кто может разделить M.2 и U.2, не говоря уже о том, какой протокол использует интерфейс, будь то SATA или NVMe?

Давайте-ка разбираться в чудесном и странном мире NVMe.

Обманчивый внешний вид



Элементы SATA Express, функционально схожие с M.2.

Попросите любого человека показать вам слот для NVMe на материнской плате, и скорее всего вам покажут изображение слота M.2, поскольку он стал наиболее популярным для твердотельных накопителей (ТТН) в потребительской электронике. При этом даже слот M.2 со вставленным в него твердотельным накопителем может не относиться к NVMe, поскольку этот интерфейс использует и SATA.

На плате рядом со слотом M.2 часто указывают, какую технологию он поддерживает. Также хорошей идеей будет почитать инструкцию к материнке. Причина путаницы в том, что изначально для ТТН существовал стандарт Mini-SATA (mSATA), использовавший форм-фактор PCIe Mini Card, который потом развился до форм-фактора М.2 и интерфейса U.2. Последний больше похож на интерфейсы SATA и SAS, и комбинирует два канала, SATA и PCIe, в один интерфейс для подключения ТТН.

Тем временем стандарт М.2 (после краткого экскурса в недолго существовавший стандарт SATA Express) расширили с тем, чтобы поддерживать не только SATA, но и AHCI с NVMe. Поэтому слоты М.2 часто неправильно называют слотами NVMe, кода на самом деле NVMe это протокол, основанный на PCIe, не определяющий никаких форм-факторов или типов коннекторов.


Интерфейс М.2 с ключами B и M

Тем временем сам по себе форм-фактор М.2 довольно разносторонний или запутанный, это кому как. Физически он может быть шириной в 12, 16, 22 и 30 мм, и поддерживать длины от 16 до 110 мм. На краю разъёма наносится последовательность меток, обозначающих функциональность, и совпадающих с метками на самом слоте. Чаще всего это метки В и М из списка ключевых меток, в котором, например, есть следующее:

A: 2x PCIe x1, USB 2.0, I2C и DP x4.
B: PCIe x2, SATA, USB 2.0/3.0, аудио, и т.д.
E: 2x PCIe x1, USB 2.0, I2C, etc.
M: PCIe x4, SATA и SMBus.

Получается, что физических размеров карты расширения М.2 бывает аж 32 штуки, и это ещё до того, как мы учтём 12 возможных вариантов модификаций из списка. К счастью, в основной массе промышленность, судя по всему, пришла к общему стандарту в 22 мм ширины для карт накопителей, варианты длин которых ограничены. В итоге ТТН стандарта NVMe имеют маркировку типа 2242, что означает 22 мм ширины и 42 мм длины. Карточки ТТН могут быть отмечены буквами В, М или обеими.

Важно отметить, что сегодня слоты М.2 актитвно используются в качестве расширения PCIe в стеснённых условиях. Поэтому карточки WiFi часто имеют форм-фактор М.2.

Определяя NVMe


Всё это приводит нас к основному определению NVMe: это стандартный интерфейс для накопителей, напрямую подсоединяемых к PCIe. От SATA он отличается тем, что первый преобразует протокол PCIe в протокол SATA, который затем приходится интерпретировать специальному чипу на накопителе перед тем, как можно будет выполнять какие-либо команды, связанные с хранением данных.

Вместо этого NVMe определяет интерфейс, который напрямую можно использовать в любой ОС, имеющей NVMe-драйвер. Команды отправляются на NVMe-накопитель, выполняющий их для чтения или записи или проводящий какие-то операции обслуживания типа TRIM. Поскольку можно положиться на то, что любое устройство, представившееся как NVMe-устройство, представляет собой ТТН (NAND Flash, 3D XPoint, и т.д.), протокол NVMe разработан в расчёте на низкие задержки и большую скорость передачи пакетов.


Optane SSD от Intel типа 3D XPoint работает ровно вне зависимости от нагрузок

Недавно популярность обрела такая особенность NVMe, как местный буфер памяти, Host Memory Buffer (HMB). Это попытка избавиться от необходимости буферизовать данные в DRAM используя ТТН типа NAND Flash. Особенность использует часть памяти системы в качестве буфера, относительно мало теряя при этом в быстродействии, при этом буфер в основном используется для кэширования таблицы адресов.

В долгосрочной перспективе, с учётом темпов развития накопителей, такие технологии, как 3D XPoint делают ненужными даже подобные хитрости. Скорость доступа к той же 3D XPoint ближе к показателям DRAM, чем к NAND Flash. Поскольку ТТН типа 3D XPoint не нуждаются в DRAM-буфере, увеличение их популярности может привести к тому, что NVMe будут оптимизировать уже под них.

Взламывая NVMe



Память на магнитных сердечниках 6464 (4 кБ)

Стоит задуматься, а что ещё можно сделать с NVMe, кроме как купить ТТН и засунуть его в слот M.2 B или М. Тут нужно решить, что вам больше интересно взлом накопителя (пусть это будет лишь некая разновидность DRAM or SRAM), или же самого слота М.2.

Полноразмерные слоты PCIe имеют большой размер, а карты расширения предоставляют много места для таких громоздких компонентов, как BGA-чипы и гигантские системы охлаждения. Карты расширения М.2 наоборот, предназначены для мелких и компактных решений, способных уместиться в ноутбуке. Можно, к примеру, скомбинировать FPGA с нужными блоками железа SerDes и PCIe в форм-факторе M.2, и создать компактную карту расширения для ноутбуков и встраиваемых устройств.

Недавние хаки предлагают добавить поддержку NVMe к Raspberry Pi, заменить ТТН в Pinebook Pro WiFi-картой, и считывать NVMe Flash накопитель от айфона при помощи ZIF-адаптера для PCIe.

При этом никто не запрещает попытаться скомбинировать что-нибудь очень странное к примеру, NVMe-накопитель на магнитных сердечниках.

Заключение


Оглядываясь назад на десятилетия развития вычислительной техники, видно, что различие между памятью и накопителями существовало всегда. Причём памятью всегда служили энергозависимые устройства типа SRAM или DRAM. В последнее время это различие становится всё менее значимым. NAND Flash с NVMe-интерфейсом уже обещают нам потенциально очень низкие задержки и скорость в несколько гигабайт в секунду (особенно с использованием PCIe 4.0) но и это не конец истории.

Самая горячая новинка это DIMM постоянной памяти, размещаемые в обычных слотах памяти. Они используют твердотельную технологию Intel Optane, позволяющую увеличивать объём памяти в системе до 512 Гб на модуль. Эти модули, естественно, пока что работают только в серверах Intel. Используются они для буферизации баз данных, большие объёмы которых не дают использовать в качестве буфера обычную память (например, терабайты DDR4 DIMM).

Если у нас будет очень быстрый и энергонезависимый накопитель, соединённый с контроллером памяти процессора напрямую, мы сможем уменьшить задержки до абсолютных минимумов. И хотя 3D XPoint (как разновидность памяти с изменением фазового состояния) пока ещё не такая быстрая, как DDR SDRAM, она демонстрирует нам, что может появиться после NVMe, когда разница между памятью системы и хранилищем данных совсем исчезнет или изменится до неузнаваемости.
Подробнее..

Нужно ли устанавливать радиаторы на NVMe-накопители?

15.10.2020 08:09:44 | Автор: admin


За последние несколько лет стоимость 2,5-дюймовых твердотельных накопителей снизилась практически до уровня жестких дисков. Теперь на смену SATA-решениям приходят NVMe-накопители, работающие по шине PCI Express. За период 2019-2020 года мы также наблюдаем снижение стоимости на эти устройства, так что на текущий момент они незначительно дороже своих SATA-собратьев.

Главное же их преимущество в том, что такие хранилища данных намного компактнее (как правило, это типоразмер 2280 82,2 см) и быстрее традиционных SATA SSD. Впрочем, есть и нюанс: с расширением пропускной способности и ростом скорости передачи данных, увеличивается и нагрев компонентной базы накопителей, работающих по протоколу NVMe. В особенности, ситуация с сильным нагревом и последующим троттлингом типична для устройств бюджетных брендов, которые вызывают у пользователей больший интерес своей ценовой политикой. Вместе с этим добавляется головная боль по части организации грамотного охлаждения в системном блоке: в ход идут дополнительные кулеры и даже специальные радиаторы для отвода тепла от чипов M.2-накопителей.

В комментариях пользователи неоднократно спрашивают у нас про температурные параметры накопителей Kingston: нужно ли на них устанавливать радиаторы или продумывать иную систему теплоотвода? Мы решили разобраться в этом вопросе: ведь действительно NVMe-накопители Kingston (например, A2000, КС2000, КС2500) предлагаются без радиаторов в комплекте. Нужен ли им сторонний теплоотвод? Достаточно ли оптимизирована работа этих накопителей, чтобы не заморачиваться покупкой радиатора? Давайте разбираться.

В каких случаях NVMe-накопители сильно нагреваются и чем это грозит?


Что ж, как мы уже отметили выше, огромная пропускная способность, зачастую, приводит к сильному нагреву контроллеров и чипов памяти NVMe-накопителей при длительной и активной нагрузке (например, при выполнении операций записи большого массива данных). К тому же NVMe SSD потребляют довольно большое количество энергии для работы, и чем больше энергии им требуется, тем сильнее нагрев. Стоит, однако, понимать, что вышеупомянутые операции записи требуют больше количества энергии нежели операции чтения. Поэтому, например, при чтении данных из файлов установленной игры накопитель греется меньше, чем при записи на него большого количества информации.



Как правило, термическое дросселирование начинается в диапазоне от 80 C до 105 C, и это чаще всего достигается при длительной записи файлов в память NVMe-накопителя. Если вы не производите запись в течение 30 минут, вы вряд ли увидите какое-либо снижение производительности, даже не используя радиатор.

Но допустим, что нагрев накопителя все-таки норовит выйти за пределы нормы. Чем это может грозить пользователю? Разве что падением скорости передачи данных, ведь в случае сильного нагрева у NVMe SSD активируется режим пропуска очередей записи для разгрузки контроллера. При этом производительность снижается, но SSD не перегревается. Такая же схема работает в процессорах, когда при чрезмерном нагреве CPU пропускает такты. Но в случае с процессором, пропуски не будут столь заметны пользователю, как с SSD. Нагревшись выше предусмотренного инженерами порога, накопитель начнет пропускать слишком много тактов и вызовет фризы в работе операционной системы. Но вот получится ли в повседневных сценариях использования создать такие проблемы своему устройству?

Как обстоит дело с нагревом в реальных сценариях использования?


Допустим, что мы решили записать на NVMe-накопитель 100 или 200 Гбайт данных. И взяли для этой процедуры Kingston KC2500, средняя скорость записи у которого составляет 2500 Мбайт/с (согласно нашим тестовым замерам). В случае с файлами, емкостью 200 Гбайт потребуется в среднем 81 секунда, а в случае с сотней гигабайт всего 40 секунд. За это время накопитель нагреется в рамках допустимых значений (об этом поговорим чуть ниже), и не покажет критических температур и падения производительности, не говоря уж о том, что вы вряд ли будете оперировать столь объемными данными в повседневности.



Как ни крути, а в условиях домашней эксплуатации NVMe-решений операции чтения значительно превалируют перед операциями записи данных. А, как мы уже отметили выше, именно запись данных нагружает чипы памяти и контроллер больше всего. Это и объясняет отсутствие суровых требований к охлаждению. К тому же, если говорить о Kingston KC2500, следует напомнить, что данная модель предусматривает работу при максимальной нагрузке без дополнительного активного или пассивного охлаждения. Достаточным условием отсутствия троттлинга является вентиляция внутри корпуса, что неоднократно подтверждается нашими измерениями и тестами отраслевых СМИ.

Каков допустимый нагрев у NVMe-накопителей Kingston?


В Интернете есть много исследований и публикаций, которые рассказывают читателям, что оптимальная температура нагрева NVMe-решений не должна превышать 50 C. Мол, лишь в этом случае накопитель отработает положенный ему срок. Чтобы развеять этот миф, мы обратились непосредственно к инженерам Kingston, и выяснили вот что. Допустимый диапазон рабочих температур для накопителей компании составляет от 0 до 70 C.

Какой-то золотой цифры, при которой NAND меньше умирает нет, а источникам, которые приводят оптимальную температуру нагрева на уровне 50 C доверять не стоит, рассказывают специалисты, Главное не допускать длительного перегрева выше 70 C. И даже в этом случае NVMe SSD может самостоятельно решить проблему сильного нагрева, путем снижения производительности, пропуская такты (о чем мы и упомянули выше).

В целом твердотельные накопители Kingston весьма выверенные решения, которые проходят множество тестов на надежность в эксплуатации. В наших измерениях они показали соответствие заявленному температурному диапазону, что допускает их использование без радиаторов. Перегреваться они могут лишь в очень специфических ситуациях: например, если у вас неграмотно устроено охлаждение в системном блоке. Но в этом случае вам нужен не радиатор, а продуманный подход к отводу горячего воздуха из системника в целом.

Температурные параметры Kingston КС2500



При длительной последовательной записи информации на пустой накопитель Kingston КС2500 (1 Тбайт), установленный в материнскую плату ASUS ROG Maximus XI Hero, нагрев устройства без радиатора достигает 68-72 C (в холостом режиме работы 47 C). Установка же радиатора, который идет в комплекте с системной платой, позволяет значительно снизить температуру нагрева до 53-55 C. Но стоит учитывать, что в данном тесте накопитель был не очень удачно расположен: в непосредственной близости к видеокарте, поэтому радиатор пришелся кстати.

Температурные параметры Kingston A2000

У накопителя Kingston A2000 (1 Тбайт) температурные показатели в холостом режиме работы составляют 35 C (в закрытом стенде без радиатора, но с хорошей продувкой из четырех кулеров). Нагрев при тестировании бенчмарками при имитации последовательного чтения и записи не превышал 59 C. Кстати, тестировали мы его на материнской плате ASUS TUF B450-M Plus, у которой вообще нет комплектного радиатора для охлаждения NVMe-решений. И даже при этом накопитель не испытывал сложностей в работе и не достигал критических температур, которые могли бы повлиять на снижение его производительности. Как видите, в данном случае в применении радиатора попросту нет необходимости.

Температурные параметры Kingston КС2000



И еще один протестированный нами накопитель это Kingston KC2000 (1 Тбайт). При полной нагрузке в закрытом корпусе и без радиатора, устройство нагревается до 74 C (в холостом режиме 38 C). Но в отличие от сценария теста модели A2000, корпус тестовой сборки для измерения характеристик KC2000 не был оборудован дополнительным массивом корпусных кулеров. В данном случае это была тестовая станция со штатным корпусным вентилятором, процессорным кулером и системой охлаждения видеокарты. И, конечно же, нужно принимать во внимание, что тестирование бенчмарками подразумевает длительное воздействие на накопитель, что в повседневных сценариях использования особо и не происходит.

Если все же очень хочется: как установить радиатор на NVMe-накопитель, не нарушая гарантии?


Мы уже убедились, что к накопителям Kingston достаточно естественной вентиляции внутри системного блока для стабильной работы без перегревов компонентов. Тем не менее, есть пользователи, которые ставят радиаторы в качестве решения для моддинга или просто желают перебдеть, снизив температуру нагрева. И здесь они сталкиваются с интересной ситуацией.

Как вы заметили, накопители компании Kingston (и других брендов тоже) снабжены информационной наклейкой, которая расположена аккурат поверх чипов памяти. Возникает вопрос: как же установить термопрокладку радиатора на такую конструкцию? Не будет ли наклейка ухудшать теплоотвод?



В Интернете можно найти много советов на тему того, что наклейку нужно оторвать (при этом вы лишаетесь гарантии на накопитель, а у Kingston она составляет до 5 лет между прочим) и разместить вместо нее термоинтерфейс. Встречаются даже советы на тему Как снять наклейку с помощью теплового пистолета, если она ни в какую не хочет отрываться от компонентов накопителя.

Сразу предупреждаем: так делать не надо! Наклейки на накопителях сами по себе выполняют роль термоинтерфейсов (а некоторые даже имеют медную фольгированную основу), поэтому термопрокладку можете смело устанавливать поверх. В случае с Kingston КС2500 мы особо не мудрили и использовали термопрокладку от комплектного радиатора материнской платы ASUS ROG Maximus XI Hero. То же самое можно сделать при наличии кастомного радиатора.

Нужны ли твердотельным накопителям NVMe радиаторы?


Нужны ли NVMe-накопителям радиаторы? В случае с накопителями Kingston нет! Как показали проведенные нами тесты, NVMe SSD Kingston не показывают критических температур в повседневном использовании.



Тем не менее, если вам хочется использовать радиатор в качестве дополнительного украшательства для системного блока, вы вольны применять комплектные теплоотводники материнских плат или поискать стильные варианты послепродажного обслуживания от сторонних производителей.

С другой стороны, если заведомо известно, что внутри корпуса вашего ПК температура нагрева компонентов всегда высокая (близка к 70 C), то радиатор будет исполнять роль уже не только декора. Однако в этом случае мы рекомендуем комплексно поработать над корпусной системой охлаждения, а не надеяться на одни лишь радиаторы.

Для получения дополнительной информации о продуктах Kingston Technology обращайтесь на официальный сайт компании.
Подробнее..

RAID-массивы на NVMe

17.10.2020 14:04:36 | Автор: admin

В данной статье мы расскажем про разные способы организации RAID-массивов, а также покажем один из первых аппаратных RAID-контроллеров с поддержкой NVMe.

Все разнообразие применений технологии RAID встречается в серверном сегменте. В клиентском сегменте чаще всего используется исключительно программный RAID0 или RAID1 на два диска.

В этой статье будет краткий обзор технологии RAID, небольшая инструкция по созданию RAID-массивов с помощью трех разных инструментов и сравнение производительности виртуальных дисков при использовании каждого из способов.

Что такое RAID?


Википедия дает исчерпывающее определение технологии RAID:
RAID (англ. Redundant Array of Independent Disks избыточный массив независимых (самостоятельных) дисков) технология виртуализации данных для объединения нескольких физических дисковых устройств в логический модуль для повышения отказоустойчивости и производительности.
Конфигурация дисковых массивов и используемые при этом технологии зависят от выбранного уровня RAID (RAID level). Уровни RAID стандартизированы в спецификации Common RAID Disk Data Format. Она описывает множество уровней RAID, однако самыми распространенными принято считать RAID0, RAID1, RAID5 и RAID6.

RAID0, или Stripes, это уровень RAID, который объединяет два или более физических диска в один логический. Объем логического диска при этом равен сумме объемов физических дисков, входящих в массив. На этом уровне RAID отсутствует избыточность, а выход из строя одного диска может привести к потере всех данных в виртуальном диске.

Уровень RAID1, или Mirror, создает идентичные копии данных на двух и более дисках. Объем виртуального диска при этом не превышает объема минимального из физических дисков. Данные на виртуальном диске RAID1 будут доступны, пока хотя бы один физический диск из массива работает. Использование RAID1 добавляет избыточности, но является достаточно дорогим решением, так как в массивах из двух и более дисков доступен объем только одного.

Уровень RAID5 решает проблему дороговизны. Для создания массива с уровнем RAID5 необходимо как минимум 3 диска, при этом массив устойчив к выходу из строя одного диска. Данные в RAID5 хранятся блоками с контрольными суммами. Нет строгого деления на диски с данными и диски с контрольными суммами. Контрольные суммы в RAID5 это результат операции XOR, примененной к N-1 блокам, каждый из которых взят со своего диска.
Хотя RAID-массивы повышают избыточность и предоставляют резервирование, они не подходят для хранения резервных копий.
После краткого экскурса по видам RAID-массивов можно переходить к устройствам и программам, которые позволяют собирать и использовать дисковые массивы.

Виды RAID-контроллеров


Существует два способа создать и использовать RAID-массивы: аппаратный и программный. Мы рассмотрим следующие решения:

  • Linux Software RAID.
  • Intel Virtual RAID On CPU.
  • LSI MegaRAID 9460-8i.

Отметим, что решение Intel работает на чипсете, из-за чего возникает вопрос, аппаратное это решение или программное. Так, например, гипервизор VMWare ESXi считает VROC программным и не поддерживает официально.

Linux Software RAID


Программные RAID-массивы в семействе ОС Linux достаточно распространенное решение как в клиентском сегменте, так и в серверном. Все, что нужно для создания массива, утилита mdadm и несколько блочных устройств. Единственное требование, которое предъявляет Linux Software RAID к используемым накопителям, быть блочным устройством, доступным системе.

Отсутствие затрат на оборудование и программное обеспечение очевидное преимущество данного способа. Linux Software RAID организует дисковые массивы ценой процессорного времени. Список поддерживаемых уровней RAID и состояние текущих дисковых массивов можно посмотреть в файле mdstat, который находится в корне procfs:

root@grindelwald:~# cat /proc/mdstat Personalities : [linear] [multipath] [raid0] [raid1] [raid10] unused devices: <none>

Поддержка уровней RAID добавляется подключением соответствующего модуля ядра, например:

root@grindelwald:~# modprobe raid456root@grindelwald:~# cat /proc/mdstat Personalities : [linear] [multipath] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] unused devices: <none>

Все операции с дисковыми массивами производятся через утилиту командной строки mdadm. Сборка дискового массива производится в одну команду:

mdadm --create --verbose /dev/md0 --level=1 --raid-devices=2 /dev/nvme1n1 /dev/nvme2n1

После выполнения этой команды в системе появится блочное устройство /dev/md0, которое представляет из тебя виртуальный диск.

Intel Virtual RAID On CPU


Intel VROC Standard Hardware Key
Intel Virtual RAID On CPU (VROC) это программно-аппаратная технология для создания RAID-массивов на базе чипсетов Intel. Данная технология доступна в основном для материнских плат с поддержкой процессоров Intel Xeon Scalable. По умолчанию VROC недоступен. Для его активации необходимо установить аппаратный лицензионный ключ VROC.

Стандартная лицензия VROC позволяет создавать дисковые массивы с 0, 1 и 10 уровнями RAID. Премиальная версия расширяет этот список поддержкой RAID5.

Технология Intel VROC в современных материнских платах работает совместно с Intel Volume Management Device (VMD), которая обеспечивает возможность горячей замены для накопителей с интерфейсов NVMe.

Intel VROC со стандартной лицензией
Настройка массивов производится через Setup Utility при загрузке сервера. На вкладке Advanced появляется пункт Intel Virtual RAID on CPU, в котором можно настроить дисковые массивы.

Создание массива RAID1 на двух накопителях
Технология Intel VROC имеет свои козыри в рукаве. Дисковые массивы, собранные с помощью VROC, совместимы с Linux Software RAID. Это означает, что состояние массивов можно отслеживать в /proc/mdstat, а администрировать через mdadm. Эта особенность официально поддерживается Intel. После сборки RAID1 в Setup Utility можно наблюдать синхронизацию накопителей в ОС:

root@grindelwald:~# cat /proc/mdstat Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] md126 : active raid1 nvme2n1[1] nvme1n1[0]      1855832064 blocks super external:/md127/0 [2/2] [UU]      [>....................]  resync =  1.3% (24207232/1855832064) finish=148.2min speed=205933K/sec      md127 : inactive nvme1n1[1](S) nvme2n1[0](S)      10402 blocks super external:imsm       unused devices: <none>

Отметим, что через mdadm нельзя собирать массивы на VROC (собранные массивы будут Linux SW RAID), но можно менять в них диски и разбирать массивы.

LSI MegaRAID 9460-8i


Внешний вид контроллера LSI MegaRAID 9460-8i
RAID-контроллер является самостоятельным аппаратным решением. Контроллер работает только с накопителями, подключенными непосредственно к нему. Данный RAID-контроллер поддерживает до 24 накопителей с интерфейсом NVMe. Именно поддержка NVMe выделяет этот контроллер из множества других.

Главное меню аппаратного контроллера
При использовании режима UEFI настройки контроллера интегрируются в Setup Utility. В сравнении с VROC меню аппаратного контроллера выглядит значительно сложнее.

Создание RAID1 на двух дисках
Объяснение настройки дисковых массивов на аппаратном контроллере является достаточно тонкой темой и может стать поводом для полноценной статьи. Здесь же мы просто ограничимся созданием RAID0 и RAID1 с настройками по умолчанию.

Диски, подключенные в аппаратный контроллер, не видны операционной системе. Вместо этого контроллер маскирует все RAID-массивы под SAS-накопители. Накопители, подключенные в контроллер, но не входящие в состав дискового массива, не будут доступны ОС.

root@grindelwald:~# smartctl -i /dev/sdasmartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-48-generic] (local build)Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org=== START OF INFORMATION SECTION ===Vendor:               AVAGOProduct:              MR9460-8iRevision:             5.14Compliance:           SPC-3User Capacity:        1,999,844,147,200 bytes [1.99 TB]Logical block size:   512 bytesRotation Rate:        Solid State DeviceLogical Unit id:      0x000000000000000000000000000000Serial number:        00000000000000000000000000000000Device type:          diskLocal Time is:        Sun Oct 11 16:27:59 2020 MSKSMART support is:     Unavailable - device lacks SMART capability.

Несмотря на маскировку под SAS-накопители, массивы с NVMe будут работать на скорости PCIe. Однако такая особенность позволяет загружаться с NVMe в Legacy.

Тестовый стенд


Каждый из способов организации дисковых массивов имеет свои физические плюсы и минусы. Но есть ли разница в производительности при работе с дисковыми массивами?

Для достижения максимальной справедливости все тесты будут проведены на одном и том же. Его конфигурация:

  • 2x Intel Xeon 6240;
  • 12x DDR4-2666 16 GB;
  • LSI MegaRAID 9460-8i;
  • Intel VROC Standard Hardware Key;
  • 4x Intel SSD DC P4510 U.2 2TB;
  • 1x Samsung 970 EVO Plus M.2 500GB.

Тестируемыми выступают P4510, из которых одна половина подключена к материнской плате, а вторая к RAID-контроллеру. На M.2 установлена операционная система Ubuntu 20.04, а тесты будут выполняться при помощи fio версии 3.16.

Тестирование


В первую очередь проверим задержки при работе с диском. Тест выполняется в один поток, размер блока 4 КБ. Каждый тест длится 5 минут. Перед началом для соответствующего блочного устройства выставляется none в качестве планировщика I/O. Команда fio выглядит следующим образом:

fio --name=test --blocksize=4k --direct=1 --buffered=0 --ioengine=libaio  --iodepth=1 --loops=1000 --runtime=300  --rw=<mode> --filename=<blkdev>

Из результатов fio мы берем clat 99.00%. Результаты приведены в таблице ниже.
Случайное чтение, мкс Случайная запись, мкс
Диск 112 78
Linux SW RAID, RAID0 113 45
VROC, RAID0 112 46
LSI, RAID0 122 63
Linux SW RAID, RAID1 113 48
VROC, RAID1 113 45
LSI, RAID1 128 89
Помимо задержек при обращении к данным, хочется увидеть производительность виртуальных накопителей и сравнить с производительностью физического диска. Команда для запуска fio:

fio --name=test --blocksize=4k --direct=1 --buffered=0 --ioengine=libaio  --loops=1000 --runtime=300  --iodepth=<threads> --rw=<mode> --filename=<blkdev>

Производительность измеряется в количестве операций ввода-вывода. Результаты представлены в таблице ниже.

Случайное чтение 1 поток, IOPS Случайная запись 1 поток, IOPS Случайное чтение 128 потоков, IOPS Случайная запись 128 потоков, IOPS
Диск 11300 40700 453000 105000
Linux SW RAID, RAID0 11200 52000 429000 232000
VROC, RAID0 11200 52300 441000 162000
LSI, RAID0 10900 44200 311000 160000
Linux SW RAID, RAID1 10000 48600 395000 147000
VROC, RAID1 10000 54400 378000 244000
LSI, RAID1 11000 34300 229000 248000
Легко заметить, что использование аппаратного контроллера дает увеличение задержек и просадку по производительности в сравнении с программными решениями.

Заключение


Использование аппаратных решений для создания дисковых массивов из двух дисков выглядит нерационально. Тем не менее, существуют задачи, где использование RAID-контроллеров оправдано. С появлением контроллеров с поддержкой интерфейса NVMe у пользователей появляется возможность использовать более быстрые SSD в своих проектах.

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru