Русский
Русский
English
Статистика
Реклама

Huawei OceanStor Dorado 18000 V6 в чём её хай-эндовость

Обстоятельно аргументируем, что делает OceanStor Dorado 18000 V6 по-настоящему хай-эндовой системой хранения данных с порядочным заделом на ближайшие годы. Заодно развеиваем распространённые опасения относительно All-Flash-хранилищ и показываем, за счёт чего Huawei выжимает из них максимум: end-to-end NVMe, дополнительное кэширование на SCM и целая пачка других решений.




Новый ландшафт данных новое хранение данных


Интенсивность работы с данными повышается во всех отраслях. И банковская сфера тому нагляднейшая иллюстрация. За последние несколько лет число банковских транзакций увеличилось в десять с лишним раз. Как показывает исследование BCG, только в России на отрезке с 2010 по 2018 год количество безналичных транзакций с помощью пластиковых карт показало более чем тридцатикратный рост с 5,8 до 172 на одного человека в год. Дело прежде всего в триумфе микроплатежей: большинство из нас сроднилось с онлайн-банкингом, и банк у нас теперь под рукой в телефоне.

IT-инфраструктура кредитной организации должна быть готова к такому вызову. А это действительно вызов. Помимо всего прочего, если раньше банку требовалось обеспечить доступность данных лишь в свои рабочие часы, то теперь 24/7. Ещё недавно 5 мс считались приемлемой нормой задержкой, и что же? Сейчас даже 1 мс перебор. Для современной системы хранения данных целевое значение 0,5 мс.

То же самое с надёжностью: в 2010-е сформировалось эмпирическое понимание того, что достаточно довести её уровень до пяти десяток 99,999%. Правда, понимание это успело устареть. В 2020 году для бизнеса абсолютно нормально требовать 99,9999% применительно к хранилищу и 99,99999% применительно к архитектурному решению в целом. И это вовсе не блажь, а насущная необходимость: либо временного окна на обслуживание инфраструктуры нет, либо оно крохотное.



Для наглядности удобно спроецировать эти показатели на плоскость денег. Проще всего на примере финансовых организаций. На диаграмме выше указано, какую сумму в течение часа зарабатывает каждый из топ-10 мировых банков. У одного только Промышленного и коммерческого банка Китая это ни много ни мало $5 млн. Ровно во столько обойдётся часовой простой IT-инфраструктуры крупнейшей кредитной организации КНР (причём в расчёте учтена лишь упущенная выгода!). При таком ракурсе видно, что сокращение даунтайма и повышение надёжности не то что на единицы процентов даже на доли процента полностью рационально обоснованны. Не только из соображений повышения конкурентоспособности, но и попросту ради сохранения рыночных позиций.

Сопоставимые изменения происходят в других индустриях. Например, в воздушных перевозках: до пандемии авиасообщение год от года только набирало обороты, и многие стали пользоваться им почти как такси. Что касается потребительских паттернов, в обществе укоренилась привычка к тотальной доступности сервисов: по прибытии в аэропорт нам требуется подключение к Wi-Fi, доступ к платёжным сервисам, к карте местности и т. д. Как следствие, нагрузка на инфраструктуру и сервисы в публичных пространствах возросла многократно. И те подходы к её, инфраструктуры, построению, которые мы считали приемлемыми даже год назад, стремительно устаревают.



Не рано ли переходить на All-Flash?


Для решения задач, о которых было сказано выше, с точки зрения производительности AFA all-flash arrays, то есть полностью построенные на флеше массивы, подходят как нельзя лучше. Разве что до последнего времени сохранялись сомнения в том, сравнимы ли они по надёжности с собранными на основе HDD и с гибридными. В конце концов, у твердотельной флеш-памяти есть такой показатель, как средняя наработка на отказ, или MTBF (mean time between failures). Деградация ячеек вследствие операций ввода-вывода, увы, данность.

Так что перспективы All-Flash омрачал вопрос, как предотвратить гибель данных в том случае, если SSD прикажет долго жить. Резервное копирование вариант привычный, вот только время восстановления было бы неприемлемо большим исходя из современных требований. Другой выход наладить второй уровень хранения на шпиндельных накопителях, однако при такой схеме теряется часть преимуществ строго флешевой системы.

Однако цифры говорят иное: статистика гигантов digital-экономики, включая Google, за последние годы показывает, что флеш кратно надёжнее, чем жёсткие диски. Причём как на коротком промежутке времени, так и на длинном: в среднем до выхода флеш-накопителей из строя проходит четыре-шесть лет. В плане надёжности хранения данных они ничуть не уступают накопителям на шпиндельных магнитных дисках, а то и превосходят таковые.



Ещё один традиционный аргумент в пользу шпиндельных накопителей их ценовая доступность. Спору нет, стоимость хранения терабайта на жёстком диске до сих пор сравнительно невелика. И если брать в расчёт только расходы на оборудование, держать терабайт на шпиндельном накопителе дешевле, чем на твердотельном. Однако в разрезе финансового планирования имеет значение, не только почём было куплено конкретное устройство, но и какова совокупная стоимость владения им вдолгую от трёх до семи лет.

С такого угла зрения всё совсем иначе. Даже если вынести за скобки дедупликацию и компрессию, которые, как правило, применяются на флеш-массивах и делают их эксплуатацию выгоднее экономически, остаются такие характеристики, как занимаемое носителями место в стойке, тепловыделение, энергопотребление. А по ним флеш выигрывает у предшественников. В результате TCO систем хранения данных на флеше с учётом всех параметров часто бывает едва ли не вдвое ниже, чем в случае с массивами на шпиндельных накопителях или с гибридами.

Согласно отчётам агентства ESG, на All-Flash системах хранения данных Dorado V6 реально добиться снижения стоимости владения до 78% на интервале в пять лет в том числе за счёт эффективной дедупликации и компрессии и благодаря невысоким энергопотреблению и тепловыделению. Немецкая аналитическая компания DCIG также рекомендует их к использованию как оптимальные с точки зрения TCO из доступных на сегодняшний день.


Использование твердотельных накопителей даёт возможность экономить полезное пространство, снижает число отказов, сокращает время на обслуживание решения, уменьшает энергопотребление и тепловыделение СХД. И оказывается, что AFA в экономическом отношении как минимум сопоставим с традиционными массивами на шпиндельных накопителях, зачастую же превосходит их.



Роял-флеш от Huawei


Среди наших All-Flash хранилищ топовое место принадлежит hi-end-системе OceanStor Dorado 18000 V6. Да и не только среди наших: целом по индустрии она держит рекорд скорости до 20 млн IPOS в максимальной конфигурации. Кроме того, она чрезвычайно надёжна: пусть даже полетят разом два контроллера, или до семи контроллеров один за другим, или сразу целый движок данные уцелеют. Изрядные преимущества восемнадцатитысячной даёт зашитый в неё ИИ, в том числе гибкость в управления внутренними процессами. Посмотрим, за счёт чего всё это достигается.



В значительной части фора у компании Huawei имеется потому, что она единственный на рынке производитель, делающий системы хранения данных сам целиком и полностью. У нас своя схемотехника, свой микрокод, своё сервисное обслуживание.

Контроллер в системах OceanStor Dorado построен на процессоре собственной разработки и производства Huawei Kunpeng 920. В нём задействован модуль управления Intelligent Baseboard Management Controller (iBMC), тоже наш. Чипы ИИ, а именно Ascend 310, которые оптимизируют предсказания по отказам и дают рекомендации по настройкам, также хуавеевские, равно как и платы ввода-вывода модуль Smart I/O. Наконец, и контроллеры в твердотельных накопителях спроектированы и изготовлены нашими силами. Всё это дало базу для того, чтобы сделать интегрально сбалансированное и высокопроизводительное решение.



За последний год мы реализовали проект по внедрению этой, самой топовой своей СХД в одном из крупных российских банков. В результате более 40 единиц OceanStor Dorado 18000 V6 в metro-кластере показывают стабильную производительность: с каждой системы удаётся снять более миллиона IOPS, и это с учётом задержек из-за расстояния.




Сквозной NVMe


Новейшие системы хранения данных Huawei поддерживают end-to-end NVMe, на чём мы неспроста делаем акцент. Традиционно используемые протоколы доступа к накопителям были разработаны в седой айтишной древности: в фундаменте у них SCSI-команды (привет, 1980-е!), которые тянут за собой уйму функций для обеспечения обратной совместимости. Какой способ доступа ни возьми, протокольный overhead в таком случае колоссальный. В итоге у хранилищ, которые используют завязанные на SCSI протоколы, задержка ввода-вывода не может быть ниже 0,40,5 мс. В свою очередь, будучи протоколом, созданным для работы с флеш-памятью и избавленным от костылей ради пресловутой обратной совместимости, NVMe Non-Volatile Memory Express сбивает latency до 0,1 мс, притом не на СХД, а на всём стеке, от хоста до накопителей. Неудивительно, что NVMe лежит в русле трендов развития data storages на обозримое будущее. Сделали ставку на NVMe и мы и постепенно отходим от SCSI. Все производимые сегодня системы хранения данных Huawei, включая линейку Dorado, NVMe поддерживают (правда, как end-to-end он реализован только на передовых моделях серии Dorado V6).



FlashLink: пригоршня технологий


Краеугольная для всей линейки OceanStor Dorado технология FlashLink. Точнее, это термин, объединяющий интегральный набор технологий, которые служат для обеспечения высоких производительности и надёжности. Сюда входят технологии дедупликации и компрессии, функционирования системы распределения данных RAID 2.0+, разделения холодных и горячих данных, цельнострайповой последовательной записи данных (случайные записи, с новыми и изменёнными данными, агрегируются в крупный стек и пишутся последовательно, что повышает скорость чтения-записи).

Помимо всего прочего, FlashLink включает в себя две важные составляющие Wear Leveling и Global Garbage Collection. На них стоит остановиться отдельно.

Фактически любой твердотельный накопитель это СХД в миниатюре, с большим числом блоков и контроллером, который обеспечивает доступность данных. А обеспечивается она в том числе за счёт того, что данные с убитых ячеек перебрасываются в не убитые. Тем самым гарантируется, что их удастся прочитать. Существуют различные алгоритмы такого переноса. В общем случае контроллер старается отбалансировать износ всех ячеек накопителя. У такого подхода есть минус. Когда внутри SSD происходит перемещение данных, число осуществляемых им операций ввода-вывода разительно сокращается. На текущий момент это неизбежное зло.

Таким образом, если в системе много твердотельных накопителей, на графике её производительности вырисовывается пила, с резкими подъёмами и спадами. Беда в том, что какой-то один накопитель из пула может запустить миграцию данных в любой момент, а общий performance снимается единовременно со всех SSD в массиве. Но инженеры Huawei придумали, как избежать возникновения пилы.

Благо и контроллеры в накопителях, и контроллер хранилища, и микрокод у Huawei родные, эти процессы в OceanStor Dorado 18000 V6 запускаются централизованно, синхронно на всех накопителях массива. Причём по команде контроллера СХД и именно тогда, когда нет большой нагрузки по вводу-выводу.

Чип искусственного интеллекта также участвует в выборе правильного момента для переноса данных: на базе статистики обращений за предыдущие несколько месяцев он с высочайшей вероятностью способен спрогнозировать, ожидать ли в ближайшее время активного ввода-вывода, и если ответ отрицательный, а нагрузка на систему на текущий момент невелика, то контроллер командует всем накопителям: кому требуется Wear Leveling, произвести его разом и синхронно.


Плюс ко всему контроллер системы видит, что творится в каждой ячейке накопителя, в отличие от СХД конкурирующих производителей: те вынуждены закупать твердотельные носители у сторонних вендоров, ввиду чего cell-level детализация контроллерам таких хранилищ недоступна.

Как следствие, у OceanStor Dorado 18000 V6 очень короткий период потери производительности на операции Wear Leveling, а выполняется она, в основном когда никаким другим процессам не мешает. Это даёт высокую стабильную производительность на постоянной основе.



Из чего складывается надёжность OceanStor Dorado 18000 V6


В современных системах хранения данных выделяется четыре уровня надёжности:

  • аппаратная, на уровне накопителя;
  • архитектурная, на уровне оборудования;
  • архитектурная вместе с программной частью;
  • совокупная, относящаяся к решению в целом.


Поскольку, напомним, все составные части СХД наша компания проектирует и выпускает сама, мы обеспечиваем надёжность на каждом из четырёх уровней, с возможностью досконально отслеживать, что на каком из них происходит в моменте.



Надёжность накопителей гарантируется в первую очередь ранее описанными Wear Leveling и Global Garbage Collection. Когда SSD выглядит для системы как чёрный ящик, ей невдомёк, как конкретно в нём изнашиваются ячейки. Для OceanStor Dorado 18000 V6 накопители прозрачны, благодаря чему возможна равномерная балансировка по всем накопителям массива равномерно. Таким образом получается значительно продлить срок жизни SSD и заручиться высоким уровнем надёжности их функционирования.



Также на надёжность накопителя влияют дополнительные избыточные ячейки в нём. И наряду с простым резервом в СХД используются так называемые DIF-ячейки, где содержатся контрольные суммы, а также дополнительные коды, позволяющие уберечь каждый блок от единичной ошибки, в дополнение к защите на уровне RAID-массива.



Залогом надёжности архитектурной служит решение SmartMatrix. Вкратце это четыре контроллера, которые сидят на пассивном бекплейне в составе одного движка (engine). Два таких движка соответственно, с восемью контроллерами подключаются к общим полкам с накопителями. Благодаря SmartMatrix, даже если перестанут функционировать семь контроллеров из восьми, сохранится доступ ко всем данным как на чтение, так и на запись. А при потере шести контроллеров из восьми можно будет даже продолжать операции кэширования.



Платы ввода-вывода на том самом пассивном бекплейне доступны всем контроллерам, как по фронтенду, так и по бэкенду. При такой схеме подключения full-mesh, что бы ни выходило из строя, доступ к накопителям всегда сохраняется.



О надёжности архитектуры уместнее всего говорить в контексте вариантов отказов, защиту от которых система хранения данных в состоянии обеспечить.

Хранилище переживёт без потерь ситуацию, если отвалятся два контроллера, в том числе одновременно. Достигается такая устойчивость за счёт того, что любой блок кэша непременно имеет ещё две копии на разных контроллерах, то есть в общей сложности он существует в трёх копиях. Причём по крайней мере одна находится на другом движке. Таким образом, даже если перестанет работать движок целиком со всеми четырьмя своими контроллерами, гарантировано сохранение всей информации, которая находилась в кэш-памяти, потому что как минимум в одном контроллере из оставшегося движка кэш будет продублирован. Наконец, при последовательном подключении можно потерять до семи контроллеров, и даже при их выбывании блоками по два, причём опять-таки сохранится весь ввод-вывод и все данные из кэш-памяти.



При сравнении с хранилищами класса hi-end прочих производителей видно, что только Huawei обеспечивает полную защиту данных и полную их доступность даже после гибели двух контроллеров или движка целиком. Большинство вендоров использует схему с так называемыми контроллерными парами, к которым подключаются накопители. К сожалению, в такой конфигурации при выходе из строя двух контроллеров возникает риск утраты доступа к накопителю по вводу-выводу.



Увы, объективно не исключён отказ одиночного компонента. В таком случае производительность на какое-то время просядет: необходимо, чтобы перестроились пути и возобновился доступ по операциям ввода-вывода относительно тех блоков, которые либо пришли на запись, но ещё не были записаны, либо были запрошены на чтение. У OceanStor Dorado 18000 V6 средний тайминг перестроения составляет примерно одну секунду значительно меньше, чем у ближайшего аналога в индустрии (4 с). Достигается это благодаря всё тому же пассивному бекплейну: когда контроллер выходит из строя, остальные сразу видят его ввод-вывод, и в частности какой блок данных не был дозаписан; в итоге ближайший контроллер подхватывает процесс. Отсюда и возможность восстановить производительность буквально за секунду. Надо добавить, интервал стабилен: секунда на один контроллер, секунда на другой и т. д.



В пассивном бекплейне OceanStor Dorado 18000 V6 все платы доступны всем контроллерам без какой-либо дополнительной адресации. А значит, любой контроллер способен подхватить ввод-вывод по любому порту. В какой бы фронтенд-порт ни пришёл ввод-вывод, контроллер готов будет его отработать. Отсюда минимальное число внутренних пересылок и заметное упрощение балансировки.

Балансировка по фронтенду выполняется с помощью драйвера multipathing, и дополнительно осуществляется балансировка внутри самой системы, благо все контроллеры видят все порты ввода-вывода.



Традиционно все массивы Huawei выполнены таким образом, что не имеют единой точки отказа. Замене на горячую, без перезагрузки системы, поддаются все её компоненты: контроллеры, модули питания, модули охлаждения, платы ввода-вывода и пр.



Повышает надёжность системы в целом и такая технология, как RAID-TP. Это название RAID-группы, которая позволяет подстраховаться на случай одновременного выхода из строя до трёх накопителей. Причём ребилд на 1 Тбайт стабильно занимает менее 30 минут. Лучший из зафиксированных результатов в восемь раз быстрее, чем с тем же объёмом данных на шпиндельном накопителе. Таким образом, есть возможность использовать чрезвычайно ёмкие накопители, допустим на 7,68 или даже 15 Тбайт, и не беспокоиться о надёжности системы.

Важно, что ребилд осуществляется не в spare drive, а в spare space резервную ёмкость. В каждом накопителе выделено место, используемое для восстановления данных после отказа. Таким образом, восстановление производится не по схеме много в один, а по схеме много во много, благодаря чему и удаётся заметно ускорить процесс. И до тех пор пока имеется свободная ёмкость, восстановление можно продолжать.



Отдельно следует упомянуть о надёжности решения из нескольких хранилищ в metro-кластере, или, в терминологии Huawei, HyperMetro. Такие схемы поддерживаются на всём модельном ряду наших систем хранения данных и допускают работу и с файловым, и с блочным доступом. Причём на блочном функционирует как по Fibre Channel, так и по Ethernet (в том числе по iSCSI).

В сущности, речь идёт о двунаправленной репликации с одной СХД на другую, при которой реплицированному LUN придан тот же LUN-ID, что и основному. Работает технология прежде всего благодаря консистентности кэшей с двух разных систем. Таким образом, для хоста абсолютно всё равно, с какой стороны он находится: и здесь и там он видит один и тот же логический диск. Как следствие, ничто не мешает развернуть кластер отказоустойчивости, растянутый на две площадки.

Для кворума же используется физическая или виртуальная Linux-машина. Расположена та может быть на третьей площадке, и требования к её ресурсам невелики. Распространённый сценарий арендовать виртуальную площадку исключительно под размещение кворумной VM.

Технология допускает и расширение: два хранилища в metro-кластере, дополнительная площадка с асинхронной репликацией.



Исторически у многих заказчиков формируется зоопарк хранения: куча СХД от разных производителей, разных моделей, разных поколений, с разной функциональностью. Вместе с тем число хостов бывает внушительным, и зачастую они виртуализованы. В подобных условиях одна из приоритетных задач администрирования быстро, единообразно и с удобством предоставлять логические диски для хостов, желательно так, чтобы не вникать в то, где эти диски находятся физически. Для того-то и предназначено наше программное решение OceanStor DJ, которое умеет унифицированно управлять различными системами хранения данных и предоставлять с них сервисы без привязки к конкретной модели хранилища.



Те же и ИИ


Как уже было сказано, в OceanStor Dorado 18000 V6 встроены процессоры с алгоритмами искусственного интеллекта Ascend. Задействуются они, во-первых, для прогнозирования отказов, а во-вторых, для формирования рекомендаций по настройке, что также увеличивает производительность и надёжность хранилища.

Горизонт предсказаний два месяца: ИИ-машинерия предполагает, что с высокой вероятностью произойдёт за это время, не пора ли будет делать расширение, менять политики доступа и т. д. Выдаются рекомендации заранее, что позволяет загодя намечать окна по обслуживанию системы.



Следующий этап развития ИИ от Huawei предполагает его вывод на глобальный уровень. В ходе сервисного обслуживания отработки отказов или рекомендаций Huawei агрегирует сведения из систем логирования со всех хранилищ наших клиентов. На основании собранного производится анализ произошедших или потенциально возможных сбоев и выносятся глобальные рекомендации исходя не из функционирования одной конкретной СХД или даже десятка, а из того, что происходит и происходило с тысячами таких устройств. Выборка огромна, и с опорой на неё алгоритмы ИИ начинают обучаться крайне быстро, отчего точность предсказаний ощутимо растёт.

Совместимость





В 20192020 годах было много инсинуаций по поводу взаимодействия нашего оборудования с продуктами VMware. Чтобы окончательно пресечь их, ответственно заявляем: VMware партнёр Huawei. Были проведены все мыслимые тесты на совместимость нашего железа с её ПО, и в итоге на сайте VMware в листе hardware compatibility указаны доступные на сегодняшний день СХД нашего производства без каких-либо оговорок. Иначе говоря, с программной средой VMware можно использовать хранилища Huawei, включая Dorado V6, с полноценной поддержкой.



То же касается нашего сотрудничества с Brocade. Мы продолжаем взаимодействовать и проводить тесты на совместимость нашей продукции и по их результатам с полной уверенностью утверждаем, что наши системы хранения данных полностью совместимы с новейшими FC-коммутаторами Brocade.



Что дальше?


Мы продолжаем развивать совершенствовать свои процессоры: они становятся быстрее, надёжнее, растёт их производительность. Улучшаем и чипы ИИ на их базе в том числе выпускаются модули, которые ускоряют дедупликацию и компрессию. Те, кто имеет доступ к нашему конфигуратору, могли заметить, что в моделях Dorado V6 эти карты уже доступны к заказу.

Также мы движемся в сторону дополнительного кэширования на Storage Class Memory энергонезависимой памяти с особо низкими задержками, порядка десяти микросекунд на чтение. Помимо всего прочего, SCM даёт прирост производительности, прежде всего при работе с big data и при решении OLTP-задач. После ближайшего апдейта SCM-карты должны стать доступны для заказа.

И конечно, функциональность файлового доступа будет расширяться на всём модельном ряду хранилищ данных Huawei следите за нашими обновлениями.
Источник: habr.com
К списку статей
Опубликовано: 21.10.2020 14:12:03
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Блог компании huawei

It-инфраструктура

Сетевое оборудование

Хранение данных

Huawei enterprise

Oceanstor

Oceanstor dorado 18000 v6

Системы хранения данных

Flashlink

Nvme

Smartmatrix

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru