Русский
Русский
English
Статистика
Реклама

Huawei enterprise

Huawei DCN. Сети ЦОД на основе намерений новые решения по управлению сетями

14.07.2020 14:04:30 | Автор: admin
Постоянное усложнение сетевой инфраструктуры современных ЦОДов ведёт к лавинообразному росту количества параметров, которые нужно контролировать ради оптимальных производительности и надёжности. Повысить уровень информированности администраторов о происходящих в сети процессах и помочь быстро выявлять зарождающиеся проблемы призвана концепция Huawei, воплотившаяся в решениях типа Intent-Driven Network: они предназначены для создания саморегулирующихся и самоуправляемых сетей, отвечающих принципу от автоматизации к автономности.



Сегодня мы без привязки к конкретным моделям сетевого оборудования расскажем, как принцип от автоматизации к автономности воплощается в новых возможностях продукта FabricInsight. Ведь за последнее время не только состав его изменился, но и появились многочисленные новые сценарии, позволяющие определить текущее состояние сети и предсказать возможные проблемы в ней.



Четыре этапа развития ЦОДа


Определяя вектор развития сетей центров обработки данных, нетрудно заметить, как традиционные архитектуры ЦОДов постепенно пали под натиском систем виртуализации, затем пережили массовую миграцию ресурсов и сервисов в облака, а теперь вплотную подошли к широкому внедрению систем искусственного интеллекта и скоростных интерфейсов 400 Гбит/с. Возможности ИИ необходимы для построения сетей Ethernet без потерь и создания приложений, полностью невосприимчивых к задержкам.

Ещё одна сфера применения ИИ анализ и мониторинг работы ЦОДа. Нам предстоит перейти от идеологии, подразумевающей функционально ограниченный мониторинг состояния неких чёрных ящиков, к концепции полностью прозрачных сетей, о которых известно всё.



В качестве основных инфраструктурных сетевых единиц для построения сетей ЦОД Huawei предлагает сейчас линейку четырёх-, восьми- и шестнадцатислотовых коммутаторов CloudEngine 16800 с аплинками 400 Гбит/с; их выпуск намечен на текущий год. Также среди новинок отметим построенные на нашей собственной элементной базе ToR-свитчи CloudEngine 6881 и 6863 с интерфейсами 10 и 25 Гбит/с соответственно.



На иллюстрации показаны модели коммутаторов из линейки CloudEngine 16800 с классической ортогональной архитектурой, которые оснащены системой охлаждения front-to-back, а также совместимые с ними линейные карты, снабжённые интерфейсами 10, 40 и 100 Гбит/с.

Из важных базовых функций CloudEngine 16800 выделим его умение работать с NSH (Network Service Header), что позволяет реализовать в ЦОДе распределённую по нескольким свитчам микросегментацию (изоляцию на уровне виртуальных машин), обеспечить широкие возможности телеметрии и проводить анализ трафика на границе сети (edge intelligence) с применением технологий искусственного интеллекта на базе AI-чипов Huawei.

По-настоящему революционной станет модель V1R19C10. Именно в ней должны быть реализованы многие давно ожидаемые функции, в том числе EVPN Multihoming без перемычки в виде M-LAG (Multi-Switch Link Aggregation) на основании первого и четвертого типов маршрутов в EVPN-роутинге VXLAN.



Знакомая архитектура и новые возможности


На схеме видна привычная ортогональная архитектура трёхуровневой фабрики Non-blocking Switching. К её первоочередным достоинствам стоит отнести оптимальное расположение плат фабрики, линейных карт, коннекторов и системы обдува, основанной на вентиляторах с переменной скоростью вращения.



Важно, что на новых моделях коммутаторов аппаратно реализован протокол BFD (Bidirectional Forwarding Detection) и есть возможность настройки VXLAN в адресном пространстве IPv6. Базовая архитектура осталась прежней и строится на процессоре, сопроцессоре и forwarding chip. Функциональность каждого из узлов представлена на схеме. Главное же изменение 2020 года переход на собственные чипы Huawei во флагманских коммутаторах, полноценно конкурирующие с аналогами от Broadcom.



Поддержка операций с Network Service Header позволяет новым коммутаторам менять дефолтные маршруты пакетов VXLAN и подключать такие сервисы, как межсетевые экраны (FW), системы обнаружения вторжений (IDS), балансировщики нагрузки (SLB) и NAT.



Вернёмся ненадолго к ранее упомянутой разделённой микросегментации. Новые ToR-коммутаторы Huawei с помощью всё тех же NSH позволяют изолировать рабочие нагрузки на уровне имён виртуальных машин. Эти машины можно дополнительно группировать на уровне подсетей, на основании номеров портов, вышестоящих протоколов и пр., таким образом формируя группы приложений.



Полный спектр телеметрических данных


Информация с устройств собирается в реальном времени с использованием нескольких основных протоколов. Задачей ERSPAN+ является сбор TCP-заголовков для последующего детального анализа TCP-потоков в ЦОДе. Дополнительные данные добываются с помощью протокола gRPC и таблицы переадресации (Flow table). Всё это собирается с Protobuf over UDP.



Основное направление развития средств O&M в Huawei переход от ручного или полуавтоматического контроля сети к полностью автоматическому, основанному на технологиях искусственного интеллекта. Всеохватная система телеметрии достаточно крупной площадки производит огромные объёмы данных, анализ которых в сжатые сроки возможен только с применением ИИ. Особенно это важно в тех ЦОДах, где сбои и простои просто недопустимы.



К превентивным мерам, призванным не допустить возникновения неполадок в работе сети, прежде всего стоит отнести мониторинг здоровья сети: контроль загрузки каналов, выявление причин потери пакетов (допустим, поиск корреляции с временем суток или периодами работы какого-либо приложения), обнаружение узких мест (capacity forecasting) и пр.

Если неполадки всё же наблюдаются, минимизировать время диагностики и восстановления помогает выдвинутый Huawei принцип 1-3-5: минута на поиск, три минуты на локализацию, пять минут на ликвидацию проблемы. Для того чтобы укладываться в эти рамки, продукты Huawei поддерживают постоянно расширяющийся список типовых неисправностей, которые определяются автоматически.



Модель V100R019C10 для небольших ЦОДов


Одним из главных нововведений в V100R019C10 стала поддержка визуализации на основе телеметрических данных во всех типах сценариев. По сути, речь идёт о наглядном отображении любых изменений в сети. Кроме того, устройство теперь умеет определять более 75 первопричин возникновения тех или иных проблем и помогает наметить действия для их устранения (запуск скриптов и пр.).

Важной новостью стало появление версии Standalone, включающей в себя как iMaster NCE, так и FabricInsight и предназначенной главным образом для дата-центров небольшого размера, не требующих нескольких серверов для управления сетью.



Изменения в системе лицензирования


Для лучшего понимания функциональных особенностей FabricInsight следует пояснить, какие изменения произошли в бизнес-модели распространения сетевых продуктов Huawei. Если количество коммутаторов не достигает сотни, такой вариант классифицируется как standalone edition и подразумевает наличие лицензии N1. Кластер из трёх и более серверов уже поставляется в комплекте с платформой аналитики больших данных. Решение Advanced solution, включающее в себя несколько сотен свитчей, рекомендуется использовать совместно с инструментарием для анализа сетевых потоков. Все три варианта допускают использование возможностей FabricInsight при наличии лицензии N1.



Любая лицензия подразумевает применение всего набора телеметрических инструментов и сценариев 1-3-5, за исключением средств анализа TCP-потоков, доступных только в Advanced solution.



Осталось рассказать о конфигурациях серверов, предназначенных для решений Standard и Advanced solution. На сегодняшний день standalone node (один узел) доступен только на сервере Taishan 200. Для работы кластера из трёх узлов необходимо 16 или более вычислительных ядер, 128 Гбайт оперативной памяти и т. д. (см. схему). Объём дата-диска напрямую зависит от того, как долго должна храниться статистика.



KPI-мониторинг


Чуть подробнее остановимся на KPI-мониторинге. Для его применения достаточно задать временной интервал и конкретные пороговые значения, достижение которых будет проверяться на основании полученных телеметрических данных. Доступно много типов метрик, среди которых:

  • использование ЦПУ и памяти;
  • использование FIB / MAC;
  • использование троичной ассоциативной памяти (TCAM) чипа;
  • параметры портов;
  • размер буфера для очереди;
  • разные метрики AI Fabric;
  • уровень сигнала, температура и другие параметры работы оптического модуля;
  • потеря пакетов.




Предварительная проверка


Инструмент предварительной проверки также оперирует данными, получаемыми с помощью телеметрии. CT scanner позволяет понять, происходили ли в сети те или иные нежелательные события. Часть метрик совпадает с метриками KPI-мониторинга фабрики (главным образом касающиеся ёмкости и производительности). Остальные основываются на результатах анализа верхнего уровня (VXLAN, BGP и др.) и анализа конфигурации. После запуска CT scanner собирает необходимые сведения и формирует исчерпывающий отчёт о состоянии сети.



Выполнять подобные проверки необходимо регулярно, заранее определив интервалы времени между ними. Так легче вовремя заметить возникающие в сети тренды, включающие как периодические, так и непериодические изменения. Это позволяет гораздо полнее и оперативнее понимать, что именно происходит. Притом какой-либо параметр, представляющий особый интерес, можно выбрать для более детального мониторинга.



Неполадки устройств


Мониторинг позволяет выявлять самые разнообразные проблемы, возникающие на уровне устройств. В рассматриваемом случае объектом проверки является свитч, 36 регистрируемых параметров работы которого дают возможность обнаруживать 29 типов неисправностей.

В таблице на схеме перечислены виды неисправностей; модели коммутаторов, позволяющих FabricInsight обнаружить проблему; используемые FabricInsight функции; автоматические действия, предпринимаемые при обнаружении неполадок (предупреждения, рекомендации, запуск скрипта).



Допустим, у устройства зафиксирована нехватка ресурсов, ведущая к падению уровня сервиса. Данные из системного журнала, объединённые с данными телеметрии FIB-ресурсов, позволяют оперативно оценить ситуацию в режиме ручной проверки.



Возникновение петли на уровне оборудования просто невозможно, так как устройство не позволит внести подобную ошибку в конфигурацию. Однако петля может возникнуть, например, на втором уровне (на уровне виртуальной машины) из-за неправильно настроенного программного свитча, как на представленной выше схеме. С помощью FabricInsight можно не только обнаружить неполадку, но и изолировать нужный участок сети, чтобы исключить его влияние на функционирование всей фабрики.



Неполадки сети


Посредством FabricInsight с опорой на 18 доступных для анализа метрик удаётся выявлять 10 типов сетевых неполадок. На схеме приведён их полный перечень, а также как и в случае с неполадками устройств модели коммутаторов, позволяющих FabricInsight обнаружить проблему, используемые функции и доступные автоматические действия.



Допустим, деградация или неисправность оптического модуля приводит к ухудшению его работы: линк становится нестабильным. Такие ситуации возникают нерегулярно, и их трудно воспроизвести. Из-за этого обнаружение проблемы может занять много времени. Средства FabricInsight дают возможность сразу заметить падение уровня сигнала или изменение напряжения на модуле.



Средствами сетевой диагностики FabricInsight можно своевременно выявить и проблемы с буфером, часто возникающие в системах с большим количеством серверов, которые отведены под обработку big data. Традиционная NMS (Network Management System) проверяет связанные с буфером параметры каждые пять минут. Возможности телеметрии FabricInsight позволяют уменьшить эти интервалы вплоть до 100 мс и выявить даже самые короткие микроинциденты.



Неполадки на уровне протоколов


Здесь FabricInsight умеет определять шесть типов неполадок, включая конфликт двух мастер-свитчей в M-LAG; проблемы взаимодействия соседних коммутаторов и пр. Эта функциональность доступна при использовании коммутаторов V200R005C00 и более новых.



Рассмотрим конфликт мастер-свитчей. При всех достоинствах технологии M-LAG в случае обрыва линка и неисправности одноранговой сети в системе появляются два мастер-свитча. FabricInsight умеет проактивно реагировать на подобную ситуацию благодаря постоянному контролю состояния peer-линка и DFS.



Неполадки оверлейной сети


Семь типов неполадок оверлейной сети могут быть выявлены благодаря контролю десяти различных метрик. FabricInsight умеет проверять статус лицензии VXLAN, находить ошибки в конфигурациях, определять падение sub-интерфейса и т. д. Опции реагирования аналогичны описанным ранее.



Неполадки сервисов


Для выявления шести типов неполадок на уровне сервисов используется контроль семи метрик. Обнаружению поддаются конфликты IP-адресов, проблемы с установлением соединения, флуд-атака TCP SYN и др. Обратим внимание на то, что для поддержки этих возможностей FabricInsight может понадобиться наличие анализатора TCP-потоков.

При более широком взгляде на вопросы поиска неполадок видно, что FabricInsight это не просто средство сбора данных с устройства, но и расширяемая библиотека сценариев, нацеленных на решение проблем самых разных типов.



От автоматизации к автономности


В качестве резюме скажем, что в основе идеологии Intent-Driven Network лежит трёхступенчатая модель реагирования, которая включает в себя сбор информации, её анализ с привлечением средств ИИ и предложения по изменению состояния сети, в том числе в автоматическом режиме.

***


Напоминаем о том, что наши эксперты регулярно проводят вебинары по продуктам Huawei и по технологиям, которые в них используются. Список вебинаров на ближайшие недели доступен по ссылке.
Подробнее..

Что нового в линейке высокопроизводительных маршрутизаторов NetEngine

08.09.2020 14:23:50 | Автор: admin
Настало время раскрыть подробности о новых маршрутизаторах операторского класса Huawei NetEngine 8000 об аппаратной базе и программных решениях, которые позволяют строить на их базе сквозные подключения end-to-end с пропускной способностью 400 Гбит/с и отслеживать качество сетевых сервисов на субсекундном уровне.





От чего зависит, какие технологии нужны для сетевых решений


Требования к новейшему сетевому оборудованию сейчас определяются четырьмя опорными трендами:

  • распространением широкополосной мобильной связи 5G;
  • ростом облачных нагрузок как в приватных, так и в публичных ЦОДах;
  • расширением мира IoT;
  • увеличением востребованности искусственного интеллекта.


Во время пандемии возникла ещё одна общая тенденция: более привлекательными становятся сценарии с уменьшенным насколько возможно физическим присутствием в пользу виртуального. Сюда среди прочего относятся сервисы виртуальной и дополненной реальности, а также решения на базе сетей Wi-Fi 6. Все эти сферы применения требуют высокого качества канала. Обеспечить его и призван NetEngine 8000.



Семейство NetEngine 8000


Устройства, входящие в семейство NetEngine 8000, разделены на три основные серии. Маркированные литерой X это высокопроизводительные флагманские модели для операторов связи или под высоконагруженные ЦОДы. Серия M рассчитана на воплощение различных metro-сценариев. А устройства с индексом F предназначены прежде всего для реализации распространённых DCI-сценариев (Data Center Interconnect). Большинство из восьмитысячников могут быть частью туннелей end-to-end с пропускной способностью 400 Гбит/с и поддерживать гарантированный уровень услуги (Service Level Agreement SLA).



Факт: сегодня только Huawei производит полный спектр оборудования для организации сетей класса 400GE. На иллюстрации выше показан сценарий построения сети для крупного enterprise-заказчика или большого оператора. В последнем случае используются высокопроизводительные маршрутизаторы ядра NetEngine 9000, а также новые маршрутизаторы NetEngine 8000 F2A, способные агрегировать большое количество подключений 100, 200 или 400 Гбит/с.

Metro-фабрики реализуются на базе устройств серии М. Подобные решения позволяют без смены платформы адаптироваться к тому десятикратному росту объёма трафика, который ожидается в течение ближайшей декады.



Huawei самостоятельно производит оптические модули с пропускной способностью 400 Гбит/с. Построенные на них решения на 1015% дешевле аналогичных по ёмкости, но использующих 100-гигабитные каналы. Тестирование модулей началось ещё в 2017 году, а уже в 2019-м состоялось первое внедрение оборудования на их основе; сейчас африканский оператор связи Safaricom ведёт коммерческую эксплуатацию такой системы.



Огромная пропускная способность NetEngine 8000, которая, возможно, в 2020 году кажется избыточной, обязательно понадобится уже в не самом отдалённом будущем. Кроме того, маршрутизатор подходит для использования в качестве крупной точки обмена, какая наверняка пригодится как операторам второго уровня, так и крупным enterprise-структурам в фазе бурного роста и создателям решений для электронного правительства.



Также Huawei способствует распространению целого ряда новых технологий, среди которых протокол маршрутизации SRv6, заметно упрощающий доставку операторского VPN-трафика. Технология FlexE (Flexible Ethernet) обеспечивает гарантированную пропускную способность на втором уровне модели OSI, а iFIT (In-situ Flow Information Telemetry) позволяет точно отслеживать параметры выполнения условий SLA.



С точки зрения провайдера, SRv6 можно применять от уровня контейнера в ЦОДе, построенном на NFV (Network Functions Virtualization), до, например, беспроводной среды широкополосного доступа. Корпоративным заказчикам сквозное использование нового протокола понадобится при построении магистральных (опорных) сетей. Технология, подчеркнём, не проприетарная и используется разными вендорами, что устраняет риски возникновения несовместимости.



Так выглядит таймлайн коммерциализации технологии SRv6 для поддержки 5G-решений. Практический кейс: арабская компания Zain Group в процессе перехода к использованию 5G модернизировала свою сеть, увеличив пропускную способность магистральных каналов, а также улучшила управляемость инфраструктуры за счёт внедрения SRv6.



Как применять эти технологии


В качестве технологического зонтика, покрывающего вышеперечисленные решения, ранее использовалось три разнородных продукта. U2000 применялся в качестве NMS для transmission-домена и IP-домена. Дополнительно в SDN-системах задействовались системы uTraffic и гораздо более известная Agile Controller. Однако подобная комбинация оказалась не очень удобной применительно к маршрутизаторам операторского класса, поэтому теперь эти продукты объединены в инструмент CloudSoP.



Прежде всего он позволяет полностью управлять жизненным циклом инфраструктуры, начиная с построения сети оптической или IP. На него же возложено управление ресурсами, как стандартными (MPLS), так и новыми (SRv6). Наконец, CloudSoP даёт возможность полноценно обслуживать все сервисы с высоким уровнем гранулярности.



Давайте подробнее остановимся на классическом подходе к управлению. В таком случае оно может осуществляться с помощью L3VPN или SR-TE, что даёт дополнительные возможности создания туннелей. Для того чтобы распределить ресурсы под различные сервисные задачи, используется более сотни параметров и сегментная маршрутизация.



Как выглядит развёртывание такого сервиса? Сперва нужно задать первичную политику для конкретного уровня (плоскости). На схеме выше выбрана технология SRv6, с помощью которой настраивается доставка трафика из точки А в точку Е. Система рассчитает возможные пути с учётом пропускной способности и задержек, а также создаёт параметры для последующего контроля.



Провели настройку приступаем к созданию и запуску в эксплуатацию дополнительных VPN-сервисов. Серьёзное преимущество решения Huawei в том, что, в отличие от стандартного MPLS Traffic Engineering, оно позволяет синхронизировать пути туннелей без каких-либо дополнительных надстроек.



На схеме выше показан общий процесс снятия информации. Часто для него применяется SNMP, что занимает немало времени, причём даёт усреднённый результат. Однако телеметрия, которую мы прежде использовали в ЦОДах и кампусных решениях, пришла в мир операторских магистральных сетей. Она добавляет нагрузку, зато позволяет понимать происходящее в сети не на минутном, а на субсекундном уровне.



Конечно, полученный объём трафика надо каким-то образом переварить. Для этого используется дополнительная технология машинного обучения. На основании предварительно загруженных паттернов самых распространённых сетевых неисправностей система контроля способна делать прогнозы по вероятностям возникновения эксцессов. Например, поломки модуля SFP (Small Form-factor Pluggable) или внезапного всплеска трафика в сети.



А так выглядит горизонтально масштабируемая (scale-out) система управления на основе ARM-серверов TaiShan и базы данных GaussDB. У отдельных нод аналитической системы есть понятие роли, что позволяет гранулярно расширять диагностические сервисы при росте трафика или увеличении числа узлов сети.
Иными словами, всё, что было хорошего в мире СХД, постепенно приходит в область управления сетями.


Яркий пример внедрения наших новых технологий Промышленный и коммерческий банк Китая (ICBC). В нём развёрнута опорная сеть высокопроизводительных маршрутизаторов, которым присвоены определённые роли. Согласно NDA, мы вправе дать на схеме только общее представление о структуре сети. В неё входят три больших ЦОДа, связанных туннелями end-to-end, и 35 дополнительных площадок (ЦОДы второго уровня). Используются как стандартные подключения, так и SR-TE.



Трёхслойная интеллектуальная архитектура IP WAN


В основе решений Huawei лежит трёхслойная архитектура, на нижнем уровне которой располагается оборудование различной производительности. На втором уровне среда управления оборудованием и дополнительные сервисы, расширяющие функциональность анализа и контроля сети. Верхний слой, условно говоря, прикладной. Наиболее распространённые прикладные сценарии подразумевают организацию работы сетей операторов связи, финансовых учреждений, энергетических компаний и правительственных структур.

Вот короткое видео, рассказывающее о возможностях NetEngine 8000 и использованных в нём технических решениях:


Само собой, оборудование должно быть рассчитано на рост трафика и расширение инфраструктуры с учётом правильного питания и подобающего охлаждения. Когда флагманская модель маршрутизатора оснащена 20 БП по 3 кВт каждый, применение углеродных нанотрубок в системе теплоотведения уже не кажется избыточным.



Ради чего всё это? Звучит как фантастика, но уже сейчас для нас 14,4 Тбит/с на слот показатель вполне достижимый. И эта умопомрачительная пропускная способность востребована. В частности, всё теми же финансовыми и энергетическими компаниями, многие из которых располагают сегодня опорными сетями, созданными с применением технологии DWDM (Dense Wavelength Division Multiplexing). В конце концов, растёт и количество приложений, требующих всё более высоких скоростей.

В одном из наших сценариев построения сетей машинного обучения между двумя кластерами Atlas 900 также требуется пропускная способность терабитного класса. И подобных задач масса. К ним, в частности, относятся ядерные вычисления, метеорологические расчёты и пр.





Аппаратная основа и её требования


На схемах показаны доступные в настоящее время модули маршрутизаторов LPUI с интегрированными картами и их характеристики.



А так выглядит roadmap с новыми вариантами модулей, которые будут доступны в течение ближайших двух лет. При разработке решений на их основе важно учитывать энергопотребление. Сейчас стандартные ЦОДы строятся из расчёта 710 кВт на стойку, в то время как применение маршрутизаторов терабитного класса подразумевает потребляемую мощность в несколько раз выше (до 3040 уВт в пике). Это влечёт за собой необходимость проектировать специализированную площадку или создавать в имеющемся ЦОДе отдельную высоконагруженную зону.



Общий взгляд на шасси показывает, что фабрики скрываются за средним блоком вентиляторов. Есть возможность их горячей замены, реализованная благодаря резервированию по схеме 2N или N+1. По сути, речь идёт о стандартной ортогональной архитектуре высокой надёжности.



Не одни только флагманы


Как бы ни впечатляли флагманские модели, больше всего инсталляций приходится на box-решения серий М и F.

Наиболее востребованные сейчас сервисные маршрутизаторы модели M8 и M14. Они позволяют в рамках одной платформы работать и с низкоскоростными, таким как E1, и с высокоскоростными интерфейсами (100 Гбит/с сейчас и 400 Гбит/с в ближайшем будущем).



Производительности M14 вполне достаточно, чтобы удовлетворить все запросы обычных enterprise-заказчиков. С помощью него можно строить стандартные решения L3VPN для связи с провайдерами, хорош он и в качестве дополнительного инструмента, например, для сбора телеметрии или применения SRv6.



Для модели доступно большое количество карт. Здесь нет отдельных фабрик, а для обеспечения связанности используются супервизоры. Таким образом достигается указанное на схеме распределение производительности по портам.



В дальнейшем супервизор можно будет заменить на новый, что даст и новую производительность на тех же самых портах.



Модель M8 несколько меньше M14, в производительность также уступает старшей модели, но сценарии использования у них очень похожи.



Набор совместимых с M8 физических карт позволяет, к примеру, настроить подключение к P-устройствам по интерфейсу 100 Гбит/с, использовать технологию FlexE и всё это зашифровать.



По большому счёту, именно с устройства M6 можно начинать работу с операторской средой. Оно небольшое и не подходит для провайдеров, но с лёгкостью применимо как точка агрегации трафика для подключения региональных ЦОДов, допустим в банке. Притом набор ПО здесь такой же, как и на старших моделях.



Доступных карт для M6 поменьше, а максимальная производительность составляет 50 Гбит/с, что, впрочем, заметно выше, чем у стандартных решений в индустрии на 40 Гбит/с.



Отдельного упоминания заслуживает и самая младшая модель M1A. Это небольшое решение, которое может оказаться кстати там, где ожидается расширенный температурный диапазон эксплуатации (-40 +65 С).




Несколько слов о линейке F. Модель NetEngine 8000 F1A стала одним из самых популярных продуктов Huawei в 2019 году, не в последнюю очередь благодаря тому, что оснащена портами с пропускной способностью от 1 до 100 Гбит/с (до 1,2 Тбит/с суммарно).



Подробнее о SRv6


Для чего же именно сейчас потребовалось включить в наши продукты поддержку технологии SRv6?

В настоящее время количество протоколов, необходимых для организации VPN-туннелей, может составлять 10+, что вызывает серьёзные проблемы с управлением и наводит на мысли о необходимости радикально упростить процесс.



Ответом индустрии на этот вызов и стало создание технологии SRv6, к появлению которой приложили руку компании Huawei и Cisco.



Одним из ограничений, которые необходимо было снять, являлась необходимость использовать для маршрутизации стандартных пакетов принцип per-hop behavior (PHB). Наладить межоператорское взаимодействие посредством Inter-AS MP-BGP с дополнительными сервисами (VPNv4) достаточно сложно, поэтому таких решений очень мало. SRv6 позволяет изначально проложить путь пакета через весь сегмент, не прописывая специальных туннелей. Да и программирование самих процессов упрощается, что значительно облегчает крупные развёртывания.



На схеме представлен кейс по внедрению SRv6. Две глобальные сети были объединены несколькими разными протоколами. Чтобы получить сервис от какого-либо виртуального или аппаратного сервера, требовалось большое количество переключений (handover) между VXLAN, VLAN, L3VPN и пр.
После внедрения SRv6 оператор располагал туннелем end-to-end даже не до аппаратного сервера, а до Docker-контейнера.


Подробнее о технологии FlexE


Второй уровень модели OSI плох тем, что он не предоставляет те необходимые сервисы и тот уровень SLA, в которых нуждаются провайдеры. Они, в свою очередь, хотели бы получить некий аналог TDM (Time-division multiplexing), но на Ethernet. Для решения проблемы применялось множество подходов, позволявших добиться лишь очень ограниченных результатов.



Flex Ethernet служит именно для того, чтобы гарантировать качество уровня SDH (Synchronous Digital Hierarchy) и TDM в IP-сетях. Это стало возможным благодаря работе с forwarding plane, когда мы таким образом модифицируем L2-среду, чтобы она становилась максимально производительной.



Как работает любой стандартный физический порт? Имеется определённое количество очередей и tx-кольцо. Попавший в буфер пакет ждёт своей обработки, что не всегда удобно, особенно при наличии elephant- и mice-потоков.

Обеспечить гарантированную пропускную способность на уровне физической среды помогают дополнительные вставки и ещё один слой абстракции.



Дополнительный MAC-слой выделяется на уровне передачи информации, что позволяет создать жёсткие физические очереди, которым можно назначать определённые SLA.



Так это выглядит на уровне внедрения. В дополнительном слое фактически реализован TDM-фрейминг. Благодаря такой метавставке есть возможность гранулярно раздавать очереди и формировать TDM-услуги через Ethernet.



Один из сценариев использования FlexE подразумевает очень жёсткое следование SLA путём формирования тайм-слотов для выравнивания пропускной способности или предоставления ресурсов для критических сервисов.



Ещё один сценарий позволяет работать с дефектами. Вместо простого хеширования передачи информации мы формируем отдельные каналы практически на физическом уровне, в отличие от виртуальных, создаваемых QoS (Quality of Service).



Подробнее об iFIT


Как и FlexE, iFIT является лицензируемой технологией Huawei. Она позволяет проводить проверку SLA на очень гранулярном уровне. В отличие от стандартных механизмов IP SLA и NQA, iFIT оперирует не синтетическим, а живым трафиком.



Доступна iFIT на всех устройствах, которые поддерживают телеметрию. Для этого используется дополнительное поле, не занятое стандартными Option Data. Туда записывается информация, которая позволяет понять происходящее в канале.

***


Резюмируя сказанное, подчеркнём, что функциональность NetEngine 8000 и заложенных в восьмитысячные технологий делают эти устройства разумным и оправданным выбором при создании и развитии сетей операторского класса, опорных сетей энергетических и финансовых компаний, а также систем уровня электронного правительства.
Подробнее..

Промышленные тенденции в области массовых систем хранения данных

07.10.2020 16:09:34 | Автор: admin
Сегодня поговорим о том, как лучше хранить данные в мире, где сети пятого поколения, сканеры геномов и беспилотные автомобили производят за день больше данных, чем всё человечество породило в период до промышленной революции.




Наш мир генерирует всё больше информации. Какая-то её часть мимолётна и утрачивается так же быстро, как и собирается. Другая должна храниться дольше, а иная и вовсе рассчитана на века по крайней мере, так нам видится из настоящего. Информационные потоки оседают в дата-центрах с такой скоростью, что любой новый подход, любая технология, призванные удовлетворить этот бесконечный спрос, стремительно устаревают.



40 лет развития распределённых СХД


Первые сетевые хранилища в привычном нам виде появились в 1980-х. Многие из вас сталкивались с NFS (Network File System), AFS (Andrew File System) или Coda. Спустя десятилетие мода и технологии изменились, а распределённые файловые системы уступили место кластерным СХД на основе GPFS (General Parallel File System), CFS (Clustered File Systems) и StorNext. В качестве базиса использовались блочные хранилища классической архитектуры, поверх которых с помощью программного слоя создавалась единая файловая система. Эти и подобные решения до сих пор применяются, занимают свою нишу и вполне востребованы.

На рубеже тысячелетий парадигма распределённых хранилищ несколько поменялась, и на лидирующие позиции вышли системы с архитектурой SN (Shared-Nothing). Произошёл переход от кластерного хранения к хранению на отдельных узлах, в качестве которых, как правило, выступали классические серверы с обеспечивающим надёжное хранение ПО; на таких принципах построены, скажем, HDFS (Hadoop Distributed File System) и GFS (Global File System).

Ближе к 2010-м заложенные в основу распределённых систем хранения концепции всё чаще стали находить отражение в полноценных коммерческих продуктах, таких как VMware vSAN, Dell EMC Isilon и наша Huawei OceanStor. За упомянутыми платформами стоит уже не сообщество энтузиастов, а конкретные вендоры, которые отвечают за функциональность, поддержку, сервисное обслуживание продукта и гарантируют его дальнейшее развитие. Такие решения наиболее востребованы в нескольких сферах.



Операторы связи


Пожалуй, одними из старейших потребителей распределённых систем хранения являются операторы связи. На схеме видно, какие группы приложений производят основной объём данных. OSS (Operations Support Systems), MSS (Management Support Services) и BSS (Business Support Systems) представляют собой три дополняющих друг друга программных слоя, необходимых для предоставления сервиса абонентам, финансовой отчётности провайдеру и эксплуатационной поддержки инженерам оператора.

Зачастую данные этих слоев сильно перемешаны между собой, и, чтобы избежать накопления ненужных копий, как раз и используются распределённые хранилища, которые аккумулируют весь объём информации, поступающей от работающей сети. Хранилища объединяются в общий пул, к которому и обращаются все сервисы.

Наши расчёты показывают, что переход от классических СХД к блочным позволяет сэкономить до 70% бюджета только за счёт отказа от выделенных СХД класса hi-end и использования обычных серверов классической архитектуры (обычно x86), работающих в связке со специализированным ПО. Сотовые операторы уже довольно давно начали приобретать подобные решения в серьезных объёмах. В частности, российское операторы используют такие продукты от Huawei более шести лет.

Да, ряд задач с помощью распределённых систем выполнить не получится. Например, при повышенных требованиях к производительности или к совместимости со старыми протоколами. Но не менее 70% данных, которые обрабатывает оператор, вполне можно расположить в распределённом пуле.



Банковская сфера


В любом банке соседствует множество разношёрстных IT-систем, начиная с процессинга и заканчивая автоматизированной банковской системой. Эта инфраструктура тоже работает с огромным объёмом информации, при этом большая часть задач не требует повышенной производительности и надёжности систем хранения, например разработка, тестирование, автоматизация офисных процессов и пр. Здесь применение классических СХД возможно, но с каждым годом всё менее выгодно. К тому же в этом случае отсутствует гибкость расходования ресурсов СХД, производительность которой рассчитывается из пиковой нагрузки.

При использовании распределённых систем хранения их узлы, по факту являющиеся обычными серверами, могут быть в любой момент конвертированы, например, в серверную ферму и использованы в качестве вычислительной платформы.



Озёра данных


На схеме выше приведён перечень типичных потребителей сервисов data lake. Это могут быть службы электронного правительства (допустим, Госуслуги), прошедшие цифровизацию предприятия, финансовые структуры и др. Всем им необходимо работать с большими объёмами разнородной информации.

Эксплуатация классических СХД для решения таких задач неэффективна, так как требуется и высокопроизводительный доступ к блочным базам данных, и обычный доступ к библиотекам сканированных документов, хранящихся в виде объектов. Сюда же может быть привязана, допустим, система заказов через веб-портал. Чтобы всё это реализовать на платформе классической СХД, потребуется большой комплект оборудования под разные задачи. Одна горизонтальная универсальная система хранения вполне может закрывать все ранее перечисленные задачи: понадобится лишь создать в ней несколько пулов с разными характеристиками хранения.



Генераторы новой информации


Количество хранимой в мире информации растёт примерно на 30% в год. Это хорошие новости для поставщиков систем хранения, но что же является и будет являться основным источником этих данных?

Десять лет назад такими генераторами стали социальные сети, это потребовало создания большого количества новых алгоритмов, аппаратных решений и т. д. Сейчас выделяются три главных драйвера роста объёмов хранения. Первый cloud computing. В настоящее время примерно 70% компаний так или иначе используют облачные сервисы. Это могут быть электронные почтовые системы, резервные копии и другие виртуализированные сущности.
Вторым драйвером становятся сети пятого поколения. Это новые скорости и новые объёмы передачи данных. По нашим прогнозам, широкое распространение 5G приведёт к падению спроса на карточки флеш-памяти. Сколько бы ни было памяти в телефоне, она всё равно кончается, а при наличии в гаджете 100-мегабитного канала нет никакой необходимости хранить фотографии локально.

К третьей группе причин, по которым растёт спрос на системы хранения, относятся бурное развитие искусственного интеллекта, переход на аналитику больших данных и тренд на всеобщую автоматизацию всего, чего только можно.

Особенностью нового трафика является его неструктурированность. Нам надо хранить эти данные, никак не определяя их формат. Он требуется лишь при последующем чтении. К примеру, банковская система скоринга для определения доступного размера кредита будет смотреть выложенные вами в соцсетях фотографии, определяя, часто ли вы бываете на море и в ресторанах, и одновременно изучать доступные ей выписки из ваших медицинских документов. Эти данные, с одной стороны, всеобъемлющи, а с другой лишены однородности.



Океан неструктурированных данных


Какие же проблемы влечет за собой появление новых данных? Первейшая среди них, конечно, сам объём информации и расчётные сроки её хранения. Один только современный автономный автомобиль без водителя каждый день генерирует до 60 Тбайт данных, поступающих со всех его датчиков и механизмов. Для разработки новых алгоритмов движения эту информацию необходимо обработать за те же сутки, иначе она начнёт накапливаться. При этом храниться она должна очень долго десятки лет. Только тогда в будущем можно будет делать выводы на основе больших аналитических выборок.

Одно устройство для расшифровки генетических последовательностей производит порядка 6 Тбайт в день. А собранные с его помощью данные вообще не подразумевают удаления, то есть гипотетически должны храниться вечно.

Наконец, всё те же сети пятого поколения. Помимо собственно передаваемой информации, такая сеть и сама является огромным генератором данных: журналов действий, записей звонков, промежуточных результатов межмашинных взаимодействий и пр.

Всё это требует выработки новых подходов и алгоритмов хранения и обработки информации. И такие подходы появляются.



Технологии новой эпохи


Можно выделить три группы решений, призванных справиться с новыми требованиями к системам хранения информации: внедрение искусственного интеллекта, техническая эволюция носителей данных и инновации в области системной архитектуры. Начнём с ИИ.



В новых решениях Huawei искусственный интеллект используется уже на уровне самого хранилища, которое оборудовано ИИ-процессором, позволяющим системе самостоятельно анализировать своё состояние и предсказывать отказы. Если СХД подключить к сервисному облаку, которое обладает значительными вычислительными способностями, искусственный интеллект сможет обработать больше информации и повысить точность своих гипотез.

Помимо отказов, такой ИИ умеет прогнозировать будущую пиковую нагрузку и время, остающееся до исчерпания ёмкости. Это позволяет оптимизировать производительность и масштабировать систему ещё до наступления каких-либо нежелательных событий.



Теперь об эволюции носителей данных. Первые флеш-накопители были выполнены по технологии SLC (Single-Level Cell). Основанные на ней устройства были быстрыми, надёжными, стабильными, но имели небольшую ёмкость и стоили очень дорого. Роста объёма и снижения цены удалось добиться путём определённых технических уступок, из-за которых скорость, надёжность и срок службы накопителей сократились. Тем не менее тренд не повлиял на сами СХД, которые за счёт различных архитектурных ухищрений в целом стали и более производительными, и более надёжными.

Но почему понадобились СХД класса All-Flash? Разве недостаточно было просто заменить в уже эксплуатируемой системе старые HDD на новые SSD того же форм-фактора? Потребовалось это для того, чтобы эффективно использовать все ресурсы новых твердотельных накопителей, что в старых системах было попросту невозможно.

Компания Huawei, например, для решения этой задачи разработала целый ряд технологий, одной из которых стала FlashLink, позволившая максимально оптимизировать взаимодействия диск контроллер.

Интеллектуальная идентификация дала возможность разложить данные на несколько потоков и справиться с рядом нежелательных явлений, таких как WA (write amplification). Вместе с тем новые алгоритмы восстановления, в частности RAID 2.0+, повысили скорость ребилда, сократив его время до совершенно незначительных величин.

Отказ, переполненность, сборка мусора эти факторы также больше не влияют на производительность системы хранения благодаря специальной доработке контроллеров.



А ещё блочные хранилища данных готовятся встретить NVMe. Напомним, что классическая схема организации доступа к данным работала так: процессор обращался к RAID-контроллеру по шине PCI Express. Тот, в свою очередь, взаимодействовал с механическими дисками по SCSI или SAS. Применение NVMe на бэкенде заметно ускорило весь процесс, однако несло в себе один недостаток: накопители должны были иметь непосредственное подключение к процессору, чтобы обеспечить тому прямой доступ в память.

Следующей фазой развития технологии, которую мы наблюдаем сейчас, стало применение NVMe-oF (NVMe over Fabrics). Что касается блочных технологий Huawei, они уже сейчас поддерживают FC-NVMe (NVMe over Fibre Channel), и на подходе NVMe over RoCE (RDMA over Converged Ethernet). Тестовые модели вполне функциональны, до официальной их презентации осталось несколько месяцев. Заметим, что всё это появится и в распределённых системах, где Ethernet без потерь будет весьма востребован.



Дополнительным способом оптимизации работы именно распределённых хранилищ стал полный отказ от зеркалирования данных. Решения Huawei больше не используют n копий, как в привычном RAID 1, и полностью переходят на механизм EC (Erasure coding). Специальный математический пакет с определённой периодичностью вычисляет контрольные блоки, которые позволяют восстановить промежуточные данные в случае их потери.

Механизмы дедупликации и сжатия становятся обязательными. Если в классических СХД мы ограничены количеством установленных в контроллеры процессоров, то в распределённых горизонтально масштабируемых системах хранения каждый узел содержит всё необходимое: диски, память, процессоры и интерконнект. Этих ресурсов достаточно, чтобы дедупликация и компрессия оказывали на производительность минимальное влияние.

И об аппаратных методах оптимизации. Здесь снизить нагрузку на центральные процессоры удалось с помощью дополнительных выделенных микросхем (или выделенных блоков в самом процессоре), играющих роль TOE (TCP/IP Offload Engine) или берущих на себя математические задачи EC, дедупликации и компрессии.



Новые подходы к хранению данных нашли воплощение в дезагрегированной (распределённой) архитектуре. В системах централизованного хранения имеется фабрика серверов, по Fibre Channel подключённая к SAN с большим количеством массивов. Недостатками такого подхода являются трудности с масштабированием и обеспечением гарантированного уровня услуги (по производительности или задержкам). Гиперконвергентные системы используют одни и те же хосты как для хранения, так и для обработки информации. Это даёт практически неограниченный простор масштабирования, но влечёт за собой высокие затраты на поддержание целостности данных.

В отличие от обеих вышеперечисленных, дезагрегированная архитектура подразумевает разделение системы на вычислительную фабрику и горизонтальную систему хранения. Это обеспечивает преимущества обеих архитектур и позволяет практически неограниченно масштабировать только тот элемент, производительности которого не хватает.



От интеграции к конвергенции


Классической задачей, актуальность которой последние 15 лет лишь росла, является необходимость одновременно обеспечить блочное хранение, файловый доступ, доступ к объектам, работу фермы для больших данных и т. д. Вишенкой на торте может быть ещё, например, система бэкапа на магнитную ленту.

На первом этапе унифицировать удавалось только управление этими услугами. Разнородные системы хранения данных замыкались на какое-либо специализированное ПО, посредством которого администратор распределял ресурсы из доступных пулов. Но так как аппаратно эти пулы были разными, миграция нагрузки между ними была невозможна. На более высоком уровне интеграции объединение происходило на уровне шлюза. При наличии общего файлового доступа его можно было отдавать через разные протоколы.

Самый совершенный из доступных нам сейчас методов конвергенции подразумевает создание универсальной гибридной системы. Именно такой, какой должна стать наша OceanStor 100D. Универсальный доступ использует те же самые аппаратные ресурсы, логически разделённые на разные пулы, но допускающие миграцию нагрузки. Всё это можно сделать через единую консоль управления. Таким способом нам удалось реализовать концепцию один ЦОД одна СХД.



Стоимость хранения информации сейчас определяет многие архитектурные решения. И хотя её можно смело ставить во главу угла, мы сегодня обсуждаем живое хранение с активным доступом, так что производительность тоже необходимо учитывать. Ещё одним важным свойством распределённых систем следующего поколения является унификация. Ведь никто не хочет иметь несколько разрозненных систем, управляемых из разных консолей. Все эти качества нашли воплощение в новой серии продуктов Huawei OceanStor Pacific.

Массовая СХД нового поколения


OceanStor Pacific отвечает требованиям надёжности на уровне шести девяток (99,9999%) и может использоваться для создания ЦОД класса HyperMetro. При расстоянии между двумя дата-центрами до 100 км системы демонстрируют добавочную задержку на уровне 2 мс, что позволяет строить на их основе любые катастрофоустойчивые решения, в том числе и с кворум-серверами.



Продукты новой серии демонстрируют универсальность по протоколам. Уже сейчас OceanStor 100D поддерживает блочный доступ, объектовый доступ и доступ Hadoop. В ближайшее время будет реализован и файловый доступ. Нет нужды хранить несколько копий данных, если их можно выдавать через разные протоколы.



Казалось бы, какое отношение концепция сеть без потерь имеет к СХД? Дело в том, что распределённые системы хранения данных строятся на основе быстрой сети, поддерживающей соответствующие алгоритмы и механизм RoCE. Дополнительно увеличить скорость сети и снизить задержки помогает поддерживаемая нашими коммутаторами система искусственного интеллекта AI Fabric. Выигрыш производительности СХД при активации AI Fabric может достигать 20%.



Что же представляет собой новый узел распределённой СХД OceanStor Pacific? Решение форм-фактора 5U включает в себя 120 накопителей и может заменить три классических узла, что даёт более чем двукратную экономию места в стойке. За счёт отказа от хранения копий КПД накопителей ощутимо возрастает (до +92%).

Мы привыкли к тому, что программно-определяемая СХД это специальное ПО, устанавливаемое на классический сервер. Но теперь для достижения оптимальных параметров это архитектурное решение требует и специальных узлов. В его состав входят два сервера на базе ARM-процессоров, управляющие массивом трёхдюймовых накопителей.



Эти серверы мало подходят для гиперконвергентных решений. Во-первых, приложений для ARM достаточно мало, а во-вторых, трудно соблюсти баланс нагрузки. Мы предлагаем перейти к раздельному хранению: вычислительный кластер, представленный классическими или rack-серверами, функционирует отдельно, но подключается к узлам хранения OceanStor Pacific, которые также выполняют свои прямые задачи. И это себя оправдывает.

Для примера возьмём классическое решение для хранения больших данных с гиперконвергентной системой, занимающее 15 серверных стоек. Если распределить нагрузку между отдельными вычислительными серверами и узлами СХД OceanStor Pacific, отделив их друг от друга, количество необходимых стоек сократится в два раза! Это снижает затраты на эксплуатацию дата-центра и уменьшает совокупную стоимость владения. В мире, где объём хранимой информации растет на 30% в год, подобными преимуществами не разбрасываются.

***


Больше информации о решениях Huawei и сценариях их применения вы можете получить на нашем сайте или обратившись непосредственно к представителям компании.
Подробнее..

Huawei OceanStor Dorado 18000 V6 в чём её хай-эндовость

21.10.2020 14:12:03 | Автор: admin
Обстоятельно аргументируем, что делает OceanStor Dorado 18000 V6 по-настоящему хай-эндовой системой хранения данных с порядочным заделом на ближайшие годы. Заодно развеиваем распространённые опасения относительно All-Flash-хранилищ и показываем, за счёт чего Huawei выжимает из них максимум: end-to-end NVMe, дополнительное кэширование на SCM и целая пачка других решений.




Новый ландшафт данных новое хранение данных


Интенсивность работы с данными повышается во всех отраслях. И банковская сфера тому нагляднейшая иллюстрация. За последние несколько лет число банковских транзакций увеличилось в десять с лишним раз. Как показывает исследование BCG, только в России на отрезке с 2010 по 2018 год количество безналичных транзакций с помощью пластиковых карт показало более чем тридцатикратный рост с 5,8 до 172 на одного человека в год. Дело прежде всего в триумфе микроплатежей: большинство из нас сроднилось с онлайн-банкингом, и банк у нас теперь под рукой в телефоне.

IT-инфраструктура кредитной организации должна быть готова к такому вызову. А это действительно вызов. Помимо всего прочего, если раньше банку требовалось обеспечить доступность данных лишь в свои рабочие часы, то теперь 24/7. Ещё недавно 5 мс считались приемлемой нормой задержкой, и что же? Сейчас даже 1 мс перебор. Для современной системы хранения данных целевое значение 0,5 мс.

То же самое с надёжностью: в 2010-е сформировалось эмпирическое понимание того, что достаточно довести её уровень до пяти десяток 99,999%. Правда, понимание это успело устареть. В 2020 году для бизнеса абсолютно нормально требовать 99,9999% применительно к хранилищу и 99,99999% применительно к архитектурному решению в целом. И это вовсе не блажь, а насущная необходимость: либо временного окна на обслуживание инфраструктуры нет, либо оно крохотное.



Для наглядности удобно спроецировать эти показатели на плоскость денег. Проще всего на примере финансовых организаций. На диаграмме выше указано, какую сумму в течение часа зарабатывает каждый из топ-10 мировых банков. У одного только Промышленного и коммерческого банка Китая это ни много ни мало $5 млн. Ровно во столько обойдётся часовой простой IT-инфраструктуры крупнейшей кредитной организации КНР (причём в расчёте учтена лишь упущенная выгода!). При таком ракурсе видно, что сокращение даунтайма и повышение надёжности не то что на единицы процентов даже на доли процента полностью рационально обоснованны. Не только из соображений повышения конкурентоспособности, но и попросту ради сохранения рыночных позиций.

Сопоставимые изменения происходят в других индустриях. Например, в воздушных перевозках: до пандемии авиасообщение год от года только набирало обороты, и многие стали пользоваться им почти как такси. Что касается потребительских паттернов, в обществе укоренилась привычка к тотальной доступности сервисов: по прибытии в аэропорт нам требуется подключение к Wi-Fi, доступ к платёжным сервисам, к карте местности и т. д. Как следствие, нагрузка на инфраструктуру и сервисы в публичных пространствах возросла многократно. И те подходы к её, инфраструктуры, построению, которые мы считали приемлемыми даже год назад, стремительно устаревают.



Не рано ли переходить на All-Flash?


Для решения задач, о которых было сказано выше, с точки зрения производительности AFA all-flash arrays, то есть полностью построенные на флеше массивы, подходят как нельзя лучше. Разве что до последнего времени сохранялись сомнения в том, сравнимы ли они по надёжности с собранными на основе HDD и с гибридными. В конце концов, у твердотельной флеш-памяти есть такой показатель, как средняя наработка на отказ, или MTBF (mean time between failures). Деградация ячеек вследствие операций ввода-вывода, увы, данность.

Так что перспективы All-Flash омрачал вопрос, как предотвратить гибель данных в том случае, если SSD прикажет долго жить. Резервное копирование вариант привычный, вот только время восстановления было бы неприемлемо большим исходя из современных требований. Другой выход наладить второй уровень хранения на шпиндельных накопителях, однако при такой схеме теряется часть преимуществ строго флешевой системы.

Однако цифры говорят иное: статистика гигантов digital-экономики, включая Google, за последние годы показывает, что флеш кратно надёжнее, чем жёсткие диски. Причём как на коротком промежутке времени, так и на длинном: в среднем до выхода флеш-накопителей из строя проходит четыре-шесть лет. В плане надёжности хранения данных они ничуть не уступают накопителям на шпиндельных магнитных дисках, а то и превосходят таковые.



Ещё один традиционный аргумент в пользу шпиндельных накопителей их ценовая доступность. Спору нет, стоимость хранения терабайта на жёстком диске до сих пор сравнительно невелика. И если брать в расчёт только расходы на оборудование, держать терабайт на шпиндельном накопителе дешевле, чем на твердотельном. Однако в разрезе финансового планирования имеет значение, не только почём было куплено конкретное устройство, но и какова совокупная стоимость владения им вдолгую от трёх до семи лет.

С такого угла зрения всё совсем иначе. Даже если вынести за скобки дедупликацию и компрессию, которые, как правило, применяются на флеш-массивах и делают их эксплуатацию выгоднее экономически, остаются такие характеристики, как занимаемое носителями место в стойке, тепловыделение, энергопотребление. А по ним флеш выигрывает у предшественников. В результате TCO систем хранения данных на флеше с учётом всех параметров часто бывает едва ли не вдвое ниже, чем в случае с массивами на шпиндельных накопителях или с гибридами.

Согласно отчётам агентства ESG, на All-Flash системах хранения данных Dorado V6 реально добиться снижения стоимости владения до 78% на интервале в пять лет в том числе за счёт эффективной дедупликации и компрессии и благодаря невысоким энергопотреблению и тепловыделению. Немецкая аналитическая компания DCIG также рекомендует их к использованию как оптимальные с точки зрения TCO из доступных на сегодняшний день.


Использование твердотельных накопителей даёт возможность экономить полезное пространство, снижает число отказов, сокращает время на обслуживание решения, уменьшает энергопотребление и тепловыделение СХД. И оказывается, что AFA в экономическом отношении как минимум сопоставим с традиционными массивами на шпиндельных накопителях, зачастую же превосходит их.



Роял-флеш от Huawei


Среди наших All-Flash хранилищ топовое место принадлежит hi-end-системе OceanStor Dorado 18000 V6. Да и не только среди наших: целом по индустрии она держит рекорд скорости до 20 млн IPOS в максимальной конфигурации. Кроме того, она чрезвычайно надёжна: пусть даже полетят разом два контроллера, или до семи контроллеров один за другим, или сразу целый движок данные уцелеют. Изрядные преимущества восемнадцатитысячной даёт зашитый в неё ИИ, в том числе гибкость в управления внутренними процессами. Посмотрим, за счёт чего всё это достигается.



В значительной части фора у компании Huawei имеется потому, что она единственный на рынке производитель, делающий системы хранения данных сам целиком и полностью. У нас своя схемотехника, свой микрокод, своё сервисное обслуживание.

Контроллер в системах OceanStor Dorado построен на процессоре собственной разработки и производства Huawei Kunpeng 920. В нём задействован модуль управления Intelligent Baseboard Management Controller (iBMC), тоже наш. Чипы ИИ, а именно Ascend 310, которые оптимизируют предсказания по отказам и дают рекомендации по настройкам, также хуавеевские, равно как и платы ввода-вывода модуль Smart I/O. Наконец, и контроллеры в твердотельных накопителях спроектированы и изготовлены нашими силами. Всё это дало базу для того, чтобы сделать интегрально сбалансированное и высокопроизводительное решение.



За последний год мы реализовали проект по внедрению этой, самой топовой своей СХД в одном из крупных российских банков. В результате более 40 единиц OceanStor Dorado 18000 V6 в metro-кластере показывают стабильную производительность: с каждой системы удаётся снять более миллиона IOPS, и это с учётом задержек из-за расстояния.




Сквозной NVMe


Новейшие системы хранения данных Huawei поддерживают end-to-end NVMe, на чём мы неспроста делаем акцент. Традиционно используемые протоколы доступа к накопителям были разработаны в седой айтишной древности: в фундаменте у них SCSI-команды (привет, 1980-е!), которые тянут за собой уйму функций для обеспечения обратной совместимости. Какой способ доступа ни возьми, протокольный overhead в таком случае колоссальный. В итоге у хранилищ, которые используют завязанные на SCSI протоколы, задержка ввода-вывода не может быть ниже 0,40,5 мс. В свою очередь, будучи протоколом, созданным для работы с флеш-памятью и избавленным от костылей ради пресловутой обратной совместимости, NVMe Non-Volatile Memory Express сбивает latency до 0,1 мс, притом не на СХД, а на всём стеке, от хоста до накопителей. Неудивительно, что NVMe лежит в русле трендов развития data storages на обозримое будущее. Сделали ставку на NVMe и мы и постепенно отходим от SCSI. Все производимые сегодня системы хранения данных Huawei, включая линейку Dorado, NVMe поддерживают (правда, как end-to-end он реализован только на передовых моделях серии Dorado V6).



FlashLink: пригоршня технологий


Краеугольная для всей линейки OceanStor Dorado технология FlashLink. Точнее, это термин, объединяющий интегральный набор технологий, которые служат для обеспечения высоких производительности и надёжности. Сюда входят технологии дедупликации и компрессии, функционирования системы распределения данных RAID 2.0+, разделения холодных и горячих данных, цельнострайповой последовательной записи данных (случайные записи, с новыми и изменёнными данными, агрегируются в крупный стек и пишутся последовательно, что повышает скорость чтения-записи).

Помимо всего прочего, FlashLink включает в себя две важные составляющие Wear Leveling и Global Garbage Collection. На них стоит остановиться отдельно.

Фактически любой твердотельный накопитель это СХД в миниатюре, с большим числом блоков и контроллером, который обеспечивает доступность данных. А обеспечивается она в том числе за счёт того, что данные с убитых ячеек перебрасываются в не убитые. Тем самым гарантируется, что их удастся прочитать. Существуют различные алгоритмы такого переноса. В общем случае контроллер старается отбалансировать износ всех ячеек накопителя. У такого подхода есть минус. Когда внутри SSD происходит перемещение данных, число осуществляемых им операций ввода-вывода разительно сокращается. На текущий момент это неизбежное зло.

Таким образом, если в системе много твердотельных накопителей, на графике её производительности вырисовывается пила, с резкими подъёмами и спадами. Беда в том, что какой-то один накопитель из пула может запустить миграцию данных в любой момент, а общий performance снимается единовременно со всех SSD в массиве. Но инженеры Huawei придумали, как избежать возникновения пилы.

Благо и контроллеры в накопителях, и контроллер хранилища, и микрокод у Huawei родные, эти процессы в OceanStor Dorado 18000 V6 запускаются централизованно, синхронно на всех накопителях массива. Причём по команде контроллера СХД и именно тогда, когда нет большой нагрузки по вводу-выводу.

Чип искусственного интеллекта также участвует в выборе правильного момента для переноса данных: на базе статистики обращений за предыдущие несколько месяцев он с высочайшей вероятностью способен спрогнозировать, ожидать ли в ближайшее время активного ввода-вывода, и если ответ отрицательный, а нагрузка на систему на текущий момент невелика, то контроллер командует всем накопителям: кому требуется Wear Leveling, произвести его разом и синхронно.


Плюс ко всему контроллер системы видит, что творится в каждой ячейке накопителя, в отличие от СХД конкурирующих производителей: те вынуждены закупать твердотельные носители у сторонних вендоров, ввиду чего cell-level детализация контроллерам таких хранилищ недоступна.

Как следствие, у OceanStor Dorado 18000 V6 очень короткий период потери производительности на операции Wear Leveling, а выполняется она, в основном когда никаким другим процессам не мешает. Это даёт высокую стабильную производительность на постоянной основе.



Из чего складывается надёжность OceanStor Dorado 18000 V6


В современных системах хранения данных выделяется четыре уровня надёжности:

  • аппаратная, на уровне накопителя;
  • архитектурная, на уровне оборудования;
  • архитектурная вместе с программной частью;
  • совокупная, относящаяся к решению в целом.


Поскольку, напомним, все составные части СХД наша компания проектирует и выпускает сама, мы обеспечиваем надёжность на каждом из четырёх уровней, с возможностью досконально отслеживать, что на каком из них происходит в моменте.



Надёжность накопителей гарантируется в первую очередь ранее описанными Wear Leveling и Global Garbage Collection. Когда SSD выглядит для системы как чёрный ящик, ей невдомёк, как конкретно в нём изнашиваются ячейки. Для OceanStor Dorado 18000 V6 накопители прозрачны, благодаря чему возможна равномерная балансировка по всем накопителям массива равномерно. Таким образом получается значительно продлить срок жизни SSD и заручиться высоким уровнем надёжности их функционирования.



Также на надёжность накопителя влияют дополнительные избыточные ячейки в нём. И наряду с простым резервом в СХД используются так называемые DIF-ячейки, где содержатся контрольные суммы, а также дополнительные коды, позволяющие уберечь каждый блок от единичной ошибки, в дополнение к защите на уровне RAID-массива.



Залогом надёжности архитектурной служит решение SmartMatrix. Вкратце это четыре контроллера, которые сидят на пассивном бекплейне в составе одного движка (engine). Два таких движка соответственно, с восемью контроллерами подключаются к общим полкам с накопителями. Благодаря SmartMatrix, даже если перестанут функционировать семь контроллеров из восьми, сохранится доступ ко всем данным как на чтение, так и на запись. А при потере шести контроллеров из восьми можно будет даже продолжать операции кэширования.



Платы ввода-вывода на том самом пассивном бекплейне доступны всем контроллерам, как по фронтенду, так и по бэкенду. При такой схеме подключения full-mesh, что бы ни выходило из строя, доступ к накопителям всегда сохраняется.



О надёжности архитектуры уместнее всего говорить в контексте вариантов отказов, защиту от которых система хранения данных в состоянии обеспечить.

Хранилище переживёт без потерь ситуацию, если отвалятся два контроллера, в том числе одновременно. Достигается такая устойчивость за счёт того, что любой блок кэша непременно имеет ещё две копии на разных контроллерах, то есть в общей сложности он существует в трёх копиях. Причём по крайней мере одна находится на другом движке. Таким образом, даже если перестанет работать движок целиком со всеми четырьмя своими контроллерами, гарантировано сохранение всей информации, которая находилась в кэш-памяти, потому что как минимум в одном контроллере из оставшегося движка кэш будет продублирован. Наконец, при последовательном подключении можно потерять до семи контроллеров, и даже при их выбывании блоками по два, причём опять-таки сохранится весь ввод-вывод и все данные из кэш-памяти.



При сравнении с хранилищами класса hi-end прочих производителей видно, что только Huawei обеспечивает полную защиту данных и полную их доступность даже после гибели двух контроллеров или движка целиком. Большинство вендоров использует схему с так называемыми контроллерными парами, к которым подключаются накопители. К сожалению, в такой конфигурации при выходе из строя двух контроллеров возникает риск утраты доступа к накопителю по вводу-выводу.



Увы, объективно не исключён отказ одиночного компонента. В таком случае производительность на какое-то время просядет: необходимо, чтобы перестроились пути и возобновился доступ по операциям ввода-вывода относительно тех блоков, которые либо пришли на запись, но ещё не были записаны, либо были запрошены на чтение. У OceanStor Dorado 18000 V6 средний тайминг перестроения составляет примерно одну секунду значительно меньше, чем у ближайшего аналога в индустрии (4 с). Достигается это благодаря всё тому же пассивному бекплейну: когда контроллер выходит из строя, остальные сразу видят его ввод-вывод, и в частности какой блок данных не был дозаписан; в итоге ближайший контроллер подхватывает процесс. Отсюда и возможность восстановить производительность буквально за секунду. Надо добавить, интервал стабилен: секунда на один контроллер, секунда на другой и т. д.



В пассивном бекплейне OceanStor Dorado 18000 V6 все платы доступны всем контроллерам без какой-либо дополнительной адресации. А значит, любой контроллер способен подхватить ввод-вывод по любому порту. В какой бы фронтенд-порт ни пришёл ввод-вывод, контроллер готов будет его отработать. Отсюда минимальное число внутренних пересылок и заметное упрощение балансировки.

Балансировка по фронтенду выполняется с помощью драйвера multipathing, и дополнительно осуществляется балансировка внутри самой системы, благо все контроллеры видят все порты ввода-вывода.



Традиционно все массивы Huawei выполнены таким образом, что не имеют единой точки отказа. Замене на горячую, без перезагрузки системы, поддаются все её компоненты: контроллеры, модули питания, модули охлаждения, платы ввода-вывода и пр.



Повышает надёжность системы в целом и такая технология, как RAID-TP. Это название RAID-группы, которая позволяет подстраховаться на случай одновременного выхода из строя до трёх накопителей. Причём ребилд на 1 Тбайт стабильно занимает менее 30 минут. Лучший из зафиксированных результатов в восемь раз быстрее, чем с тем же объёмом данных на шпиндельном накопителе. Таким образом, есть возможность использовать чрезвычайно ёмкие накопители, допустим на 7,68 или даже 15 Тбайт, и не беспокоиться о надёжности системы.

Важно, что ребилд осуществляется не в spare drive, а в spare space резервную ёмкость. В каждом накопителе выделено место, используемое для восстановления данных после отказа. Таким образом, восстановление производится не по схеме много в один, а по схеме много во много, благодаря чему и удаётся заметно ускорить процесс. И до тех пор пока имеется свободная ёмкость, восстановление можно продолжать.



Отдельно следует упомянуть о надёжности решения из нескольких хранилищ в metro-кластере, или, в терминологии Huawei, HyperMetro. Такие схемы поддерживаются на всём модельном ряду наших систем хранения данных и допускают работу и с файловым, и с блочным доступом. Причём на блочном функционирует как по Fibre Channel, так и по Ethernet (в том числе по iSCSI).

В сущности, речь идёт о двунаправленной репликации с одной СХД на другую, при которой реплицированному LUN придан тот же LUN-ID, что и основному. Работает технология прежде всего благодаря консистентности кэшей с двух разных систем. Таким образом, для хоста абсолютно всё равно, с какой стороны он находится: и здесь и там он видит один и тот же логический диск. Как следствие, ничто не мешает развернуть кластер отказоустойчивости, растянутый на две площадки.

Для кворума же используется физическая или виртуальная Linux-машина. Расположена та может быть на третьей площадке, и требования к её ресурсам невелики. Распространённый сценарий арендовать виртуальную площадку исключительно под размещение кворумной VM.

Технология допускает и расширение: два хранилища в metro-кластере, дополнительная площадка с асинхронной репликацией.



Исторически у многих заказчиков формируется зоопарк хранения: куча СХД от разных производителей, разных моделей, разных поколений, с разной функциональностью. Вместе с тем число хостов бывает внушительным, и зачастую они виртуализованы. В подобных условиях одна из приоритетных задач администрирования быстро, единообразно и с удобством предоставлять логические диски для хостов, желательно так, чтобы не вникать в то, где эти диски находятся физически. Для того-то и предназначено наше программное решение OceanStor DJ, которое умеет унифицированно управлять различными системами хранения данных и предоставлять с них сервисы без привязки к конкретной модели хранилища.



Те же и ИИ


Как уже было сказано, в OceanStor Dorado 18000 V6 встроены процессоры с алгоритмами искусственного интеллекта Ascend. Задействуются они, во-первых, для прогнозирования отказов, а во-вторых, для формирования рекомендаций по настройке, что также увеличивает производительность и надёжность хранилища.

Горизонт предсказаний два месяца: ИИ-машинерия предполагает, что с высокой вероятностью произойдёт за это время, не пора ли будет делать расширение, менять политики доступа и т. д. Выдаются рекомендации заранее, что позволяет загодя намечать окна по обслуживанию системы.



Следующий этап развития ИИ от Huawei предполагает его вывод на глобальный уровень. В ходе сервисного обслуживания отработки отказов или рекомендаций Huawei агрегирует сведения из систем логирования со всех хранилищ наших клиентов. На основании собранного производится анализ произошедших или потенциально возможных сбоев и выносятся глобальные рекомендации исходя не из функционирования одной конкретной СХД или даже десятка, а из того, что происходит и происходило с тысячами таких устройств. Выборка огромна, и с опорой на неё алгоритмы ИИ начинают обучаться крайне быстро, отчего точность предсказаний ощутимо растёт.

Совместимость





В 20192020 годах было много инсинуаций по поводу взаимодействия нашего оборудования с продуктами VMware. Чтобы окончательно пресечь их, ответственно заявляем: VMware партнёр Huawei. Были проведены все мыслимые тесты на совместимость нашего железа с её ПО, и в итоге на сайте VMware в листе hardware compatibility указаны доступные на сегодняшний день СХД нашего производства без каких-либо оговорок. Иначе говоря, с программной средой VMware можно использовать хранилища Huawei, включая Dorado V6, с полноценной поддержкой.



То же касается нашего сотрудничества с Brocade. Мы продолжаем взаимодействовать и проводить тесты на совместимость нашей продукции и по их результатам с полной уверенностью утверждаем, что наши системы хранения данных полностью совместимы с новейшими FC-коммутаторами Brocade.



Что дальше?


Мы продолжаем развивать совершенствовать свои процессоры: они становятся быстрее, надёжнее, растёт их производительность. Улучшаем и чипы ИИ на их базе в том числе выпускаются модули, которые ускоряют дедупликацию и компрессию. Те, кто имеет доступ к нашему конфигуратору, могли заметить, что в моделях Dorado V6 эти карты уже доступны к заказу.

Также мы движемся в сторону дополнительного кэширования на Storage Class Memory энергонезависимой памяти с особо низкими задержками, порядка десяти микросекунд на чтение. Помимо всего прочего, SCM даёт прирост производительности, прежде всего при работе с big data и при решении OLTP-задач. После ближайшего апдейта SCM-карты должны стать доступны для заказа.

И конечно, функциональность файлового доступа будет расширяться на всём модельном ряду хранилищ данных Huawei следите за нашими обновлениями.
Подробнее..

Система хранения данных Huawei Dorado 18000 V6 поставила мировой рекорд производительности 21 млн IOPS

27.10.2020 14:04:24 | Автор: admin
По результатам теста SPC-1, признанного независимого стандарта в оценке производительности систем хранения данных, full-SSD хранилище корпоративного класса Huawei Dorado 18000 V6 поставило новый мировой IOPS-рекорд и подтвердило своё превосходство на глобальном рынке по другим техническим параметрам, включая время задержки и соотношение цена производительность.



В октябре 2020 года hi-end система хранения данных Dorado 18000 V6 заняла первое место в наиболее авторитетном индустриальном тесте производительности SPC-1. Преодолев отметку 21 млн операций ввода-вывода в секунду, она побила предыдущий отраслевой рекорд: у решения, находящегося теперь на втором месте, максимальный достигнутый показатель в два с лишним раза ниже.



Надо отметить, что высочайшую производительность наша All-Flash СХД удерживала в том числе при работе алгоритмов уплотнения данных (сжатие и компрессия), служащих для повышения эффективности хранения. В общем случае эти процессы могут периодически снижать производительность, однако в Dorado 18000 V6 они оптимизированы таким образом, чтобы избегать подобных спадов или сводить их к минимуму.

Впечатляющие результаты наше хранилище продемонстрировало и по соотношению стоимость производительность: 2,914 юаня, или около $0,436, в расчёте на 1 IOPS. Среднее время отклика системы в ходе проведения теста составило 0,286 мс, что значительно лучше целевого показателя для современных систем хранения данных (0,5 мс). В свою очередь, коэффициент полезного использования ёмкости в рамках SPC-1 был зафиксирован на уровне 68,35% выше, чем у прочих продуктов в топ-10 рейтинга.

Испытания производительности систем хранения данных регулярно проводит независимая, не аффилированная с вендорами организация Storage Performance Council. В ходе бенчмаркинга замеряется, сколько IOPS способна выдавать СХД при произвольных нагрузках ввода-вывода, когда занята обработкой онлайн-транзакций (OLTP) в режиме реального времени. Таким образом удаётся оценить, насколько производительно решение при обслуживании критически важных бизнес-приложений: биллинговых систем, сервисов интернет-банкинга, медицинских информационных систем, ERP-платформ и т. д.

Перечисленные достижения стали возможны в том числе благодаря инновационным решениям, использованным в Dorado 18000 V6: ИИ-чипам Ascend 310, сквозному NVMe, набору технологий FlashLink, архитектуре SmartMatrix и др. В деталях преимущества системы мы недавно описали в отдельном посте на Хабре.

Системы хранения данных Huawei проходят тесты SPC с 2010 года, и это не первый рекорд, поставленный ими.

Полная версия официального отчёта о результатах тестирования доступна на сайте Storage Performance Council.
Подробнее..

30 предстоящих вебинаров Huawei выбираем, критикуем, оставляем заявки

05.04.2021 14:09:20 | Автор: admin
С марта и до конца 2020 года мы в Huawei Russia проводили вебинары, иной раз не по одному в неделю. Сперва смотрели на этот формат как на вынужденную меру (нам нравились наши офлайн-ивенты, и тусовки после них тоже!), потом вошли во вкус. В 2021-м у нас намечено ещё больше трансляций по куче технологий и продуктов. Сейчас мы вас оперативно сориентируем, чего и когда ждать.



Мы уже составили распорядок вебинаров на следующие пять месяцев и регулярно апдейтим его. Круг тем широк (слишком даже широк, я бы сузил, проворчит кто-нибудь вслед Достоевскому, но мы бы, признаться, даже расширили бы). Перечислять все не станем: проще посмотреть по ссылке. Но, пожалуй, больше всего в этом году у нас будет контента про видеорешения, средства сетевой виртуализации, тонкости работы с высокопроизводительными СХД и управление современными ЦОДами. И про все новые продукты компании, разумеется, тоже в том числе только готовящиеся к релизу.

Из новшеств: мы ввели формат вебинара просто-о-сложном, название которого говорит само за себя. Это не значит, что в остальных докладах наши коллеги теперь готовы со спокойным сердцем жестить просто теперь будет больше трансляций, годящихся для того, чтобы без лишней головной боли войти в новые темы.

В числе самых увлекательных, на наш взгляд, трансляций, которые пройдут в ближайшее время:

  • 8 апреля: Huawei IdeaHub, разрушитель мостов в видеосвязи, рассказываем и трогаем, ведущий специалист по видеорешениям Huawei Егор Купцов;
  • 14 апреля: Новое поколение распределенных систем хранения данных OceanStor Pacific, ведущий менеджер по продукту Huawei Дмитрий Сивокоз;
  • 13 мая: Двойная виртуализация удалённое тестирование Dorado V6 на базе Huawei, ведущий системный архитектор (HCIE-Storage) Treolan Алексей Козьмин.


Так что выбирайте на здоровье интересующие вас темы и, маленькая просьба, по возможности регистрируйтесь на трансляции заранее: так мы будем лучше понимать состав участников, а значит, и то, как лучше (читай насколько хардкорно) освещать предмет.

Предварительное расписание вебинаров сформировано у нас до августа-2021 включительно, чтобы вы могли планировать свои контент-заплывы заранее. Ну да на то расписание и предварительное, что ничто не мешает нам добавить трансляцию (и не одну). Если вас живо занимает какое-то направление, в котором действует Huawei, или конкретная наша технология, или продукт, но в списке не нашлось ничего похожего, пишите, пожалуйста, в комментах: что именно и в каких аспектах разобрать. Будет интерес к теме запросто устроим и вебинар по ней. Stay tuned!
Подробнее..

Что сегодня есть у Huawei для построения цифровых беспроводных офисов

13.04.2021 16:13:10 | Автор: admin
В этом посте мы обрисуем современные тенденции в построении беспроводных кампусов, рассмотрим сценарии и реальные кейсы цифровой трансформации корпсетей, а также покажем, как двум специалистам обслуживать сеть на 25 тыс. абонентов, включающую в себя 20 тыс. сетевых устройств.



Ещё недавно при проектировании IT-инфраструктуры большого офиса или целого здания приходилось выбирать между высокоскоростными проводными сетями передачи данных и удобными гибкими беспроводными решениями, пропускная способность которых, однако, часто огорчала. Стоило собраться в одном конференц-зале нескольким десяткам человек со своими гаджетами, как сеть Wi-Fi из-за всплеска трафика становилась практически неработоспособной. Кто был на любой отраслевой офлайн-конференции, не даст соврать.

С появлением Wi-Fi 6 и софта для управления SDN эти неудобства уходят в прошлое. Короткое видео ниже наглядно показывает, какие возможности дают беспроводные кампусы нового поколения, на примере одного из китайских офисов Huawei.



Итак, реальная беспроводная сеть с непрерывным роумингом, включающая в себя 20 тыс. устройств и обслуживающая 25 тыс. абонентов, управляется всего двумя (!) инженерами. Развёрнута она на базе самых современных технических решений Huawei, о которых и пойдёт речь сегодня.



Основа цифровой трансформации 2.0


В процессах цифровой трансформации сеть становится элементом, связывающим между собой людей и IT-сервисы. В практическом плане мы говорим о гаджетах, находящихся на уровне edge (носимых терминалах, смартфонах, устройствах AR/VR, датчиках IoT и пр.) и множеством способов взаимодействующих между собой, а также с облаком или ЦОДом.



Умные рабочие места без проводов


За 2020 и начало 2021 года многие полностью перенесли свою профессиональную деятельность в онлайн. И без возможности качественной беспроводной передачи данных, не в последнюю очередь мультимедийных, современные кампусы бессмысленны.

Современный офис, отвечающий передовым требованиям, уже включает в себя оборудование для видеоконференций и зачастую не предполагает фиксированных рабочих мест, которые были бы закреплены за конкретными сотрудниками. Сами же сотрудники вполне приспособились к такому режиму и работают с собственных ноутбуков, планшетов и смартфонов, откуда им удобно, хоть из конференц-зала, хоть из кафе на территории кампуса.

В свою очередь, в рабочем пространстве становится всё больше всевозможных подключаемых к локальной сети устройств: электронных досок, терминалов для заказа переговорных комнат, умных систем освещения и кондиционеров, а также прочих элементов IoT. Как следствие, требуются всё более высокие скорости передачи данных, причём именно по беспроводу.



Масса компаний, как крупных, так и мелких, разрабатывает свои предложения по интеграции в существующие инфраструктуры сетей датчиков IoT. Всё это приводит к неуклонному росту трафика. Тем временем преумножению как обслуживаемых, так и обслуживающих сетевых устройств сопутствует заметное сокращение численности персонала, управляющего этой сетью.



CloudCampus 2.0


Обеспечивать бизнесу передовые сетевые сервисы, одновременно эффективно решая возникающие в больших корпоративных сетях проблемы, помогает современное ПО. В Huawei подобные продукты создаются на основе концепции CloudCampus 2.0.

CloudCampus 2.0 включает в себя систему управления и мониторинга сети, построенную на базе SDN-контроллера iMaster NCE. Он берёт на себя всю работу по поддержанию функционирования сети, начиная с Zero Touch Provisioning (ZTP) и заканчивая автоматическим анализом неисправностей. Система построена на базе алгоритмов искусственного интеллекта, что позволяет ей с высокой вероятностью предсказывать состояния сети и проактивно устранять потенциальные точки отказа.

Немаловажно и что iMaster NCE посредством Northbound interface (NBI) легко интегрируется с вышестоящими решениями, в том числе от других вендоров. Это могут быть системы управления активами, учётом рабочего времени, гибким производством, автоматизированным складским оборудованием и др. Таким образом, сеть превращается в сервис, способный интегрироваться в любой IT- или IoT-комплекс.

Возможности CloudCampus 2.0 делятся на три основные группы.

Благодаря iMaster NCE сеть может функционировать в режиме умной эксплуатации, позволяющем оптимизировать работу с опорой на прогнозную аналитику и обнаруживать до 85% неисправностей с помощью ИИ.

С помощью Умной связи сеть быстро настраивается из единой консоли. Применение современных проводных коммутаторов и беспроводных точек доступа WiFi 6 даёт возможность строить конвергентный доступ в сеть для IoT-устройств.

Наконец, третий пункт можно условно назвать суперёмкостью, так как этот комплекс возможностей подразумевает достижение пропускной способности на уровне 10,75 Гбит/с на одну точку доступа.



В конце марта Huawei представила CloudCampus 3.0 и целый ряд новых решений, которые оптимальны для внедрения при реализации этой концепции. Среди прочего пополнение в семействе точек доступа AirEngine Wi-Fi 6 и умный маршрутизатор NetEngine AR8140, которые показывает пропускную способность до 20 Гбит/с (SD-WAN). Скоро мы расскажем в нашем хабраблоге о CloudCampus 3.0 во всех подробностях.


Wi-Fi 6 для гибкого производства


Современные беспроводные сети всё шире применяются и в инновационных индустиях, где они могут быть интегрированы в роботизированные комплексы гибкого производства.

Если в прошлом промышленные товары запросто производили без изменений десятилетиями, то сейчас не то что для успеха зачастую просто для выживания бизнеса жизненно важно иметь возможность быстро адаптироваться к меняющимся потребностям покупателей и заказчиков. За техническим прогрессом и рыночной конъюнктурой не поспеть, когда у тебя нет возможности производить продукцию малыми партиями и при необходимости быстро переключаться на выпуск других товаров.

Массовое использование роботов и средств автоматизации требует применения современных технологий, в том числе и сетевых, которые позволили бы эффективно управлять производственной линией, получать от неё телеметрическую информацию и передавать команды с минимальными задержками и без потерь.



Перед вами робот для автоматизированного оптического контроля произведённых деталей. Он использует комплекс из пяти промышленных камер, позволяющий оценить точность изготовления компонента со всех сторон. Для полноценной работы одного такого робота необходима пропускная способность сетевого канала не менее 768 Мбит/с. И количество таких устройств, работающих одновременно, зависит лишь от масштабов предприятия.

Даже при использовании не таких уж древних технологий Wi-Fi 5 для эксплуатации подобного робота требуется отдельная точка доступа. А ведь есть ещё и роботы, перемещающиеся по производственной площади и тоже подключаемые к локальной сети. Обеспечить их работу с помощью проводных решений часто невозможно в принципе.

Уже сейчас беспроводная связь предыдущего поколения зачастую не позволяет надёжно подключать необходимое количество автоматизированных устройств и пропускать требуемый каждому из них поток трафика. В то же время одна точка доступа Huawei с поддержкой WiFi 6, демонстрирующая минимальные задержки и способная передавать свыше 10 Гбит данных в секунду, в состоянии поддерживать работу более десятка роботов оптического контроля.



Настоящая действующая линия гибкого производства для производства смартфонов Huawei P40 уже развёрнута на одном из заводов нашей компании. Особенность линии то, с какой частотой вносятся изменения в рабочие процессы, а именно до нескольких раз в неделю. Это стало возможным лишь благодаря широкому внедрению роботизированных комплексов, умеющих быстро подстраиваться под меняющиеся требования. Все эти комплексы подключены к беспроводной сети на базе топовых точек доступа AirEngine 8760-X1-PRO.

Поток данных от видеокамер роботов в сторону ЦОДа обрабатывается с применением алгоритмов искусственного интеллекта, а те, в свою очередь, делают выводы относительно того, насколько качественно выполняются те или иные технологические процессы.



70 миллисекунд для VR и AR


Ещё один тренд, поднимающий требования к пропускной способности беспроводной сети, распространение технологий виртуальной и дополненной реальности, в том числе за пределами индустрии.

Важной точкой роста технологий VR/AR в ближайшее время станет обучение, благо дети прекрасно осваивают сложные технические решения. А значит, грядёт и резкий рост спроса на соответствующие устройства, которым также потребуются широкие каналы связи.

Вместе с тем очевидно, что контент для шлемов VR/AR будет размещаться на серверах в ЦОДах: централизация ресурсов целесообразна экономически. Это неизбежно вызовет повышение требований к пропускной способности сетей.



Чуть подробнее остановимся на сетевой задержке, критически важной для VR/AR. В приложениях, где пользователи интенсивно взаимодействуют со средой и друг с другом, она не должна превышать рекомендованного значения 70 мс. Причём примерно 20 мс необходимо терминальному устройству на обработку действия пользователя, ещё столько же на формирование нового изображения в ЦОДе. Получается, на передачу данных в обе стороны по проводным и беспроводным сетям остаётся не более 3040 мс. Это вполне достижимо, если проводная сеть правильно сконфигурирована и демонстрирует показатели, близкие к максимально возможным (10 мс), а беспроводная сеть построена на современных технологиях WiFi 6 (10 мс).



Wi-Fi 6 для операционных офисов


Требования к кампусным сетям растут и у организаций финансового сектора, которым, например, часто бывает необходимо развернуть сеть филиалов нового формата. Раньше в банковских отделениях или офисах страховых компаний трудилась целая тьма сотрудников, в порядке вещей были очереди на обслуживание, а проведение любой операции требовало долгого общения с посетителем вживую, но скоро всё это окончательно останется в прошлом.



Новые офисы обходятся минимальным количеством операционистов, в то время как количество услуг, предоставляемых автоматизированными системами, растёт и растёт. Привычные банкоматы соседствуют с куда более функциональными умными терминалами STM (Smart Teller Machine). С их помощью можно получить любую услугу, будь то выдача пластиковой карты или оформление договора на открытие счёта. Эти устройства способны собирать биометрические данные и сканировать документы, позволяют получить консультацию удалённого специалиста в режиме видеоконференции и пр.

Для быстрого и эффективного развёртывания филиальной сети с минимальными эксплуатационными затратами и тем более для создания таких филиалов в мобильном формате необходимо использовать беспроводные технологии, обеспечивающие высокую скорость подключения и низкие задержки.

Нужны беспроводные технологии и в больших традиционных офисах с зонами ожидания для клиентов, терминалами электронной очереди, системами видеонаблюдения, средствами биометрического контроля и т. д. Внедрять всё это, используя лишь проводные решения, дорого и долго.



Вот кейс из жизни. Одна из крупнейших компаний на российском финансовом рынке совместно с Huawei реализовала проект корпоративного учебного заведения, совмещённого с современным офисом и расположенного в отдельном многоэтажном здании.

Задачей заказчика стало создание многофункционального рабочего пространства, отвечающего всем новым тенденциям all-wireless, с возможностью интеграции существовавших ранее и только создаваемых IoT-сервисов.

При непосредственном участии Huawei была построена проводная сеть, связавшая между собой новейшие точки доступа стандарта Wi-Fi 6. И на базе беспроводной инфраструктура была развёрнута система управления кондиционированием помещений, плюс ко всему с ней интегрировали налаженную ранее систему видеонаблюдения (в дополнение к последней удалось развернуть систему видеоаналитики, позволяющую автоматически управлять освещением в помещениях).

Управление всеми этими системами было объединено в рамках диспетчерской, отвечающей также за эксплуатацию здания, обеспечение пожарной безопасности и пр.



В итоге заказчик построил современный учебный центр и офис, функционирование которых организовано с повсеместным применением средств автоматизации. Обслуживание здания теперь требует минимального количества персонала. Там, где возможно, уменьшено или устранено влияние человеческого фактора на процессы. При этом обеспечены комфортная среда для обучения и работы, высокий уровень безопасности и, конечно, полный охват помещений высокоскоростной беспроводной связью Wi-Fi 6.

***


Узнать больше о Wi-Fi 6 и технологиях Huawei вам помогут наши многочисленные вебинары: вот их расписание на ближайшие месяцы.
Подробнее..

Huawei ADN первая в индустрии сеть с автономным управлением третьего уровня

28.04.2021 16:12:49 | Автор: admin
Что такое автономно управляемая сеть и чем она отличается от SDN? Huawei совместно с консалтинговой компанией IDC изучила критерии оценки сетевой инфраструктуры по уровню её способности поддерживать собственную работу без помощи администратора.



Какой заказчики хотят видеть сетевую инфраструктуру ЦОДа? Она, конечно, должна быть эффективной, надёжной и простой в обслуживании. Совсем чудесно было бы, если бы сеть настраивала и обслуживала себя сама. Современные SDN-контроллеры умеют всё больше, но как оценить уровень их автоматизации? Как классифицировать эту автономность?

Чтобы ответить на эти вопросы, мы обратились в консалтинговую компанию IDC и попросили её провести исследование, по результатам которого можно было бы понять, как охарактеризовать автономность управления той или иной сетью и как оценить эффективность подобного внедрения. Коллеги из IDC откликнулись на наше предложение и пришли к интересным выводам.



Начать стоит с контекста, а именно с тотальной цифровизации, волны которой прокатываются по миру. Она требует модернизации как инфраструктуры, так и рабочих процессов. И движущая сила этой трансформации облачные технологии.

Между тем не следует рассматривать облако просто как место выполнения рабочих нагрузок. Это ещё и особые подходы к работе, подразумевающие высокий уровень автоматизации. По мнению аналитиков IDC, мы вступаем в эпоху множества инноваций. Компании инвестируют в такие технологии, как искусственный интеллект, интернет вещей, блокчейн и интерфейсы естественного взаимодействия. Но конечная цель это именно автономность систем и инфраструктур. В таком контексте и следует оценивать перспективы развития сетей ЦОД.



На схеме изображён процесс автоматизации сетей, который делится на несколько последовательных этапов. Он начинается с интерфейса командной строки и создания скриптов. На следующем этапе появляются сетевые фабрики, позволяющие повысить скорость и производительность. Далее наступает пора SDN-контроллеров и средств виртуализации. На этом этапе также внедряются инструменты оркестрации и автоматизации сетей ЦОД.

Качественно новым уровнем является переход к сетям, управляемым на основе намерений (intent-based networking). Но целью этого прогресса является создание полностью автономной сети, управляемой искусственным интеллектом. Все участники рынка так или иначе рассматривают эту задачу.

Что же такое автономность сети и как её оценить? Компания IDC предложила шестиуровневую модель, позволяющую точно отнести конкретное решение к тому или иному уровню автономности.

  • Level 0. На этом этапе управление сетью осуществляется только через ручные процессы на протяжении всего жизненного цикла сети. Сеть не является автоматизированной.
  • Level 1. Управление сетью всё ещё преимущественно ручное на протяжении всего жизненного цикла сети.
  • Level 2. В некоторых сценариях появляется частичная автоматизация, которая сочетается со стандартными инструментами анализа и управления политиками.
  • Level 3. Условная автоматизация. Система уже умеет выдавать рекомендации и указания, принимаемые или отклоняемые оператором.
  • Level 4. Сеть в значительной мере автоматизирована и автономна. Управляется она декларативными методами на основе намерений. Оператор лишь получает уведомления о событиях и принимает решения о принятии или отклонении рекомендаций сети.
  • Level 5. Сеть полностью автоматизирована и автономна на протяжении всего жизненного цикла. Она способна самостоятельно применять политики, устранять неисправности и восстанавливать сервисы.




С какими же основными вызовами сталкивается компания, внедряющая инновации в сетях ЦОД? По данным IDC, собранным на основе опросов IT-экспертов, на первом и втором местах находятся согласование уровня автоматизации сети с уровнем автоматизации систем вычисления и хранения, а также обеспечение гибкости, то есть способности сети поддерживать смешанные рабочие нагрузки и среды.

На третьем месте проблема автоматизации сетевой инфраструктуры, которая, как чаще всего и бывает, собрана из продуктов различных вендоров. Здесь требуется средство управления, способное собрать воедино весь зоопарк решений и заставить его работать в соответствии с требуемым уровнем автономности. При этом 90% опрошенных согласны с тем, что достижение автономности сети является целью их организаций.

Исследование IDC показывает, что автономное управление сетью является остроактуальным трендом, в который так или иначе вовлечено до половины всех компаний, занимающихся развитием своей IT-инфраструктуры.



Рассмотрим в качестве примера цифровой трансформации компании финансового сектора. За последний год продажи в офлайне радикально уменьшились, и финансовые организации отреагировали на это одними из первых.

Компании быстро перевели значительную часть своей активности в приложения, организовав в них цифровые продажи. Это позволило в короткие сроки компенсировать падение офлайн-канала и сохранить выручку. Заодно автоматизация дала возможность минимизировать уровень ошибок, допускаемых сотрудниками компании, и заметно ускорить значительную часть бизнес-процессов.



Вместе с тем инновации в работе с клиентами повлекли за собой повышение сложности IT-инфраструктуры и увеличение частоты вносимых в неё изменений. До 50% сложных проблем, регистрируемых сейчас в ЦОДах, в той или иной мере обусловлены ограниченностью как самих сетевых ресурсов, так и ресурсов команды администраторов.

Основную часть времени сотрудники занимаются выполнением рутинных операций, хотя нагрузка, связанная с внедрением новых сервисов, постоянно растёт. Они требуют тестирования, проверки на взаимное влияние с другими сервисами и пр. Любая имплементация несёт в себе риск разрушения того, что уже работает. В результате персонал оказывается перегружен.

Пожалуй, это объясняет следующую цифру: до 40% сложных проблем в ЦОДах вызваны человеческими ошибками. Любые изменения в сети, как то: запуски новых приложений, развёртывание сервисов и т. д., требуют большого внимания и многочисленных проверок, на которые далеко не всегда хватает рабочего времени. Итогом может стать серьёзная авария в ЦОДе.

А сколько времени тратится на разрешение той или иной проблемы? Наши данные говорят о том, что в среднем для одного только обнаружения неисправности требуется почти 80 минут. И неисправности эти далеко не всегда связаны с физическими устройствами. Они могут происходить на уровне протоколов, доступности сервисов и пр.

В итоге поддержка сети работает днём и ночью, но всё равно становится мишенью для многочисленных жалоб. Для многих из них не было бы оснований, если бы сеть ЦОДа приобрела некоторую автономность.



Вернёмся к классификации уровней автономности, предложенной IDC. Перед вами перечень возможностей, которые сеть должна демонстрировать на каждом из этих уровней. Решение Huawei Autonomous Driving Network отвечает всем требованиям третьего уровня. Она умеет в полностью автоматическом режиме поддерживать свою работу, включая запуск и остановку процессов, настройку оборудования и пр. Кроме того, наша ADN в полной мере соответствует критерию осведомлённости, в реальном времени получая информацию о состоянии устройств, процессов, приложений и сервисов.

В частично автоматическом режиме ADN в состоянии выполнять анализ происходящего в сети, выявляя причины событий и предлагая рекомендации по их устранению. К 2023 году мы планируем добавить к возможностям ADN функцию обратной связи.

Система управления научится справляться с проблемами в сети с помощью практик, оказавшихся эффективными в других похожих инфраструктурах, в том числе принадлежащих другим компаниям.

В соответствии со своим roadmap к 2028 году мы будем располагать системой, полностью соответствующей пятому уровню автономности.



Каким же будет эффект от внедрения автономного управления сетью? Начнём с проектирования сети. В случае использования Huawei Autonomous Driving Network заказчику нет необходимости вручную создавать архитектуру или дизайн, а также настраивать устройства. Система лишь просит указать, какое количество устройств и линков определенной пропускной способности должно быть задействовано. Затем она автоматически собирает сетевую инфраструктуру и предлагает её в виде готового решения. Заказчик сразу же получает полностью работоспособную фабрику дата-центра.

Но мало получить сетевую инфраструктуру. Она должна обеспечить работоспособность виртуальных машин, приложений и прочих процессов, каждый из которых предъявляет свои требования к пропускной способности тех или иных каналов. Автономная сеть может проанализировать нагрузку и дать рекомендации по оптимальной организации информационных потоков.

В процессе эксплуатации ADN постоянно проверяет прохождение трафика, среди прочего выявляя и взаимное влияние различных сервисов друг на друга. Это позволяет в реальном времени повышать качество функционирования сети, ликвидируя возникающие узкие места.

Оптимизация проводится непрерывно. Если система обнаруживает ухудшение сервиса, она сразу сообщает об этом оператору, которому достаточно принять заранее подготовленное решение. Если, к примеру, ADN заметит деградацию оптического модуля, то подсчитает количество затрагиваемых проблемой процессов и предложит задействовать резервный канал.

Все вышеперечисленные возможности позволяют ADN играть крайне важную роль экономить время занятого поддержкой сети технического персонала, освобождая его для выполнения более высокоуровневых задач.



Сила Huawei Autonomous Driving Network в том, что это не просто программное обеспечение, которое можно проинсталлировать и получать сервис. В системе реализована трёхуровневая модель, базовый уровень которой расположен уже на уровне процессоров конечных устройств коммутации и маршрутизации. Эти программно-аппаратные элементы выполняют задачи по сбору и анализу данных, а также коммутации потоков и кадров. Оснащённый таким процессором коммутатор в режиме реального времени передаёт информацию в направлении программной платформы, в качестве которой в нашем случае выступает iMaster NCE.

Именно архитектура нашей ADN отличает её от других сопоставимых продуктов. Интеграция с аппаратными элементами позволяет проводить уникальный по глубине анализ, давая возможность реализовать процессы автоматической настройки дизайна сети, инсталляции сетевых устройств и пр. Можно, например, создать виртуального двойника приложения и провести верификацию сервиса в существующей инфраструктуре. Результатом станет детальный отчёт, включающий в себя перечень потенциальных мест возникновения проблем.

Осталось отметить, что ADN является сервис-ориентированным решением, широко использующим возможности облачных технологий. Выше мы уже говорили о том, что на пятом уровне автономности сеть должна уметь использовать алгоритмы борьбы с неисправностями, сформированные на основе опыта других заказчиков и отраслевых экспертов. Именно из облака ADN вскоре научится получать решения для тех или иных сетевых проблем, идентифицируемых на основе сигнатур.

Подходы, использованные при создании ADN, позволяют в очередной раз вспомнить наш принцип 1-3-5: любая проблема в сети должна быть выявлена за одну минуту, локализована за три минуты и исправлена за пять минут.



Подведём итог. Конечно, ADN является преемницей решений, заложенных в SDN. Это был необходимый этап развития технологии, но в нём крылись некоторые недостатки. Во-первых, использование программно-определяемых сетей подразумевало ручную первичную настройку устройств. Во-вторых, выявление ошибок также ложилось на плечи специалистов по поддержке сети. В-третьих, в случае с SDN, конечно, не шла речь об автоматическом применении сценариев восстановления, полученных из облачной базы знаний. Создавая своё ADN-решение, Huawei стремилась к тому, чтобы наши клиенты освободились от этих задач, сосредоточившись на том, что действительно требует внимания.
Подробнее..

OpenGauss новая СУБД от Huawei для нагруженных enterprise-проектов прибавила в функциональности

05.11.2020 12:07:06 | Автор: admin
openGauss система управления реляционными базами данных с открытым исходным кодом, созданная инженерами Huawei. Новая версия 1.0.1, которая стала доступна в октябре 2020 года, значительно расширяет возможности СУБД и делает ее перспективным выбором для целого ряда IT-задач, прежде всего в крупных корпоративных проектах.



Ядро openGauss построено на основе объектно-реляционной системы управления базами данных PostgreSQL. Его функциональность была усовершенствована в расчете на решение задач уровня предприятия.

Концептуально openGauss представляет собой многоцелевую БД: строчное хранение в ней позволяет поддерживать сервисы с интенсивным обновлением данных, колоночное хранение ускоряет выполнение аналитических задач, а in-memory engine повышает пропускную способность при решении задач, чувствительных ко времени отклика. Развертывается решение как в контейнерах, так и на физических серверах с процессорами x86-64 или Kunpeng разработки Huawei.

Официальный запуск первой версии openGauss состоялся 1 июля 2020 года. А уже в середине осени был произведен релиз 1.0.1, в который включено более двадцати доработок.

В текущем исполнении openGauss обладает широким набором примечательных возможностей. Прежде всего это поддержка многоядерной архитектуры с управляемым параллелизмом. Надо отметить также интеллектуальную настройку параметров, диагностику медленных SQL, многомерный самоконтроль производительности и онлайн-прогнозирование выполнения SQL, значительно упрощающее O&M.

Достойны упоминания показатели быстродействия openGauss. В частности, система осуществляет до 1,5 млн tpmC на двух 64-ядерных процессорах Kunpeng, а переключение при сбое узла занимает у нее менее 10 с.

Коротко обозначим функции openGauss, определяющие ее преимущества.

  • Высокая готовность. Функции журналирования WALs (write-ahead logs) обеспечивают возможности горячего резервного копирования и восстановления. Утилита gs_basebackup позволяет сделать полную резервную копию БД, в том числе сжатую. В мире PostgreSQL вопрос инкрементального резервного копирования остается открытым, поэтому компаниям приходится самостоятельно решать эту задачу в каждом конкретном случае. Новая версия 1.0.1 поддерживает функциональность инкрементального резервного копирования при включении параметра GUC enable_cbm_tracking (и далее база данных будет отслеживать изменение страниц данных).

    Катастрофоустойчивость openGauss решается за счет организации Standby на удаленной площадке, причем синхронизация данных возможна в синхронном и асинхронном режиме. Текущий релиз СУБД поддерживает до четырех реплик на физическом уровне.
  • Высокая производительность. В openGauss таблицу, включая ее индексы, можно целиком поместить в память. Это возможно благодаря Memory-Optimized Tables (MOT) высокопроизводительному OLTP-движку для обработки данных в памяти. MOT поддерживает работу с таблицами в строчном формате, при этом доступна вся функциональность openGauss, включая транзакции и отказоустойчивость.

    Особенности реализации MOT и результаты его тестирования на производительность TPC-C приведены в отдельном документе.



    Необходимо также упомянуть возможность создания Materialized View срез данных с предварительно рассчитанными показателями (агрегатами) хранится на уровне таблиц БД, существенно ускоряя выполнение аналитических задач.
  • Управляемость серьезно улучшена за счет автоматических отчетов производительности (WDR). Чтобы задействовать эту функцию, достаточно установить параметр enable_wdr_snapshot=on и указать количество дней хранения для параметра wdr_snapshot_retention_days. Далее ядро базы данных будет автоматически сохранять снимки с метриками производительности, в том числе и медленные SQL. WDR позволяет формировать отчеты о производительности между указанными периодами времени (snapshots) в формате HTML или PDF.
  • Гибкость. Интеграция с внешними источниками данных реализована через Foreign Data Wrappers (FDW). В актуальном релизе поддерживается интеграция с Oracle, MySQL, openGauss.

    Отдельного внимания заслуживает Global Temporary Tables (GTT). Сам объект создается в БД один раз, далее GTT используется многократно для хранения промежуточных результатов транзакций или сессии. Данные во временной таблице видны только для текущей сессии независимо от фиксации транзакции. Данные теряются после отключения-завершения сессии. Это незаменимая функциональность для ETL или систем отчетности.


На openGauss распространяется действие лицензии Mulan PSL v2, что дает разработчикам возможность свободно изменять код СУБД, использовать его и ссылаться на него. Исходный программный код проекта полностью доступен в его репозитории.

Напомним, Huawei платиновый партнер разработчиков ПО с открытым кодом Linux, Apache и Openstack, а также стратегический член Eclipse Foundation. Мы активно участвуем в проектах по созданию Open Source решений, в том числе:

  • Linux-дистрибутива openEuler;
  • фреймворка для задач deep learning MindSpore;
  • интеллектуальной платформы для обеспечения автономности открытых данных SODA;
  • формата хранения больших данных Apache CarbonData;
  • платформы микросервисов Apache ServiceComb;
  • фреймворка для граничных вычислений CNCF KubeEdge;
  • высокопроизводительной системы управления batch-процессами CNCF Volcano.


Будем рады ответить на ваши вопросы в комментариях!
Подробнее..

Чем интересен Wi-Fi 6 в исполнении Huawei

18.06.2020 16:09:14 | Автор: admin
Предлагаем вашему вниманию взгляд Huawei на Wi-Fi 6 саму технологию и связанные с ней новшества, в первую очередь применительно к точкам доступа: что в них нового, где им найдётся самое подходящее и полезное применение в 2020 году, какие технологические решения дают им основные конкурентные преимущества и как вообще организована линейка AirEngine.



Что происходит в сфере беспроводных технологий сегодня


В годы, когда развивались предыдущие поколения Wi-Fi четвёртое и пятое, в индустрии была сформирована концепция all-wireless office, то есть полностью беспроводного офисного пространства. Но с тех пор много воды утекло, и запросы бизнеса по отношению к Wi-Fi изменились качественно и количественно: повысились требования к пропускной способности, критически важным стало снижение задержек, и чем дальше, тем насущнее необходимость подключать большое количество пользователей.





К 2020 году сформировался ландшафт новых приложений, которые должны надёжно работать через сети Wi-Fi. На иллюстрации отображены основные направления, к которым такие приложения относятся. Вкратце о нескольких из них.

А. Дополненная и виртуальная реальность. Долгое время аббревиатуры VR и AR фигурировали в презентациях телеком-вендоров, однако мало кто понимал, каково прикладное применение стоящих за этими буквами технологий. Сегодня они стремительно входят в нашу жизнь, что находит отражение и в продуктах Huawei. В апреле мы представили смартфон Huawei P40 и попутно запустили пока только на территории Китая сервис Huawei Maps с функцией AR Maps. Он представляет собой не просто ГИС с голограммами. Дополненная реальность глубоко встроена в функциональность системы: с её помощью ничего не стоит буквально выцепить информацию о той или иной организации, офис которой расположен в здании, проложить маршрут через окружающее пространство, и всё это в формате 3D и с высочайшим качеством.

Также AR определённо ждёт интенсивное развитие в сферах образования и здравоохранения. Актуальна она и для производств: например, для того, чтобы обучать сотрудников тому, как действовать в нештатных ситуациях, трудно придумать что-то лучше тренажёров в дополненной реальности.

Б. Системы безопасности с видеонаблюдением. И даже шире: любое решение с видео, которое относится к стандартам сверхвысокой чёткости. Речь идёт уже не только о 4K, но и о 8K. Ведущие производители телевизоров и инфопанелей обещают, что модели, выдающие картинку в 8K UHD, появятся в их ассортименте на протяжении 2020 года. Логично предположить, что и конечные пользователи захотят смотреть видео в супервысоком качестве с ощутимо увеличившимся битрейтом.

В. Бизнес-вертикали, и в первую очередь ритейл. В качестве примера возьмём Lidl одну из крупнейших в Европе сетей супермаркетов. Она использует Wi-Fi в новых, опирающихся на IoT сценариях взаимодействия с потребителями, в частности внедрила электронные ценники ESL, интегрировав их со своей CRM.

Что касается крупных производств, примечателен опыт Volkswagen, который развернул на своих заводах Wi-Fi от Huawei и применяет его для решения самых разных задач. Помимо всего прочего, на Wi-Fi 6 у компании завязано функционирование роботов, которые перемещаются по территории фабрики, посредством AR-сценариев в реальном времени осуществляется сканирование деталей и т. д.

Г. Умные офисы также представляют собой огромное пространство для инноваций на базе Wi-Fi 6. Уже продумано большое число сценариев интернета вещей для умного здания, в том числе для контроля безопасности, для управления освещением и др.

Нельзя забывать и о том, что большинство приложений мигрирует в облака, а для доступа к облаку требуется качественная, стабильная связь. Именно поэтому Huawei использует как девиз и стремится претворять в жизнь установку 100 Мбит/с повсюду: Wi-Fi становится основным средством подключения к интернету, и вне зависимости от местонахождения пользователя мы обязаны обеспечить ему высокий уровень user experience.

Как Huawei предлагает управлять средой Wi-Fi 6


В настоящее время Huawei продвигает готовое end-to-end решение Cloud Campus, нацеленное, с одной стороны, на то, чтобы помогать управлять всей инфраструктурой из облака, с другой на то, чтобы служить платформой для воплощения новых IoT-сценариев, будь то управление зданием, мониторинг оборудования или, допустим, если обратиться к кейсу из области медицины, контроль параметров жизнедеятельности пациента.

Важная часть экосистемы вокруг Cloud Campus маркетплейс. Например, если разработчик создал конечное устройство и интегрировал его с решениями Huawei, написав соответствующее ПО, он вправе сделать свой продукт доступным другим нашим клиентам по сервисной модели.



Так как сеть Wi-Fi, в сущности, становится фундаментом для работы бизнеса, прежних способов управления ею недостаточно. Раньше администратор был вынужден практически вручную, копаясь в логах, разбираться, что творится с сетью. Такого реактивного режима поддержки теперь мало. Необходим инструментарий для проактивного контроля и управления беспроводной инфраструктурой, с тем чтобы администратор доподлинно понимал, что с ней происходит: какой уровень user experience она обеспечивает, могут ли к ней без проблем подключаться новые пользователи, не надо ли кого-то из клиентов перебросить на соседнюю точку доступа (ТД), в каком состоянии находится каждый отдельно взятый сетевой узел и пр.

Применительно к устройствам Wi-Fi 6 у Huawei имеются все средства для проактивного, детального анализа и контроля происходящего в сети. Опираются эти разработки прежде всего на алгоритмы машинного обучения.

На точках доступа предыдущих серий подобное было невозможно, так как они не поддерживали соответствующих протоколов телеметрии, да и вообще производительность тех устройств не позволяла воплотить эту функциональность в том виде, в каком позволяют наши современные точки доступа.

В чём преимущества стандарта Wi-Fi 6





Долгое время камнем преткновения на пути распространение Wi-Fi 6 оставалось то обстоятельство, что де-факто отсутствовали конечные устройства, которые предусматривали бы поддержку стандарта IEEE 802.11ax и могли в полной мере раскрыть преимущества, заложенные в точку доступа. Однако в индустрии происходит перелом, и мы как вендор ему всеми силами способствуем: Huawei разработала свои чипсеты не только для корпоративных продуктов, но и для мобильных, а также для домашних устройств.

По Сети ходит информация о Wi-Fi 6+ от Huawei. Что это?
Это практически как Wi-Fi 6E. Всё то же, только с добавлением частотного диапазона 6 ГГц. Во многих странах в настоящее время рассматривают вопрос о его выделении под Wi-Fi 6.

Будет ли радиоинтерфейс 6 ГГц реализован на том же модуле, который сейчас работает на 5 ГГц?
Нет, будут специальные антенны для работы в частотном диапазоне 6 ГГц. Нынешние точки доступа не поддерживают 6 ГГц, даже если обновить их софт.


На сегодняшний день устройства, показанные на иллюстрации, относятся к сегменту hi-end. Вместе с тем домашний роутер Huawei AX3, дающий через радиоинтерфейсы скорость до 2 Гбит/с, по цене не отличается от точек доступа предыдущего поколения. Поэтому есть все основания полагать, что в 2020 году широкий круг устройства среднего, а то и начального сегмента получит поддержку Wi-Fi 6. Согласно аналитическим выкладкам Huawei, к 2022 году продажи точек доступа с поддержкой Wi-Fi 6 по отношению к тем, что построены на Wi-Fi 5, составят 90 к 10%.

Через полтора года окончательно наступит эра Wi-Fi 6.


Прежде всего, Wi-Fi 6 рассчитан на то, чтобы сделать эффективнее работу беспроводной сети в целом. Раньше каждой станции последовательно выдавался временной слот, и она занимала весь канал 20 МГц, в связи с чем остальные были вынуждены ждать, когда она отправит трафик. Теперь же эти 20 МГц нарезаны на менее крупные поднесущие, объединяемые в ресурсные юниты, вплоть до 2 МГц, и в один временной слот могут вещать одновременно до девяти станций. Отсюда значительный рост производительности всей сети.

Мы уже рассказывали, что в стандарт шестого поколения были добавлены более высокие схемы модуляции: 1024-QAM против прежних 256. Сложность кодирования, таким образом, увеличилась на 25%: если раньше на один символ мы передавали до 8 бит информации, то сейчас 10 бит.

Увеличилось и число пространственных потоков (spatial streams). В предыдущих стандартах их было максимум четыре, тогда как сейчас до восьми, а в старших точках доступа Huawei и до дюжины.

Кроме того, в Wi-Fi 6 снова задействуется частотный диапазон 2,4 ГГц, который позволяет сравнительно недорого производить чипсеты для конечных терминалов с поддержкой Wi-Fi 6 и подключать огромное количество устройств, будь то полноценные IoT-модули или какие-то совсем дешёвые датчики.

Что особенно важно, в стандарте реализовано немало технологий для более эффективного использования радиоспектра, в том числе для переиспользования каналов и частот. В первую очередь достойна упоминания Basic Service Set (BSS) Coloring, которая позволяет игнорировать чужие точки доступа, работающие на том же канале, и в то же время слушать свои.

Какие точки доступа Wi-Fi 6 от Huawei мы считаем нужным делать в первую очередь







На рисунках представлены точки доступа, которые Huawei предлагает сегодня и, главное, которые вскоре начнёт поставлять, начиная с базовой модели AirEngine 5760 и заканчивая топовыми.



В наших точках доступа, поддерживающих стандарт 802.11ax, реализован целый комплекс уникальных технологических решений.

  • Наличие встроенного модуля IoT или возможность подключения внешнего. Во всех точках доступа верхняя крышка теперь открывается, и под ней скрыты два слота под IoT-модули, причём практически какие угодно. Например, от ZigBee, подходящие для подключения умных розеток или реле, датчиков телеметрии и т. п. Или специализированные, например для работы с электронными ценниками (такое решение у Huawei реализовано в партнёрстве с компанией Hanshow). Плюс у точек доступа некоторых серий имеется дополнительный разъём USB, и модуль интернета вещей можно подсоединить через него.
  • Новое поколение технологии Smart Antenna. В корпусе точки доступа размещается до 16 антенн, формирующих до 12 пространственных потоков. Такие умные антенны позволяют, в частности, увеличить радиус покрытия (и избавиться от мёртвых зон) за счёт того, что каждая из них имеет сфокусированный диапазон распространения радиосигнала и понимает, где в тот или иной момент времени пространственно находится конкретный клиент.
  • Больший радиус распространения сигнала означает, что RSSI у клиента, или уровень сигнала на приёме, тоже будет выше. В сравнительных тестах, когда испытаниям подвергаются обычная omni-directional точка доступа и та, которая снабжена смарт-антеннами, у второй наблюдается двукратный прирост по мощности дополнительные 3 дБ


В случае применения смарт-антенн не возникает асимметрии сигнала, так как чувствительность точки доступа пропорционально увеличивается. Каждая из 16 антенн выступает в качестве зеркала: в силу принципа многолучевого распространения, когда клиент отправляет пучок информации, соответствующая радиоволна, отразившись от различных преград, попадает на все 16 антенн. Дальше точка, используя свои внутренние алгоритмы, складывает полученные сигналы и с большей степенью достоверности восстанавливает закодированные данные.


  • Во всех новых точках доступа Huawei реализована технология SDR (Software-Defined Radio). Благодаря ей в зависимости от предпочтительного сценария эксплуатации беспроводной инфраструктуры администратор устанавливает, каким образом должны функционировать три радиомодуля. Сколько пространственных потоков на тот или иной выделить, также определяется динамически. Например, можно сделать так, чтобы два радиомодуля работали на подключение клиентов (один в диапазоне 2,4 ГГц, другой в 5 ГГц), а третий функционировал как сканер, следя, что происходит с радиосредой. Или задействовать три модуля исключительно на подключение клиентов.

    Ещё один распространённый сценарий это когда клиентов в сети не слишком много, но у них на устройствах функционируют высоконагруженные приложения, которым требуется высокая пропускная способность. В таком случае все пространственные потоки завязываются на частотные диапазоны 2,4 и 5 ГГц, каналы же агрегируются, чтобы обеспечить пользователям не 20-, а 80-мегагерцовую полосу пропускания.
  • В точках доступа реализованы фильтры в соответствии с спецификациями 3GPP, для того чтобы размежевать между собой радиомодули, которые потенциально могут работать на разных частотах в диапазоне 5 ГГц, во избежание внутренней интерференции


Точки доступа предусматривают работу в разных режимах. Один из них RTU (Right-to-Use). Вкратце его базовый принцип заключается в следующем. Модели отдельных серий будут поставляться в стандартной версии, например с шестью пространственными потоками. Далее же с помощью лицензии можно будет расширить функциональность устройства и активировать ещё два потока, раскрывая заложенный в него аппаратный потенциал. Другой вариант: возможно, с течением времени у клиента возникнет необходимость выделить дополнительный радиоинтерфейс под сканирование эфира, и чтобы ввести его в строй, достаточно будет опять же докупить лицензию.

В правой нижней части на предыдущей иллюстрации у точек доступа приведены цифровые соответствия, например 2+2+4 применительно к AirEngine 5760. Суть в том, что у ТД имеется три независимых радиомодуля. Цифры показывают, какое количество пространственных потоков будет привязано к каждому радиомодулю. Соответственно, число потоков напрямую отражается на пропускной способности в том или ином диапазоне. Стандартная серия предусматривает до восьми потоков. Продвинутая до 12. Наконец, flagship (устройства класса hi-end) до 16.

Как устроена линейка AirEngine





Отныне общий бренд корпоративных беспроводных решений AirEngine. Как легко заметить, дизайн точек доступа создан под впечатлением от турбин самолётных двигателей: на передней и задней поверхностях устройств размещены специальные диффузоры.



Устройства начальной серии AirEngine 5760-51 наиболее доступны для потребителя и рассчитаны на самые распространённые сценарии. Например, для ритейла. Впрочем, и для офисных нужд они вполне подходят, будучи универсальными с точки зрения используемого в них технологического стека и стоимости.



Следующая по старшинству серия 5760-22W. В неё входят точки доступа типа wall-plate, которые не подвешиваются к потолку, а ставятся на стол, в угол или крепятся к стене. Наилучшим образом они подходят для тех сценариев, в которых требуется охватить беспроводной связью большое количество сравнительно маленьких помещений (в школе, больнице и пр.), где также бывает точечно нужно и проводное подключение.

У модели 5760-22W (wall-plate) предусмотрено подключение по 2,5 Гбит/с через медные интерфейсы, а также имеется специальный SFP-трансивер для PON. Таким образом, уровень доступа можно полностью реализовать по пассивной оптической сети и подключить точку доступа напрямую к этой GPON-сети.



В модельный ряд входят как внутренние, так и внешние точки доступа. Вторые легко отличить по литере R (outdoor) в названии. Таким образом, AirEngine 8760-X1-PRO рассчитана на применение в помещениях, а AirEngine 8760R-X1 на уличные сценарии. Если же в названии точки доступа содержится буква E (external), значит, антенны у неё не встроенные, а внешние.


Топовая модель AirEngine 8760-X1-PRO оснащена тремя десятигигабитными интерфейсами для подключения. Два из них медные, причём оба поддерживают PoE / PoE-IN, что позволяет зарезервировать устройство по питанию. Третий для оптиковолоконного подключения (SFP+). Уточним, это комбоинтерфейс: возможно подключение как по меди, так и по оптике. Также, допустим, ничто не мешает подключить точку доступа по оптике, а питание дать от инжектора через медный интерфейс. Нужно упомянуть также встроенный порт Bluetooth 5.0. Производительность у 8760-X1-PRO максимальная в линейке, благо она поддерживает до 16 пространственных потоков.

Хватит ли точкам доступа PoE+ для электропитания?
Для старшей серии (8760) требуется POE++. Именно поэтому в мае-июне поступают в продажу коммутаторы CloudEngine s5732 с мультигигабитными портами и с поддержкой 802.3bt (до 60 Вт).




Более того, AirEngine 8760-X1-PRO получает дополнительное охлаждение. По двум контурам внутри точки доступа циркулирует жидкость, отводя лишнее тепло от чипсета. Это решение в первую очередь призвано обеспечить длительное функционирование устройства с пиковой производительностью: некоторые другие вендоры декларируют, что их точки доступа тоже в состоянии выдавать до 10 Гбит/с, тем не менее через 1520 минут эти устройства склонны к перегреву, и ради понижения их температуры часть пространственных потоков отключается, что снижает пропускную способность.

В точках доступа младших серий жидкостного охлаждения нет, однако у них нет и проблемы перегрева в силу более низкой производительности. Модели среднего уровня AirEngine 6760 поддерживают до 12 пространственных потоков. Подключение у них также осуществляется по десятигигабитным интерфейсам. Кроме того, наличествует гигабитный для подсоединения к существующим коммутаторам.





Уже сравнительно давно Huawei предлагает решение Agile Distributed Wi-Fi, которое подразумевает наличие центральной точки доступа и выносных радиомодулей, ею управляемых. Такая ТД отвечает за разного рода высоконагруженные задачи и снабжена CPU, чтобы реализовать QoS, принимать решения о роуминге клиентов, ограничивать полосу, распознавать приложения и т. д. В свою очередь, внешние радиомодули фактически отправляют трафик в изначальном виде на центральную точку доступа и выступают конверторами из 802.11 в 802.3.

Решение оказалось не слишком популярным в России. Тем не менее нельзя не отметить и его преимущества. Например, возможность изрядно сэкономить на стоимости лицензий, благо на каждый радиомодуль не требуется покупать отдельную. Кроме того, основная нагрузка ложится на центральные точки доступа, что позволяет развернуть огромную, из десятка тысяч элементов, беспроводную сеть. Так что мы обновили и Agile Distributed Wi-Fi, задействовав преимущества своего технологического стека вокруг Wi-Fi 6.





Точки доступа для уличного применения также поступят в продажу в июне. Старшая серия среди outdoor-устройств 8760R, с максимальным технологическим стеком (в частности, доступно до 16 пространственных потоков). Однако, предполагаем, для большинства сценариев оптимальным выбором будет 6760R. Уличное покрытие, как правило, требуется или на складах, или для wireless bridging, или на технологических площадках, где периодически возникает необходимость принять или передать некую телеметрию или снять информацию с терминалов сбора данных.

О технологических преимуществах точек доступа AirEngine





Раньше вариативность внешних антенн для наших точек доступа была крайне ограниченна. Были либо антенны omni-directional (дипольные), либо совсем узконаправленные. Теперь выбор шире. К примеру, увидела свет антенна 70 / 70 по азимуту и элевации. Поставив её в углу помещения, можно покрыть сигналом практически всё пространство перед ней.

Перечень антенн, которыми снабжаются внутренние точки доступа, пополняется, и не исключено, что будет пополняться в том числе выпускаемыми другими производителями. Оговоримся, направленных среди них нет. Если в помещении требуется организовать фокусировку покрытия, нужно или использовать модели с внешними дипольными антеннами и самостоятельно позиционировать их для оптимального распространения радиосигнала, или брать точки доступа со встроенными смарт-антеннами.



Касательно инсталляции точек доступа существенных изменений нет. Все модели комплектуются креплениями для монтажа как на потолок, так и на стену или даже на трубу (металлическими хомутами). Для офисных потолков с рейлингами типа Armstrong крепления тоже подходят. Дополнительно можно поставить замки, что особенно актуально, если точка доступа будет функционировать в общественном месте.



Если совсем бегло пройтись по ключевым технологическим новшествам, которые были претворены в жизнь при разработке модельного ряда AirEngine, получится такой список.

  • Достигнута наибольшая по индустрии производительность. На сегодняшний день только Huawei удалось реализовать 16 приёмных и передающих антенн при 12 пространственных потоках в одной точке доступа. Технологией смарт-антенн в том виде, в каком она воплощена Huawei, также ни одна другая компания на текущий момент не располагает.
  • У Huawei имеются специальные решения для достижения сверхнизкой задержки. Это позволяет, в частности, обеспечить полностью бесшовный роуминг для подвижных складских роботов.
  • Как известно, технология Wi-Fi 6 несёт в себе два решения для множественного доступа: OFDMA и Multi-User MIMO. Никто, кроме Huawei, до сих пор не сумел организовать их одновременную работу.
  • Поддержка интернета вещей у точках доступа AirEngine беспрецедентно широкая и нативная.
  • Линейка отвечает самым высоким стандартам безопасности. Так, во всех наших точках Wi-Fi 6 реализовано шифрование на базе протокола WPA3.




От чего зависит пропускная способность точки доступа? Согласно теореме Шеннона, от трёх факторов:

  • от количества пространственных потоков;
  • от ширины полосы пропускания;
  • от соотношения сигнал шум.


Решения Huawei по каждому из трёх названных направлений отличаются от того, что предлагают другие вендоры, и в каждом содержат немало улучшений.

  1. Устройства Huawei способны формировать до двенадцати пространственных потоков, в то время как топовые точки доступа других производителей лишь восемь.
  2. Новые точки доступа Huawei в состоянии формировать восемь пространственных потоков шириной 160 МГц каждый, тогда как у конкурирующих вендоров максимум восемь потоков по 80 МГц. Как следствие, потенциально достижимо полутора-, а то и двукратное превосходство наших решений в производительности.
  3. Что до соотношения сигнал шум, за счёт использование технологии Smart Antenna наши точки доступа демонстрируют значительно большую толерантность к интерференции и гораздо более высокий уровень RSSI на приёме у клиента как минимум в два раза больше (на 3 дБ).




Разберёмся, откуда берётся пропускная способность, которую принято указывать в datasheets. В нашем случае 10,75 Гбит/с.

Формула расчёта показана на рисунке выше. Давайте посмотрим, что представляют собой множители в ней.

Первый число пространственных потоков (на 2,4 ГГц до четырёх, на 5 ГГц до восьми). Второй единица, делённая на сумму продолжительности символа и длительности защитного интервала в соответствии с используемым стандартом. Так как в Wi-Fi 6 продолжительность символа увеличена вчетверо до 12,8 мкс, а защитный интервал равен 0,8 мкс, в итоге выходит 1/13,6 мкс.

Далее: напомним, благодаря улучшенной модуляции 1024-QAM на каждый символ теперь может кодироваться до 10 бит. Итого имеем битрейт 5/6 (FEC) четвёртый множитель. А пятый количество поднесущих (тонов).

Наконец, складывая максимальную производительность для 2,4 и для 5 ГГц, мы и получаем впечатляющее значение 10,75 Гбит/с.



Также в наших точках доступа и контроллерах появилось управление радиочастотными ресурсами DBS. Если раньше нужно было единожды выбрать для того или иного SSID ширину канала (20, 40 или 80 МГц), теперь есть возможность настроить контроллер так, чтобы он делал это динамически.



Ещё одно улучшение в распределение радиоресурсов привнесла технология SmartRadio. Раньше при наличии нескольких точек доступа в одной зоне можно было указать, по какому алгоритму перераспределить клиентов, к какой ТД подключать нового и т. д. Но эти настройки применялись лишь единожды, в момент его подсоединения и ассоциации с сетью Wi-Fi. В случае же с AirEngine алгоритмы для балансировки нагрузки могут применяться в реальном времени, когда клиенты работают и, например, перемещаются между точками доступа.



Важный нюанс относительно антенных элементов: в моделях AirEngine они реализуют сразу и вертикальную, и горизонтальную поляризацию. Каждый поддерживает четыре антенны, и таких элементов насчитывается четыре штуки. Отсюда и итоговое количество 16 антенн.



Сам по себе антенный элемент пассивный. Соответственно, чтобы сфокусировать большее количество энергии в направлении клиента, требуется сформировать с помощью компактных антенн более узкий луч. Huawei это удалось. Итог радиопокрытие в среднем на 20% больше, чем у конкурирующих решений.

Применительно к Wi-Fi 6 сверхвысокая пропускная способность и высокие уровни модуляции (схемы MCS 10 и MCS 11) возможны, только когда соотношение сигнал шум, или Signal-to-Noise Ratio, превышает 35 дБ. На счету каждый децибел. И смарт-антенна действительно позволяет повысить уровень принимаемого сигнала.

В реальных тестах модуляция 1024-QAM при схеме MCS 10 будет работать на удалении не более 3 м от точки доступа, какую из доступных на рынке ни возьми. Ну а при использовании умной антенны расстояние может быть увеличено до 67 м.



Ещё одна технология, которую Huawei интегрировала в новые точки доступа, называется Dynamic Turbo. Её суть заключается в том, что ТД на лету может распознавать и классифицировать приложения по классам (допустим, передаёт оно real-time видео, голосовой трафик или что-то другое), различать клиентов по степени их значимости и выделять ресурс-юниты таким образом, чтобы важные для пользователей высокоуровневые приложения работали быстро, насколько возможно. Фактически на аппаратном уровне точка доступа осуществляет DPI глубокий анализ трафика.



Как отмечалось ранее, Huawei на текущий момент единственный вендор, который в своих решениях обеспечивает одновременную работу MU-MIMO и OFDMA. Давайте чуть подробнее о том, в чём разница между ними.

Обе технологии призваны обеспечивать multi-user access. Когда в сети много пользователей, OFDMA позволяет распределить частотный ресурс таким образом, чтобы множество клиентов получало и принимало информацию в один момент времени. Однако и MU-MIMO в конечном счёте нацелена на то же: когда несколько клиентов находятся в разных точках помещения, каждому из них можно направить уникальный пространственный поток. Для наглядности вообразим, что частотный ресурс это трасса Москва Санкт-Петербург. OFDMA словно бы предлагает: Давайте мы сделаем у дороги не одну полосу, а две, чтобы она использовалась эффективнее. У MU-MIMO подход иной: Давайте проложим вторую, третью дорогу, чтобы трафик шёл по независимым путям. Теоретически одно другому не противоречит, на деле же комбинация двух методов требует определённой алгоритмической базы. Благодаря тому, что Huawei эту базу сумела создать, пропускная способность наших точек доступа увеличилась практически на 40% относительно того, что в состоянии обеспечить конкуренты.





Что касается безопасности, новые точки доступа, подобно предшествующим моделям, поддерживают DTLS. А значит, как и раньше, управляющий CAPWAP-трафик можно шифровать.

С защитой от внешних злонамеренных воздействий всё тоже как в предыдущем поколении контроллеров. Любые типы атак, будь то брутфорс, атака Weak IV (слабые инициализационные векторы) или нечто иное, детектируются в реальном времени. Настраивается и реакция на DDoS: система умеет делать динамические чёрные списки, уведомлять администратора о происходящем при попытке распределённой сетевой атаки и пр.

Какие решения сопутствуют моделям AirEngine





Наша аналитическая платформа CampusInsight в разрезе Wi-Fi 6 решает несколько задач. Прежде всего она задействуется в радиоменеджменте наравне с контроллером: CampusInsight позволяет выполнять калибрацию и в реальном времени наилучшим образом распределять каналы, регулировать мощность сигнала и полосу пропускания того или иного канала, контролировать, что вообще происходит с сетью Wi-Fi. При всём при том CampusInsight применима и в wireless security (в частности, для intrusion prevention и intrusion detection), причём не в привязке к конкретной точке доступа или одному SSID, а в масштабе всей беспроводной инфраструктуры.



Достоин внимания и WLAN Planner средство для радиомоделирования, причём часть препятствий, например стены, он умеет определять самостоятельно. На выходе программа выдаёт краткий отчёт, в котором среди прочего указывается, какое количество точек доступа требуется для покрытия помещения. Исходя из таких вводных гораздо проще принимать более осмысленные решения относительно спецификаций оборудования, бюджетирования и т. д.



Среди ПО упомянем также приложение Cloud Campus App, доступное всем желающим как на iOS, и на Android и содержащее целый набор инструментов для контроля беспроводной сети. Часть из них предназначена для проверки качества работы Wi-Fi (например, роуминг-тест). Помимо всего прочего, можно оценивать уровень сигнала, находить источники интерференции, проверять пропускную способность в той или иной зоне, а при наличии проблем выявлять их причины.

***


Эксперты Huawei продолжают регулярно проводить вебинары по нашим новым продуктам и технологиям. Среди тем: принципы построения ЦОДов с использованием оборудования Huawei, специфика эксплуатация массивов Dorado V6, ИИ-решения для различных сценариев и многое, многое другое. Список вебинаров на ближайшие недели вы найдёте, пройдя по ссылке.

Приглашаем вас также заглянуть на форум Huawei Enterprise, где обсуждаются не только наши решения и технологии, но и более широкие вопросы инженерного толка. В том числе на нём открыта ветка по Wi-Fi 6 подключайтесь к дискуссии!
Подробнее..

Как архитектура HiCampus упрощает организацию кампусных сетевых решений

26.06.2020 16:08:22 | Автор: admin
Предлагаем вашему вниманию краткий обзор новой архитектуры Huawei HiCampus, в основе которой полностью беспроводной доступ для пользователей, IP + POL и интеллектуальная платформа поверх физической инфраструктуры.



В начале 2020 года мы представили две новые архитектуры, которые прежде использовались исключительно в Китае. О HiDC, которая рассчитана в первую очередь на развёртывание инфраструктуры ЦОДов, весной на Хабре уже выходил пост. Теперь же рассмотрим в общих чертах HiCampus архитектуру более широкого профиля.

Зачем нужен HiCampus




Шквал событий, что повлекли за собой пандемия и противостояние ей, волей-неволей побудил многих быстрее прийти к пониманию того, что кампусы это фундамент нового интеллектуального мира. Под обобщающим словом кампус объединены не только офисные зоны, но и исследовательские институты, лаборатории, университеты вместе со студенческими городками и не только.

В одной только России у Huawei на середину 2020 года насчитывается свыше тысячи разработчиков. Мало того, через два-три года их будет приблизительно впятеро больше. А сосредоточены они как раз таки в кампусах, где мы должны обеспечить им бесшовный сервис по запросу, не заставляя их ждать.

Собственно, для конечного пользователя HiCampus это действительно в первую очередь более удобная, чем прежде, рабочая среда. Бизнесу же она помогает повышать эффективность производства, вдобавок оказывается легче для него в эксплуатации.



Между тем на кампусах становится всё больше пользователей, и у тех всё больше устройств. Хорошо ещё, что не каждая куртка пока снабжена Wi-Fi-модулем: умная одежда ещё диковинка, однако не исключено, что вскоре она войдёт в широкий обиход. Как следствие, без радикальных технологических преобразований качество сервиса в сети снижается. Ничего удивительного: потребление трафика увеличивается, растёт расход электроэнергии, а новые сервисы требуют всё больше ресурсов разного толка. Тем временем владельцы бизнеса и советы директоров, зачастую воодушевлённые теми темпами, с какими проходит цифровая трансформация вокруг, в том числе у конкурентов, хотят новых возможностей быстро и дёшево (Как, у нас в офисе нет видеонаблюдения с face recognition? Почему?!). Кроме того, от сетевой инфраструктуры сегодня ждут синергетического эффекта: развёртывать сеть ради одной только сети уже не принято, да и не в духе времени.



Эти проблемы и призвана решить HiCampus. У неё мы выделяем три среза, каждый из которых привносит свои преимущества в архитектуру. Перечислим их в порядке от нижестоящего к вышестоящему:

  • полностью беспроводной;
  • полностью оптический;
  • интеллектуальный.


Полностью беспроводной срез


Базис полностью беспроводного среза продуктовое решение Huawei на основе Wi-Fi шестого поколения. В сравнении с Wi-Fi 5 оно позволяет вчетверо увеличить количество одновременно подключаемых пользователей и избавить обитателей кампуса от необходимости где бы то ни было подсоединяться к сети по проводам.



Новая продуктовая линейка AirEngine, на которой строится беспроводная среда HiCampus, включает в себя точки доступа (ТД) под самые разные сценарии: хотите для индустриальной эксплуатации с IoT, хотите для применения вне помещений. Дизайн, габариты, способы крепления устройств также допускают все мыслимые варианты использования.

Нововведениям в ТД, например увеличенному числу антенн на приём (их теперь 16 штук), мы обязаны своему центру разработки в Тель-Авиве: работающие там наши коллеги привнесли в Wi-Fi 6 многое из своего предыдущего опыта улучшения сетей WiMAX и 5G-сетей, благодаря чему им удалось серьёзно оптимизировать задержки и пропускную способность точек AirEngine. В результате мы оказались в состоянии гарантировать пропускную способность не ниже заданной отметки каждому клиенту: фраза 100 Мбит/с везде в нашем случае не пустой звук.



Как это получилось? Тут ненадолго обратимся к теории. В соответствии с теоремой Шеннона пропускную способность точки доступа определяют (a) количество пространственных потоков, (b) ширина полосы пропускания и соотношение сигнал шум. У Huawei модификации в сравнении с предыдущими продуктами были произведены по всем трём пунктам. Так, наши ТД способны формировать до 12 пространственных потоков в полтора раза больше, чем топовые модели других вендоров. Кроме того, они могут поддерживать восемь пространственных потоков шириной по 160 МГц против в лучшем случае восьми потоков по 80 МГц у конкурентов. Наконец, благодаря технологии Smart Antenna наши точки доступа демонстрируют значительно большую толерантность к интерференции и более высокий уровень RSSI на приёме у клиента.

По итогам 2019 года наши коллеги из Тель-Авива получили высшую награду внутри компании именно за то, что им удалось на чипе с поддержкой Wi-Fi 802.11ax добиться показателя сигнал шум (SNR) выше, чем у другого известного американского производителя. Результат был достигнут как за счёт использования новых материалов, так и с помощью более совершенной алгоритмической базы, зашитой в процессор. Отсюда и другие выгодные стороны Wi-Fi 6 в интерпретации Huawei. В частности, реализован механизм multi-user MIMO, благодаря которому на одного пользователя может быть выделено до восьми пространственных потоков; MU-MIMO рассчитан на то, чтобы задействовать в передаче информации клиентам весь антенный ресурс точки доступа. Конечно, восемь потоков разом не будут отряжены под какой-нибудь смартфон, а вот под ноутбук последнего поколения или VR-комплекс индустриального назначения вполне.



Таким образом, с 16 пространственными потоками на физическом уровне возможно взять планку 10 Гбит/с на точку. На уровне application-трафика эффективность среды передачи данных составит 7880%, или около 8 Гбит/с. Оговоримся, это справедливо в случае с эксплуатацией 160-мегагерцовых каналов. Разумеется, Wi-Fi 6 рассчитан перво-наперво на массовые подключения, и если их десятки, то каждое отдельно взятое не будет таким заоблачно скоростным.



В лабораторных условиях мы неоднократно проводили тесты с помощью утилиты нагрузки iPerf и фиксировали, что две hi-end-точки Huawei из линейки AirEngine, используя восемь пространственных потоков шириной 160 МГц каждый, обмениваются данными на уровне приложений со скоростью около 8,37 Гбит/с. Нужно сделать ремарку: да, прошивка у них специальная, рассчитанная на то, чтобы раскрыть потенциал оборудования в ходе испытаний, однако факт остаётся фактом.

Кстати, у Huawei в России действует Joint Validation Lab с обширным парком Wi-Fi-оборудования. Раньше мы использовали в ней устройства с M.2-чипами других производителей, теперь же показываем производительность Wi-Fi 6 на телефонах собственного производства, например P40.








На иллюстрациях выше видно, что в едином конструктивном блоке, каких в точке доступа четыре штуки, содержится также по четыре элемента итого 16 приёмо-передающих антенн, функционирующих в динамическом режиме. Что касается beamforming, благодаря применению большего количества антенн на элементе удаётся формировать более узкий и длинный луч и надёжнее вести клиента, обеспечивать ему улучшенный user experience.

За счёт использования дополнительных патентованных материалов достигаются высокие электрические показатели самой антенны. Отсюда и меньший процент потерь на сигнал и гораздо выигрышнее параметры отражения сигнала.





У себя в лабораториях мы не раз проводили тесты на сравнение силы сигнала точек доступа на одинаковом расстоянии покрытия. На иллюстрации выше видно, что на треногах установлены две ТД, поддерживающие Wi-Fi 6: одна (красная) со смарт-антеннами, от Huawei, другая без них. Расстояние от точки до телефона в обоих случаях 13 м. Про прочих равных тот же частотный диапазон 5 ГГц, частота канала 20 МГц и т. д. в среднем разница в силе сигнала между устройствами исчисляется 3 дБм, и преимущество на стороне точки Huawei.







Во втором тесте задействованы те же точки Wi-Fi 6, тот же диапазон 20 МГц, тот же срез 5 ГГц. На расстоянии 13 м существенной разницы не наблюдается, но, как только мы увеличиваем дистанцию вдвое, показатели расходятся почти на порядок (7 дБм) в пользу нашего AirEngine.

Используя технологии 5G DynamicTurbo, благодаря которым на базе беспроводной среды приоритезируется трафик от VIP-пользователей, мы добиваемся сервиса, какого раньше в Wi-Fi-среде не было (например, топ-менеджер компании не будет регулярно спрашивать вас, отчего у него такое слабое соединение). До сих пор они были почти исключительно достоянием мира проводных сетей либо TDM, либо IP Hard Pipe, с выделением MPLS-туннелей.

Также Wi-Fi 6 претворяет в жизнь концепцию бесшовного роуминга. Всё благодаря тому, что модифицирован механизм миграции между точками: сначала пользователь подключается к новой и только потом диссоциируется от старой. Это новшество благотворно отражается на функционировании в таких сценариях, как телефония через Wi-Fi, телемедицина и automotive, а именно работа автономных роботов, беспилотников и т. д, для которых критически важно бесперебойно держать соединение с управляющим центром.



В мини-ролике выше в игровой форме отражён вполне современный кейс применения Wi-Fi 6 от Huawei. У собаки в красном комбинезоне VR-очки подцеплены к точке AirEngine, которая быстро переключается и обеспечивает минимальные задержки в передаче информации. Другому псу повезло меньше: аналогичные очки, надетые ему на голову, подсоединены к ТД другого вендора (из этических соображений, само собой, не станем его называть), и пусть перебои и лаги не фатальные, но мешают накладывать виртуальное окружение на окружающее пространство в реальном времени.



Внутри Китая архитектура применяется вовсю. С применением её решений построено около 600 кампусов, из них добрая половина соответствует принципам HiCampus от начала до конца.

Как показывает практика, эффективнее всего применение HiCampus для совместной работы в офисных пространствах, на умных фабриках с их подвижными автономными роботами AGV, а также в местах массового скопления людей. Например, в пекинском международном аэропорту, где развёрнута сеть Wi-Fi 6, обеспечивающая беспроводные услуги для пассажиров на всей территории; среди прочего благодаря кампусной инфраструктуре аэропорту удалось сократить время ожидания в очереди на 15% и сэкономить 20% на персонале.

Полностью оптический срез






Всё чаще мы строим кампусы по новой модели IP + POL, и вовсе не повинуясь велению прихотей технологической моды. Господствовавший раньше подход, при котором, развёртывая сетевую инфраструктуру в здании, мы тянули оптику до этажа, а дальше делали разводку медью, накладывал на архитектуру суровые ограничения. Достаточно одного того, что при необходимости апгрейда приходилось менять практически всю среду на уровне этажа. Сам материал, медь, тоже не идеален: и с точки зрения пропускной способности, и с точки зрения жизненного цикла, и с точки зрения дальнейшего развития среды. Конечно, медь была всем понятна и позволяла создавать несложные сетевые решения быстро и недорого. Вместе с тем по совокупной стоимости владения и по потенциалу к апгрейду сети медь в 2020 году проигрывает оптике.

Особенно ярко превосходство оптики проступает, когда нужно закладываться на длинный жизненный цикл инфраструктуры (и оценивать расходы на неё вдолгую), а также когда ту ждёт серьёзная эволюция. Например, требуется, чтобы в среде постоянно функционировали 4K-камеры и 8K-телевизоры или другой digital signage с высоким разрешением. В подобных ситуациях наиболее разумным решением будет применение полностью оптической с использованием оптических коммутаторов сети. Раньше стоп-фактором при выборе в пользу такой модели построения кампуса служило малое число конечных терминалов optical network units (ONU). В настоящее же время не только пользовательские машины предполагают возможность подключения через терминалы к оптической сети. В ту же Wi-Fi-точку вставляется приёмопередатчик, работающий с POL-сетью, и мы получаем беспроводной сервис через высокоскоростную оптическую сеть.

Таким образом, полноценно внедрить Wi-Fi 6 можно малой кровью: наладить IP + POL-сеть, присоединить Wi-Fi к ней и спокойно наращивать производительность. Единственное, в случае с Wi-Fi-точками требуется локальное электропитание. В остальном ничто не мешает нам довести сеть до 10 или 50 Гбит/с.



Развёртывание полностью оптических сетей целесообразно в самых разных случаях. Например, им трудно представить альтернативу в старых домах с длинными пролётами. Если вы никогда не занимались ребилдингом здания в центре Москвы, то, поверьте, вам крупно повезло: обычно все проходы для кабеля в таких строениях забиты, и чтобы организовать локальную сеть по уму, подчас приходится делать всё с нуля. В случае же с POL-решением можно проложить оптический кабель, развести его сплиттерами и создать современную сеть.

То же касается учебных заведений с корпусами старой архитектуры, отельных комплексов и огромных зданий, включая аэропорты.









Руководствуясь принципом practice what you preach, в организации сетевых сред по модели IP LAN + POL мы начали с себя. Достроенный полтора года назад огромный, общей площадью помещений более 1,4 млн м, кампус Huawei на озере Суншань (Китай) один из первых кейсов реализации архитектуры HiCampus; его здания, кстати, воспроизводят своим обликом известные памятники европейской архитектуры. Внутри же всё, напротив, современно, насколько только возможно.

Из центрального здания оптические линии расходятся в соседние, подлежащие кампусы, где, в свою очередь, также разводятся по этажам и т. д. Точки доступа Wi-Fi 6, покрывающие всю территорию, соответственно, сидят именно на оптике.

На кампусе реализован целый спектр сервисов, которые требуют стабильного высокоскоростного подключения, в том числе видеонаблюдение с помощью камер высокого разрешения. Служат они, впрочем, не только для видеонаблюдения. На входе в кампус цифровая платформа SmartCampus через эти самые камеры идентифицирует сотрудника по лицу, затем тот прикладывает свой RFID-беджик к пропускному терминалу, и только после успешной аутентификации по двум критериям ему будут открыты двери и предоставлен доступ к беспроводной сети и цифровым сервисам кампуса, проскользнуть внутрь с чужим беджем не удастся. Кроме того, на всей территории комплекса доступны VDI-сервис (cloud desktop), система конференц-связи и многие другие сервисы, завязанные на Wi-Fi 6 с оптическим подключением.

Использование полностью сетевых оптических решений, помимо всего прочего, экономит уйму места, а чтобы их обслуживать, требуется гораздо меньше людей. Таким образом, по нашей статистике, в среднем инвестиции в инфраструктуру благодаря оптическому слою сокращаются на 40%.

Полностью интеллектуальный срез






Поверх физических решений, связанных с оптической и беспроводной средой передачи данных, в HiCampus плотно задействована интеллектуальная платформа Horizon, которая служит целям цифровой трансформации и позволяет извлечь из инфраструктуры больше пользы.

Для задач, связанных с самой инфраструктурой, используется подлежащий слой управления на платформе iMaster NCE-Campus.

Первое её предназначение задействовать технологии машинного обучения для контроля за сетью. В частности, ML-алгоритмы дали возможность реализовать в iMaster NCE модуль CampusInsight O&M 1-3-5: в течение минуты приходят сведения об ошибке, три минуты тратится на её обработку, за пять минут она устраняется (подробнее см. в нашей статье Сетевые продукты и решения Huawei Enterprise для корпоративных заказчиков в 2020 году). Таким образом исправляется ни много ни мало 7590% возникающих ошибок.

Вторая задача более интеллектуальная интегрировать различные сервисы, связанные с умным кампусом (тот же самый контроль сети, видеонаблюдение и пр.).

Когда в сетевой инфраструктуре несколько десятков точек доступа и пара контроллеров, ничто не мешает снимать с них трафик и разбирать его вручную посредством Wireshark. Но когда точек тысячи, контроллеров десятки, а разнесено всё это хозяйство по большой территории, искать неисправности становится многократно труднее. Чтобы упростить задачу, мы разработали решение iMaster NCE CampusInsight (по нему у нас был отдельный вебинар). С его помощью, накапливая информацию с устройств пакеты уровня Layer-1 / Layer-4, можно оперативно находить неисправности в сетевой среде.

Выглядит процесс следующим образом. Платформа, допустим, показывает нам, что у пользователя не ладится с радиоаутентификацией. Она проводит анализ и указывает, на каком шаге возникла проблема. И если та связана со средой, то платформа предложит нам решить проблему (в интерфейсе возникает кнопка Resolve). В видео ниже показано, как в системе приходит уведомление о том, что произошёл reject RADIUS: скорее всего, либо пользователь неверно ввёл пароль, либо пароль поменялся. Таким образом, без судорожных попыток разобраться, в чём дело, удаётся сберечь уйму времени, благо все данные сохраняются и предысторию той или иной коллизии легко изучить.



Распространённая история: к вам подходит владелец компании или CTO и сетует на то, что некая важная персона вчера у вас в офисе не сумела подсоединиться к беспроводной сети. Приходится решать вопрос. Возможно, под угрозой потери квартальной премии. В обычной ситуации нельзя устранить проблему, не найдя того самого VIP-пользователя. А что, если это какой-нибудь топ-менеджер или замминистра, с которым и встретиться-то нелегко, тем более попросить у него смартфон, чтобы разобраться в проблеме? Избежать подобных ситуаций помогает продукт Huawei, использующий наш дистрибутив больших данных FusionInsight, который хранит весь накопленный объем знаний о происходившем в сети, благодаря чему до истоков любой неполадки можно дойти путём ретроспективного анализа.



Устройства и их связность дело важное. Но чтобы построить действительно умный кампус, необходима софтверная надстройка.

Прежде всего, в HiCampus поверх физического уровня задействуется облачная платформа. Она может иметь приватное, публичное или гибридное исполнение. На неё, в свою очередь, наслаиваются сервисы для работы с данными. Вся эта совокупность ПО и является цифровой платформой. С концептуальной точки зрения она опирается на принципы Relationship, Open, Multi-Ecosystem, Any-Connect сокращённо ROMA (о них и о платформе в целом также будет отдельный вебинар и пост по его следам). Обеспечивая связь между компонентами среды, Horizon делает её более целостной, что далее находит подтверждение как в бизнес-показателях, так и в комфорте пользователей.

В свою очередь, интеллектуальный центр управления Huawei IOC (Intelligent Operation Center) призван следить за здоровьем кампуса, энергоэффективностью и защищённостью, а главное, даёт общую панораму того, что происходит на кампусе. Скажем, благодаря наглядной схеме визуализации (см. демо) будет видно, что камера среагировала на какой-то тревожный фактор, и можно мигом получить картинку с неё. Если вдруг произошло возгорание, по RFID-датчикам легко проверить, все ли люди покинули помещение.

А благодаря тому, что к точкам доступа Huawei можно подключать дополнительные модули, которые работают по RFID, ZigBee или Bluetooth, нетрудно создать среду, которая будет чутко мониторить ситуацию на кампусе и сигнализировать о самых разных проблемах. Кроме того, с помощью IOC удобно производить инвентаризацию активов в реальном времени, и в целом работа с кампусом как с интеллектуальной единицей открывает массу возможностей.



Конечно, отдельные вендоры на рынке могут предоставить часть решений, сходных с входящими в HiCampus, например полностью оптический доступ. Однако ни у кого нет на вооружении целостной архитектуры, главные достоинства которой мы постарались раскрыть в посте.

А напоследок добавим, что узнать подробности о наших решениях для smart campus, а отдельные даже попробовать, можно на сайте нашего проекта OpenLab.

***


И не забывайте про наши многочисленные вебинары, проводимые не только в русскоязычном сегменте, но и на глобальном уровне. Список вебинаров на ближайшие недели доступен по ссылке.
Подробнее..

Huawei CloudFabric 2.0 какими должны быть сетевые решения для ЦОДов в умном цифровом банкинге

24.07.2020 16:16:55 | Автор: admin
На прошедшей в онлайн-режиме Huawei FSI Week 2020 технический директор линейки продуктов Huawei для передачи данных Дэниел Тан (Daniel Tang) доступным языком рассказал про новейшие достижения компании по части сетевых решений для дата-центров, которые обеспечивают превращение ЦОДа из просто облачного в по-настоящему интеллектуальный. А заодно сделал короткий экскурс в предысторию этого превращения.



Что изменилось в банкинге для потребителя


В Китае ещё каких-то пять лет назад получить кредит было делом небыстрым для простого смертного уж точно. Требовалось заполнить уйму бумаг, отправить или отнести их в отделение банка, возможно даже отстояв в очереди, и назад домой, ждать решения. Сколько ждать? А как выйдет, от недели до нескольких месяцев.

К 2020 году эта процедура упростилась разительно. Недавно я провёл маленький эксперимент попробовал получить кредит с помощью мобильного приложения своего банка. Несколько тапов по экрану смартфона и система обещает дать мне ответ самое позднее через четверть часа. Но уже меньше чем через пять минут мне падает push-уведомление с указанием того, на заём какого размера я вправе рассчитывать. Согласитесь, впечатляющий прогресс в сравнении с ситуацией пятилетней давности. Любопытно, на что требовались целые дни и недели в недавнем прошлом.



Так вот, раньше большая часть времени уходила на проверку данных и скоринг вручную. Все сведения из анкет и прочих бумаг нужно было внести в IT-систему банка. Но это было лишь началом мытарств: сотрудники банка лично проверяли вашу кредитную историю, после чего принимали итоговое решение. Покидали офис они в 17:00 или 18:00, на выходных отдыхали, и процесс, как следствие, мог затянуться надолго.

В наши дни всё иначе. Человеческий фактор во многих задачах цифрового банкинга вообще вынесен за скобки. Оценка, включая антифрод- и AML-проверки, выполняется автоматически, с применением умных алгоритмов. Машинам отдых ни к чему, поэтому функционируют они без выходных и круглосуточно. Кроме того, изрядный объём сведений, необходимых для принятия решений, уже хранится в банковских базах данных. А значит, вынесение вердикта осуществляется за гораздо более короткий период, чем в айтишной древности.

Вообще, раньше банковский дата-центр задействовался скорее под решение задач регистрационного типа. Долгое время он оставался лишь учётным центром и сам ничего не производил. Сегодня же становится всё больше умных дата-центров, где создаётся продукт. Они применяются для сложных вычислений и помогают получать на основе сырых массивов данных интеллектуальные выкладки по сути, знания с высокой добавленной ценностью. Вдобавок постоянный дата-майнинг если, конечно, правильно его готовить в конечном счёте дополнительно повышает эффективность процессов.



Такие преобразования происходят не только в финансах, но и практически во всех бизнес-вертикалях. Для компаний самого разного профиля (и для нас, как производителя решений) дата-центры сейчас главная опора в мире, где как никогда остра конкуренция интеллектуальных разработок. Ещё лет пять назад было мейнстримом рассуждать в русле того, что дата-центр вписан в мир облачных технологий, и это предполагало возможности гибко масштабировать общий распределяемый пул ресурсов для вычислений и хранения данных. Но на дворе эра умных решений, и в ЦОДе мы можем на постоянной основе производить интеллектуальный анализ данных, конвертируя полученные результаты в экстраординарный рост производительности. В финансовом секторе эти изменения как раз и приводят в числе многих прочих результатов к тому, что вынесение оценки по запросам на выдачу кредитов радикально ускоряется. Или, например, дают возможность моментально рекомендовать наиболее подходящие конкретному клиенту банка финансовые продукты.

В госсекторе, в телекоме, в энергетике интеллектуальная работа с данными сегодня способствуют цифровой трансформации с кардинальным увеличением продуктивности организации. Естественно, новые обстоятельства будут формировать новый запрос, причём не только по отношению к вычислительным ресурсам и системам хранения данных, но и по отношению к сетевым решениям для дата-центров.

Каким должен быть умный ЦОД





Мы в Huawei выделили три главных вызова для дата-центров в эпоху интеллектуальных ЦОДов.

Во-первых, для работы с неиссякающими потоками новых данных необходима экстраординарная пропускная способность. По нашим наблюдениям, за последние пять лет объём хранимых в дата-центрах данных вырос вдесятеро. Но что ещё больше впечатляет, так это какой трафик генерируется при обращении к таким данным. В дата-центрах регистрационного типа вся эта информация использовалась для решения задач учётного характера и нередко лежала мёртвым грузом, а в ЦОДах нового типа она работает нам необходимо обеспечивать постоянный data mining. Как следствие, при доступе к единице хранимых данных производится в 101000 раз больше итераций, чем прежде. Скажем, при обучении ИИ-моделей практически нон-стоп фоново выполняются вычислительные задачи с постоянным функционированием алгоритмов нейросети, ради того чтобы повысить интеллектуальность системы. Таким образом, растут не только объёмы хранимых данных, но и трафик, который формируется при обращении к ним. Так что вовсе не по прихоти телеком-вендоров на новых моделях цодовских серверах всё больше сто- и двухсотгигабитных портов.

Во-вторых, отсутствие потерь пакетов данных в 2020 году абсолютный the must. Во всяком случае, с нашей точки зрения. Раньше такие потери не были головной болью для инженеров банковских ЦОДов. Узкими местами были вычислительная мощность и эффективность хранения данных. Но средние по индустрии значения и того и другого показателя за минувшие пять лет в мировом масштабе существенно повысились. Закономерно, что бутылочным горлышком в работе дата-центров оказалась эффективность сетевой инфраструктуры. При работе с одним из наших ведущих клиентов мы установили, что каждый процент, добавляющийся к показателю потери пакетов данных, грозит снизить эффективность обучения ИИ-моделей вдвое. Отсюда огромное влияние на продуктивность и результативность использования вычислительных ресурсов и систем хранения данных. Вот что необходимо преодолеть, чтобы поддержать превращение простого дата-центра в дата-центр интеллектуальной эпохи.

В-третьих, важно предоставлять сервис бесшовно и беспрерывно. Современный цифровой банкинг приучил, и приучил совершенно правильно, людей к тому, что услуги финансовых организаций могут, вернее, даже должны быть доступны 24/7. Обычная ситуация: замотавшийся предприниматель со сбитым распорядком дня, остро нуждающийся в дополнительных средствах, просыпается ближе к полночи и хочет выяснить, на какую кредитную линию ему рассчитывать. Пути назад отрезаны: у банка больше нет возможности планово приостановить работу ДЦ, чтобы что-то починить или провести апгрейд.

Наше решение CloudFabric 2.0 как раз и предназначено для того, чтобы справляться с перечисленными вызовами. Оно поддерживает высочайшую пропускную способность, интеллектуальное управление сетями ЦОД и безукоризненное функционирование сетей с автономным управлением (англ. autonomous driving networks ADN).

Что есть в CloudFabric 2.0 для умных ЦОДов





Что касается высокой пропускной способности, мы закладываемся не только на масштабирование своих сетевых решений, но и на гибкость в работе с ними. Например, цодовские коммутаторы Huawei линейки CloudEngine стали первыми в индустрии устройствами такого класса со встроенным процессором для нейросетевых вычислений в режиме реального времени, помогающим в том числе решать проблемы внутри сетевой инфраструктуры и не допускать потери пакетов данных (это достигается применением алгоритма iLossless, в том числе для сценария iNOF RoCE). Но, разумеется, имеет значение и собственно пропускная способность. В том числе важна поддержка интерфейсов 400 Гбит/с, равно как и обратная совместимость с распространёнными на текущий момент десяти-, сорока- и стогигабитными подключениями.

Опорным узлам инфраструктуры должна быть под силу и работа с высокой плотностью подключений (так называемые high-density-сценарии), при возможности значительного масштабирования решения. В нашей флагманской цодовской модели CloudEngine 16800 реализована поддержка до 48 портов по 400 Гбит/с на слот втрое больше, чем у ближайшего к ней аналога от наших конкурентов.

Что касается системы в целом, возможности по расширению пропускной способности в расчёте на шасси (per chassis scalability) тоже впечатляющие 768 портов по 400 Гбит/с на одно шасси, или вшестеро больше, чем позволяют решения других игроков рынка. Это даёт нам основания называть CloudEngine 16800 самым производительным коммутатором для ЦОДа в эпоху победившего ИИ.



На передний план выходит и интеллектуальная составляющая сетевого решения. В частности, необходима она и для того, чтобы обеспечивать нулевой уровень потерь пакетов данных. Для достижения такого результата мы применяем самые передовые свои технологические достижения, включая встроенный ИИ-процессор для нейросетевых вычислений, а также ранее упомянутый алгоритм iLossless. Делая проекты для своих ведущих заказчиков, мы убедились в том, что эти решения способны существенно повысить производительность систем по меньшей мере в двух распространённых сценариях.

Первый обучение ИИ-моделей. Оно требуется постоянного обращения к данным и вычислений по огромным матрицам или тяжеловесных операций с TensorFlow. Наш iLossless способен увеличивать производительность обучения ИИ-моделей на 27% процентов доказано на реальных кейсах и подтверждено тестом лаборатории The Tolly Group. Второй сценарий повышение эффективности систем хранения данных. Её, в свою очередь, применение наших разработок способно поднять приблизительно на 30%.

Помимо всего прочего, вместе со своими заказчиками мы стремимся опробовать новые возможности, которые открывают наши разработки. Уверены, посредством улучшения завязанной на Ethernet коммутационной фабрики (switching fabric) для дата-центра нам под силу преобразовать высокопроизводительную цодовскую фабрику с сетью хранения данных в единую, целостную основанную на Ethernet инфраструктуру. Так, чтобы не только поднять производительность процессов обучения ИИ-моделей и улучшить доступ к программно-определяемым хранилищам данных, но и ощутимо оптимизировать совокупную стоимость владения дата-центром путём взаимной интеграции и объединения вертикальных, независимых на физическом уровней сетей.



Многим нашим клиентам нравится обкатывать эти новые возможности. И один из таких клиентов сама Huawei. В частности, входящая в состав нашей группы компаний Huawei Cloud. Тесно сотрудничая с нашими коллегами из этого подразделения, мы удостоверились в том, что, гарантировав им отсутствие потерь пакетов данных, дали импульс к заметному улучшению их бизнес-процессов. Наконец, среди своих внутренних достижений отметим тот факт, что в Atlas 900, самом крупном ИИ-кластере в мире, мы в состоянии обеспечивать вычислительную мощность, задействуемую под обучение искусственного интеллекта, на отметке выше 1 тыс. петафлопс высочайший показатель в компьютерной индустрии на сегодняшний день.

Другой остроактуальный сценарий облачное хранение данных с использованием All-Flash-систем. По меркам отрасли это очень трендовый сервис. При наращивании вычислительных ресурсов и расширении хранилищ естественным образом требуются и передовые технологии из сферы цодовских сетевых решений. Так что мы продолжаем работать с Huawei Cloud и воплощаем всё новые и новые прикладные сценарии с применением своих сетевых решений.

Что умеют сегодня ADN-сети





Обратимся к сетям с автономным управлением (ADN). Спору нет, программно-определяемые сети (software-defined networks) с точки зрения технологий уверенный шаг вперёд в управлении сетевой составляющей дата-центра. Прикладное воплощение концепции SDN значительно ускоряет инициализацию и конфигурирование сетевого слоя ЦОДа. Но, конечно, предоставляемых ею возможностей недостаточно для того, чтобы полностью автоматизировать O&M дата-центра. Чтобы пойти дальше, нужно справиться с тремя первоочередными вызовами.

Во-первых, в сетевой инфраструктуре дата-центров всё больше возможностей, связанных с предоставлением сервисов и настройками их функционирования, в финансовом секторе особенно. Важно иметь возможность автоматически переводить запрос сервисного уровня (service-level intent) на сетевой уровень.

Во-вторых, дело упирается и в верификацию таких инкрементальных команд (incremental provisioning commands). Понятное дело, в сетях ЦОДов многое сконфигурировано давным-давно, на базе крепко укоренившихся или даже устаревших подходов. Как убедиться в том, что дополнительная настройка не нарушит отлаженных процедур? Без автоматической верификации новых дополнительных настроек не обойтись. Именно автоматической, поскольку совокупность существующих настроек в ЦОДе обычно непомерно велика. Вручную с ней практически не совладать.

В-третьих, встаёт вопрос о действенном оперативном устранении проблем в сетевой инфраструктуре. Когда автоматизация достигает высокого уровня, у администраторов и сервисных инженеров дата-центра уже не получается в режиме реального времени отслеживать, что творится в сети. Им нужен инструментарий, способный сделать сеть с тысячами изменений в день устойчиво прозрачной для них, а также сформировать базы данных, построенные на графах знаний, чтобы быстро справляться с проблемами.

Сети класса ADN могут помочь нам ответить на эти вызовы, которые сопряжены с переходом к подлинно умным дата-центрам. И идеология сетей с автономным управлением (она перекочевала в мир дата-центров из соседней индустрии на стыке IoT и V2X, в частности) позволяет пересмотреть подходы к автоматизации на разных уровнях сети ЦОДа.



На текущий момент в автономности управлении сетей для дата-центров мы достигли уровня L3 (conditional automation). Это означает высокую степень автоматизации ЦОДа, при которой вмешательство человека требуется точечно и лишь при определённых условиях.

Между тем в ряде сценариев возможна и полная автоматизация. С нашими клиентами мы уже работаем в рамках совместной программы по реализации инноваций для всесторонней автоматизации сетей ЦОДов в соответствии с концепцией ADN, прежде всего в разрезе устранения проблем в сети, и применительно к самым злободневным и трудоёмким из них добились успехов: так, с помощью наших интеллектуальных технологий автоматически удаётся закрыть около 85% наиболее часто развивающихся сценариев сбоев в сетях дата-центров.

Эта функциональность реализуется в рамках нашей концепции O&M 1-3-5: минута на установление того факта, что сбой произошёл, или на обнаружение риска сбоя, три минуты на то, чтобы определить его первопричину, и пять минут на то, чтобы предложить, как его ликвидировать. Само собой, пока для принятия окончательных решений необходимо человеческое участие в частности, выбрать одно из возможных решений и отдать команду на его исполнение. Кто-то должен брать на себя ответственность за выбор. Однако, отталкиваясь от практики, мы полагаем, что система и в нынешнем её исполнении предлагает весьма квалифицированные и уместные решения.

Вот вкратце наиболее сложные вызовы, которые стоят перед архитекторами умных ЦОДов в 2020 году, и мы с ними уже фактически справились. Например, функциональность для перевода запросов с сервисного уровня на сетевой и для автоматической верификации настроек уже входит в CloudFabric 2.0.



Нам приятно, что наши достижения были оценены и в этом году мы получили награду Выбор клиентов в рамках рейтинга Gartner Peer Insights, а также F&S Global Data Center Switch Technology Leadership Award за коммутатор CloudEngine 16800, который был отмечен за выдающуюся пропускную способность, высочайшую плотность 400-гигабитных интерфейсов и общую масштабируемость системы, а также за интеллектуальные технологии, позволяющие, в частности, свести к нулю уровень потери пакетов данных.
Подробнее..

Конвергенция Wi-Fi и IoT для современных кампусных сетей

29.12.2020 20:14:34 | Автор: admin
Привет, Хабр! Сегодня мы предлагаем поговорить не столько о продуктах и технологиях Huawei, сколько о гибридных решениях, которые строятся на базе точек доступа Wi-Fi и устройств интернета вещей.



Всё более широкое распространение IoT требует создания унифицированных беспроводных кампусных сетей таких, которые сочетали бы в себе традиционную функциональность Wi-Fi, пусть и шестого уже поколения, с возможностями, которые обещает нам мир, наполненный неисчислимой россыпью сенсоров.



Если ещё пять-семь лет назад концепция интернета вещей казалась далёкой от практического применения, сейчас IoT вовсю внедряют в корпоративные сети и городскую инфраструктуру. К примеру, в Москве как раз в наши дни реализуется колоссальный проект по создания системы умного освещения, в которой включение и выключение каждого светильника производится дистанционно сигналом через сеть 5G. Не оставлен в стороне и транспорт: автобусы или такси удобно снабдить множеством датчиков, позволяющих не только отслеживать параметры самих транспортных средств, но и собирать статистику, например, по загруженности дорог.

Присматриваются к IoT и организации, управляющие стадионами, крупными торговыми центрами, развлекательными комплексами и другими городскими объектами. Интернет вещей необходим им для сбора и обработки информации о посетителях.

Ещё одна сфера применения IoT учёт активов. Например, для промышленных предприятий. Здесь интернет вещей помогает решать задачи инвентаризации и эффективного использования сложного дорогостоящего оборудования. Много интересного по этой части делают также в медицинских и образовательных организациях.



Чем в этой связи может быть полезно построение совместных сетей Wi-Fi и IoT? Начать стоит с основных проблем, с которыми рискует столкнуться потенциальный заказчик решения IoT, отделённого от существующей сетевой инфраструктуры.

Во-первых, внедрять и сопровождать придётся две разные системы. А это капитальные расходы на размещение точек доступа и сенсоров, прокладку СКС, подключение управляющих устройств для контроля двух сетей. Во-вторых, итоговое решение будет не только дорогим, но и чрезвычайно сложным в эксплуатации.

Помочь заказчикам, испытывающим потребность в развёртывании и сетей беспроводного доступа Wi-Fi, и сетей IoT, призвана конвергентная архитектура. Она основана на применении точек доступа Huawei, допускающих расширение функциональности с помощью дополнительных аппаратных элементов. В такой точке доступа имеется отдельный слот, куда при необходимости вставляется стандартизированный IoT-модуль, например Zigbee или сканер меток RFID. Существуют и такие точки доступа, которые уже в базовой комплектации включают в себя миниатюрный Bluetooth-маяк. Эта дополнительная функциональность позволяет точке доступа не только работать по прямому назначению раздавать Wi-Fi в диапазонах 2,4 и 5 ГГц, но и собирать информацию, общаясь с IoT-устройствами (смартфонами, носимыми метками, электронными ценниками, терминалами съёма данных и пр.).

Дальше по обычной проводной сети все данные поступают в те системы верхнего уровня, которые управляют конечными устройствами интернета вещей.



Общаясь со своими заказчиками, мы выявили несколько наиболее востребованных на сегодняшний день сценариев применения IoT. Среди них и такой неочевидный на первый взгляд, как позиционирование клиентов или сотрудников. Эта механика может понадобиться, допустим, при построении систем внутренней навигации на определённой территории или систем управления персоналом (второй вариант особенно актуален для медицинских учреждений).

Другой распространённый IoT-сценарий анализ пассажиропотока или трафика посетителей. Это интересно, например, ритейлерам. В частности, эта технология позволяет владельцам гипермаркетов с учётом потоков покупателей оптимизировать размещение торговых точек и выкладку товаров, подбирать правильное место и время для проведения маркетинговых акций.

Ещё одна большая задача управление ресурсами. Актуальна она на производстве, в складских комплексах и любых других объектах, где необходимо постоянно контролировать местонахождение и статус различных технических средств, например погрузчиков.



Системы внутреннего позиционирования и навигации


Архитектура подобных IoT-систем состоит из нескольких уровней. На нижнем располагаются терминалы, смартфоны, ноутбуки, активные или пассивные метки (RFID, BLE и пр.). Выше находятся точка доступа Wi-Fi со встроенным модулем IoT, кампусная сеть и контроллер доступа. Венчает пирамиду управляющее всей системой программное обеспечение. В решениях внутренней навигации, к примеру, в роли такого ПО выступает специальная платформа отслеживания, которая связана с мобильным приложением, установленным на смартфоне сотрудника или клиента.

Отдельный, самый верхний архитектурный слой представляет собой аналитическая платформа, которая берёт данные (включая ретроспективные) из платформы отслеживания и помогает делать выводы на основе маршрутов, тепловых карт, геозонирования и т. д.



Остановимся на платформе отслеживания и её возможностях. Она собирает данные с конечных устройств, подсчитывая количество и продолжительность посещений того или иного объекта на контролируемой территории. Платформа позволяет разделить эту территорию на зоны и получать полную информацию о том, как перемещаются между этими зонами целевые объекты IoT-устройства или конкретные люди.



Мобильная часть платформы, устанавливаемая на смартфоны сотрудников или клиентов, является необходимым элементом IoT-систем внутренней навигации. Помимо всего прочего, она позволяет значительно повысить точность позиционирования клиентского терминала за счёт информации с модуля Bluetooth и гироскопа устройства.

В этой платформе, которая ведёт, например, клиента по торговому центру, можно предусмотреть разнообразные маркетинговые функции, реализуемые при прохождении маршрута.



Насколько точны такие системы позиционирования? Ответ наглядно показан на схеме выше. С помощью сочетания данных от правильно расставленных точек доступа Wi-Fi и с гироскопа смартфона удаётся достичь точности до 5 м. Повысить её до 3 м можно с помощью активной метки Wi-Fi, только нужно учитывать её высокую стоимость и достаточно высокое энергопотребление.

Если прикладная задача требует погрешности определения координат цели на уровне не более 3 м, рациональнее будет построить систему позиционирования с использованием установленного в точке доступа Bluetooth-маячка.



Системы управления активами


Перейдём к следующей прикладной задаче, которая решается с помощью интернета вещей и конвергентных систем Wi-Fi + IoT.

С какими трудностями сталкиваются предприятия, которым необходимо провести инвентаризацию? В первую очередь с низкой эффективностью процесса. Он тянется долго, сопровождается ошибками, возникающими по вине человеческого фактора, а собранные данные зачастую нуждаются в перепроверке.

Кроме того, текущий статус использования активов зачастую неизвестен. Теряются не только флэшки, но и техсредства покрупнее. Например, тот же погрузчик. Скорее всего, он находится на территории предприятия, но где именно, вопрос. Нет зачастую и статистики по реальной эксплуатации активов: использовался ли потерянный погрузчик хоть раз за последний месяц, посещал ли он зарядную станцию?

Добавляют хлопот и неопределённые потери активов. Погрузчик может быть случайно перемещён в другую зону, где никто не станет его искать, или его умыкнули злоумышленники.



Чем здесь будет полезна конвергентная система Wi-Fi + IoT? Решение, построенное на основе точек доступа Huawei с установленными в них IoT-модулями, умеет собирать данные с активных и пассивных меток, размещённых на оборудовании. Метки контроля тока, например, помогают понять реальный статус использования активов по потреблению ими электричества. Метка позиционирования позволяет в реальном времени контролировать местонахождение интересующих нас устройств. А благодаря ручному считывателю RFID-меток можно отказаться от бумажных стикеров с номерами и проводить инвентаризацию, просто пронося сканер мимо промаркированных объектов на определённом расстоянии. Данные с метки поступают в терминал, который отправляет их в сеть Wi-Fi и далее к системам вышестоящего уровня.

Всё это помогает обеспечивать полную достоверность получаемой в ходе инвентаризации информации и высокую скорость её сбора.



Рассмотрим частный случай системы контроля ценных активов, которая построена на основе активных меток. Такая метка постоянно сообщает свой статус IoT-модулю в точке доступа Wi-Fi. Соответственно, отчёт о наличии и использовании того или иного актива в конкретной локации можно получить мгновенно в режиме онлайн. Как следствие, серьёзно сокращаются и трудозатраты в сравнении с инвентаризацией по классике.

Плановая инвентаризация активов общего назначения, допустим связанная с увольнением сотрудника или переездом отдела в другой офис, тоже существенно ускоряется. Представим, что все активы уже снабжены RFID-метками. Теперь достаточно загрузить в ручной сканер задание на инвентаризацию, обойти помещение и синхронизировать список из задания со списком только что дистанционно считанных меток.



Дополнительные возможности по части контроля активов предоставляет технология геозонирования. Наряду с прочим она позволяет определить точные границы области, которую не должен покидать конкретный актив (цеха, выставочного зала, гаража и т. д.). При выходе актива за границы такой зоны программная платформа сформирует предупреждение и отправит его ответственному лицу.



Вот ещё один пример активного контроля использования оборудования в реальном времени. На фото выше вы видите прикреплённую к системному блоку ПК активную RFID-метку, которая регистрирует потребление энергии. Контролировать таким образом можно какую угодно технику, будь то медицинский прибор или станок ЧПУ. Помимо информации о местонахождении устройства и самом факте его работы, эта метка может передать и данные о потребляемом токе, то есть, по сути, о текущем режиме работы оборудования. Это позволяет собирать статистику по коэффициентам использования и простоя аппаратуры, анализировать эти сведения и решать задачи по оптимизации её эксплуатации.



Системы электронных ценников


С каждым годом добавляется прикладных задач, решение которых может быть основано на связке Wi-Fi + IoT. Так, наши клиенты и заказчики всё больше интереса проявляют к внедрению систем электронных ценников в розничной торговле.

В больших ритейл-сетях, где магазинов тысячи и десятки тысяч, задача изменения цен на товары нетривиальна хотя бы ввиду своих масштабов. Точность и быстрота процедуры оставляют желать лучшего. Любая ошибка влечёт за собой неверное информирование покупателя, что по действующему законодательству чревато убытками для продавца, не говоря уже о репутационном ущербе.

Решение, конечно, есть. В уже развёрнутой современной сети Wi-Fi магазина в точки доступа Huawei устанавливаются модули управления электронными ценниками. Оператору магазина остаётся только разместить в торговом зале миниатюрные ESL ценники на основе цветной или монохромной электронной бумаги. Они несут информацию о цене, могут менять свой цвет (например, чтобы выделить скидочные товары), оборудованы светодиодной системой привлечения внимания, но, главное, все они управляются централизованно. Так что, когда потребуется оперативно изменить ценники в огромной торговой сети, достаточно будет поменять одно число в ERP-системе предприятия.



С точки зрения архитектуры решение довольно простое. На нижнем уровне находятся сами электронные ценники, которые обмениваются данными с расположенной уровнем выше точкой доступа Wi-Fi, снабжённой IoT-модулем. Ещё выше корпоративная сеть и контроллер, управляющий сетевыми устройствами. Параллельно с ним работает система управления ESL. На самом верху функционирует ERP-система торговой сети, формирующая запросы на изменение цен.

Прикладных задач, которые решаются установкой IoT-модулей в точки доступа Wi-Fi, очень много. И хотя многие проекты ещё пребывают на стадии POC-тестов, однако те сценарии, о которых мы рассказали, получили путёвку в жизнь. Об этом свидетельствует и то, как быстро растёт число компаний, готовых строить свои островки интернета вещей уже сегодня.
Подробнее..

Главные технологии корпоративных ADN-сетей в исполнении Huawei начало

18.01.2021 16:06:50 | Автор: admin
В 2021 году Huawei делает ставку на дальнейшее развитие корпоративных ADN-сетей. Что это за зверь, коротко обрисуем в этой статье по итогам доклада с прошедшего в конце 2020 года онлайн-форума Worldwide IP Club сообщества, которое мы создали для обсуждения инноваций и для нетворкинга в телекоме.



Чтобы разобраться с Huawei Enterprise ADN, полезно будет сперва сделать краткий экскурс в те вызовы, с которыми сталкиваются корпоративные сети в наши дни.



Сомнений нет, цифровая трансформация не обойдёт ни одну крупную организацию. И без достойной инфраструктурной опоры процесс этот немыслим. Чтобы отвечать требованиям цифровизации, корпоративная сеть должна быть надёжной, гибкой, масштабируемой.

У такой сети две основные части сеть доступа и опорная сеть. На вышеприведённой схеме слева от региональной точки размещения оборудования располагается как раз таки сеть доступа, призванная обеспечивать подключение корпоративным кампусам, филиалам, внешним структурам, IoT-средам и т. д. Справа отображены межрегиональные и межоблачные соединения (interconnection).

Хотя фундаментально архитектура простейшая, на практике, как правило, приходится иметь дело с огромной разнородной сетью на базе оборудования разных вендоров. Затраты на его эксплуатацию и обслуживание подчас ощутимо превышают расходы на его покупку. Вот четыре главных отягчающих обстоятельства, которые усложняют жизнь проектировщикам и администраторам современных корпсетей.

I. Разрозненность ресурсных ёмкостей (network silos), из-за которой сервисы оказываются отъединены от сетевой инфраструктуры, возникает неразбериха с чересчур многочисленными сетевыми задачами, конфигурация самой сети переусложняется, а O&M теряет эффективность.

II. Высокая степень гетерогенности сетей, с их пёстрым парком
оборудования. Отсюда вытекает множество трудностей, включая зависимость благополучной работы инфраструктуры от опыта отдельных экспертов, длительные циклы решения проблем, неэффективность проверок, а также ошибки, порождаемые необходимостью выполнять порядочную часть операций вручную.

III. Разделённость сервисов бизнес-уровня и сетевой инфраструктуры. В результате невозможно полноценное функционирование NaaS (Network as a Service) ни в отдельной зоне, ни между зонами сети. Под шквалом бесчисленных метрик сетевой активности, предупреждений и логов администратор оказывается не в состоянии гарантировать в любой момент времени безукоризненно точную работу сервисов.

IV. Отсутствие сквозной визуализации сети и инструментария для её всестороннего анализа. Это подлинный бич тех, кто строит сети и управляет ими. Неисправности удручающе часто вскрываются непосредственно во время работы сервисов, с ними успевают столкнуться пользователи, поскольку их не получается оперативно обнаружить и устранить.



Чтобы справляться с перечисленными проблемами, Huawei создала решение на основе концепции сети с автономным управлением (autonomous driving network ADN), именуемое iMaster NCE. В него заложена функциональность цифрового двойника, end-to-end анализа намерений (более подробно о концепции intent-driven network мы уже писали на Хабре), а также технология интеллектуального принятия решений.

  • Принцип intent-driven. На протяжении всего жизненного цикла сети те, кто ею управляет, могут использовать простой WYSIWYG-инструментарий для того, чтобы держать её под полным своим контролем.
  • Интеллектуальное принятие решений. Система упрощает человеку выбор оптимальных решений. Например, на этапе развёртывания сервиса она способна подсказать подходящие сетевые настройки и конфигурации, а при анализе проблем даёт возможность быстро найти первопричину неполадки и сама предлагает шаги по её устранению.
  • Цифровой двойник. В iMaster NCE включена функциональность многоуровневого моделирования и управления KPI инфраструктуры с опорой на большие данные, которая оперирует виртуальными слепками любых физических устройств, входящих в состав сети. При этом решение осуществляет двунаправленное картирование между сетью и её двойником.


С помощью ADN, таким образом, удаётся осуществить пять важных преобразований.

  1. Упразднить сетецентричный, пассивный подход к управлению инфраструктурой и заменить его таким, при котором проактивно анализируются намерения её пользователей, благодаря чему, в частности, удаётся нивелировать зависимость от специфики конкретной реализации сети. iMaster NCE развёртывает сквозную автономную оптимизацию сети по замкнутому циклу.
  2. Отказаться от автоматизации частичной, на базе жёстких предварительных настроек, в пользу автоматизации гибкой, завязанной на многоуровневом моделировании. В результате от и до автоматизируются проектирование и построение сети, O&M-процессы и дальнейшее совершенствование инфраструктуры.
  3. Перейти от ручных проверок к поддержанию устойчивой работоспособности сервисов с помощью интеллектуальных технологий. Модель в числе прочего предусматривает симуляцию последствий события до того, как оно произойдёт в действительности, равно как и окончательное подтверждение действий постфактум, с возможностью откатить изменения.
  4. Сделать шаг от реактивного управления сетью к интеллектуальному проактивному мониторингу и анализу изменений. Администраторы сети видят проблему в зачатке ещё до того, как она повлияет на тот или иной сервис и её заметят пользователи, и могут оперативно разобраться с ней.
  5. Заменить работу с опорой на человеческий фактор, преимущественно на опыт экспертов, применением модели, где преобладает принятие решений с помощью умных технологий, в том числе при проектировании сети, мониторинге, анализе и оптимизации сетевых взаимодействий




Главное же в модели анализа намерений (intent-driven) перевод бизнес-запросов пользователей на сетевой уровень. У процесса выделяются три значимые составляющие.

  1. Формирование отвлечённой модели намерений (intent abstraction). В корпоративных сетях большая часть намерений относится к взаимодействиям между пользователями, конечными устройствами и приложениями. Как следствие, необходима модель, которая будет обобщать их требования на протяжении всего жизненного цикла сети и обеспечивать их кастомизацию, основанную на сценарном подходе.
  2. Преобразование намерений (intent conversion). Высокоуровневые бизнес-намерения необходимо спроецировать на сетевой уровень и в конечном счёте конвертировать в прикладные рекомендации. Эта трансформация достигается за счёт двух технологий.
    • Умные рекомендации, основанные на алгоритмах моделирования, с учётом топологии сети и её ресурсов, поведенческих моделей, предпочтительных политик и пр., и адаптационном движке, который включает в себя механизм поиска решений (solver), компилятор и граф знаний.
    • Онлайн-проектирование на основе концепции цифрового двойника. Платформа не только предлагает решение, но и предоставляет для его проверки и обкатки песочницу с наглядной симуляцией, которая позволяет довести это решение до ума.
  3. Не зависящее от вендоров хранилище сетевых моделей. Это базис для работы с намерениями и автоматизации сетевой инфраструктуры. Сюда входят:
    • модели автоматизации корпоративной сети;
    • вендор-независимые модели абстрактного описания сетевых элементов;
    • сторонние модели (SDN, OVS и др.);
    • модели, задаваемые пользователями.




Давай обратимся к моделированию происходящего в сети, к тому, на какие сценарии он рассчитан и за счёт чего с его применением гораздо проще становится строить сети с поддержанием гарантированного уровня сервиса (SLA).

По сути, мы моделируем сетевую конфигурацию, ресурсы и систему переадресации, чтобы создать виртуальную сеть, которая будет отражать характеристики и специфику функционирования сети исходной, реальной.

При работе с виртуальной сетью мы прибегает к формальному доказательству математическому методу, который позволяет удостовериться, отвечает ли сеть критериям SLA, таким как стабильное обеспечение сетевых соединений, непрерывная маршрутизация, правильно настроенная переадресация, непротиворечивость политик, уровни задержек и допустимых потерь пакетов и т. д.

Бегло пройдёмся по базовым сценариям применения метода.

  • В ходе всестороннего end-to-end моделирования намерений решение заблаговременно проверяется на целесообразность, чтобы новые намерения не нарушили тех процессов, что уже проистекают в сети.
  • После имплементации намерения в корпоративной сети проверяется, функционирует ли та, как ожидается, и отслеживаются риски всевозможных эксцессов прежде чем те успеют повлиять на работу сервисов.
  • Поведение виртуальной сети проверяется в сценариях с участием одной зоны, в межзональных, в гибридных (с использованием облачных ресурсов и т. д.), и она опять же может в автоматическом режиме полностью изолироваться от основной корпоративной сети.


Вкратце сетевой анализ осуществляется в такой последовательности.

  • На основе имеющейся сетевой топологии и информации о сетевых элементах строится управляющая модель виртуальной сети.
  • Чтобы сгенерировать систему переадресации в виртуальной сети, используется симуляционная конфигурация.
  • Задействуется метод формального доказательства, чтобы смоделировать поведение сети во всех аспектах, как то: конфигурация, распределение ресурсов, маршрутизация.
  • Платформа алгоритмически предлагает рекомендации по внесению изменений в сеть.




После того как все эти шаги сделаны, в дело вступает ранее упомянутая технология интеллектуального активного мониторинга. Она призвана цифровизовать всю сетевую инфраструктуру таким образом, чтобы сделать возможным комплексное управление её работой, поддержкой, оптимизацией и дальнейшим проектированием.

Пара примеров того, как это работает. Допустим, из какого-то бизнес-подразделения компании поступает сигнал о том, что у них отвалился доступ к приложению. Платформа iMaster NCE, прежде всего благодаря динамическому моделированию топологии сети, позволяет легко запросить и изучить в наглядном представлении все метрики, касающиеся приложения. Также благодаря навигатору маршрутизации удобно проследить на всех уровнях сети, откуда и куда шёл и идёт трафик, по принципу end-to-end вплоть до конкретного физического устройства, например смартфона (проверяется досягаемость участков и элементов сети, петли и чёрные дыры маршрутизации и т. д.). В свою очередь, благодаря комплексной визуализации работы аналитического инструментария можно оперативно проверять, в порядке ли записи по конкретным устройствам в таблицах маршрутизации, а также мониторить уведомления, логи и записи об изменениях конфигурации. А с помощью рекомендованного службой RunBook решения (разумеется, администратор волен предпочесть поступить так, как сочтёт нужным) при необходимости быстро восстанавливается работоспособность составных частей сети и сервисов и устраняются неисправности в ней.

Другой сценарий проверка состояния сети. Для этого используется модель с пятью уровнями контроля, на каждом из которых отслеживается свой срез инфраструктуры:

  • стабильно ли функционирует оборудование в порядке ли платы, вентиляторы, блоки питания, процессоры, память и т. д.;
  • нет ли проблем в соединениях между входящими в сеть физическими устройствами, в том числе в норме ли статусы портов и трафик, длина очередей и коэффициент оптического затухания, не слишком ли велик процент битых пакетов и пр.;
  • работают ли агрегация M-LAG, маршрутизация посредством OSPF, BGP и др.;
  • всё ли хорошо с наложенной сетевой инфраструктурой, включая текущие статусы BD, VNI, VRF, EVPN и SRV6;
  • штатно ли осуществляется переадресация на уровне сервисов, и в частности каковы настройка TCP-соединения.


В фундаменте службы умного мониторинга лежат две технологии. Первая ранее упомянутая система цифровой двойник, которая опирается на виртуальное моделирование сетевой ситуации в реальном времени с применением больших данных, позволяющее с лёгкостью отслеживать причинно-следственные связи и находить источники затруднений. Критически важным для воплощения этой механики является наличие единой модели для воспроизведения жизненного цикла корпоративной сети.

Вторая совокупность фронтенд- и бэкенд-решений, применяемых для построения высокоточной карты сетевой активности, которая как раз и строится на основе концепции цифрового двойника. К фронтенд-части относятся интеллектуальный поиск, многоуровневая детализация аналитических сводок, навигация маршрутизации, комплексная система визуализации данных и т. д. Бэкенд это в первую очередь движок для динамического воспроизведения сетевой топологии и система гибкого импорта сторонних сетевых моделей.



Работа умного мониторинга подкрепляется использованием интеллектуального метода анализа сетевой ситуации, основанного на графах знаний.

За счёт моделирования абстрактное описание сетевых элементов может быть преобразовано в конкретные запросы в плоскости объектной модели.

С помощью телеметрии отслеживаются сетевые KPI, потоки трафика на сервисном уровне, информация о конфигурации, логи сетевых событий и с опорой на эти сведения алгоритмы машинного обучения на лету фиксируют отклонения от нормы и соотносят их с данными объектной модели.

Также платформа iMaster NCE предусматривает среду для безопасной отработки потенциальных последствий всевозможных сбоев: неполадки, которые имели место в других реально существующих сетях, обкатываются в симуляции данной конкретной сети. Таким образом, прибегая к совокупному опыту экспертов, ранее сумевших совладать с теми или иными нештатными сетевыми ситуациями, мы тренируем ML-модели, с тем чтобы они в дальнейшем более эффективно помогали преодолевать эксцессы в том числе выявлять паттерны новых проблем и тем самым преумножать общее знание, доступное всем тем компаниям, которые используют iMaster NCE.



Ранее перечисленные технологии дают возможность администратору сети быстро обнаруживать неисправности. Однако интеллектуального анализа мало важно помогать человеку принимать максимально эффективные решения по их преодолению, в чём и заключается самая суть ADN: теперь такие решения вырабатываются и претворяются в жизнь с непосредственной помощью ИИ.

Сбор намерений и проводимый на лету анализ данных о происходящем в сети, выработка решений, их внедрение и анализ последствий их принятия образуют замкнутый контур, который и делает возможным умное принятие решений. Залогом эффективности такой модели работы служат четыре фактора.

  1. Синергия между облачными ресурсам и тем, что находится во внутреннем контуре организации: мы располагаем единой моделью знаний о сетевых взаимодействиях и стандартами, которые позволяют передавать эти знания и данные между on-premise и cloud-частью гибридной инфраструктуры и далее совершенствовать ML-алгоритмы, на которых основан iMaster NCE.
  2. Анализ осуществимости решений. Многомерное дерево решений помогает подбирать максимально целесообразные альтернативные решения.
  3. Анализ влияния. Платформа умеет с высокой точностью прогнозировать результаты, которые способно повлечь за собой принятие тех или иных рекомендаций, применительно к сети в целом и к отдельным сервисам.
  4. Моделирование решений. Система подсказывает администратору оптимальный способ устранения неисправности.


***


Инженеры Huawei продолжают совершенствовать ADN-решения, чтобы повышать степень самостоятельности сетевой инфраструктуры и её способности к самовосстановлению, и мы непременно будем писать о новых разработках в этом направлении. А ознакомиться с решением iMaster NCE-Fabric вживую можно в нашем демооблаке с помощью пресейл-инженеров Huawei.
Подробнее..

Обучение с подкреплением и эвристический анализ на коммутаторах ЦОД предпосылки и преимущества

29.11.2020 16:21:40 | Автор: admin
Перед конференцией AI Journey, которую Huawei поддерживает как титульный партнёр и на которой выступит несколько наших спикеров, мы решили поделиться предварительной информацией о наших наработках, и в частности о том, как используем искусственный интеллект в умных сетях ЦОД. И заодно пояснить, почему устоявшихся технологий недостаточно для построения современных сетей ЦОД и нам нужна дружеская помощь от ИИ.




Что происходит в сфере условных lossless-сетей


За годы, когда среды передачи данных переживали бурное развитие, инженеры успели столкнуться со множеством явлений, препятствующих успешной реализации сетей хранения данных и высокопроизводительных кластеров вычислений на Ethernet: потерями, негарантированной доставкой информации, deadlock, microburst и другими малоприятными вещами.

Как следствие, считалось правильным строить референсную выделенную сеть под определённый сценарий:

  • IB для кластеров высоконагруженных вычислений;
  • FC для классической сети хранения;
  • Ethernet для сервисной задачи.


Попытки добиться универсальности выглядели приблизительно как на иллюстрации.



По каким-то задачам векторы могли совпадать (примерно как у лебедя и рака), и ситуативно универсальность достигалась, хоть и с меньшим КПД, чем при выборе узкоспециализированного сценария.

Сегодня Huawei видит будущее в многозадачных конвергентных фабриках и предлагает своим заказчикам решение AI Fabric, рассчитанное, с одной стороны, на сценарии повышения производительности сети без потерь (до 200 Гбит/с на порт сервера в 2020 году), с другой на увеличение производительности самих приложений (переход к RoCEv2).

О технической составляющей AI Fabric у нас, кстати, был отдельный подробный пост.

Что нуждается в оптимизации


Прежде чем рассуждать об алгоритмах, имеет смысл уточнить, что конкретно они призваны улучшить.

Static ECN приводит к тому, что с увеличением числа серверов-отправителей при едином получателе вырисовывается, мягко говоря, неоптимальная картина трафика (мы имеем дело с так называемой many-to-one incast моделью).



В традиционном Ethernet нам придётся вручную добиваться баланса между коэффициентами вероятности потерь на сети и низкой производительностью самой сети.



Те же предпосылки мы увидим также при использования связки PFC/ECN в случае реализации без постоянного тюнинга (см. рис. ниже).



Для решения описанных проблем мы задействуем алгоритм AI ECN, суть работы которого заключается в своевременном изменении порогов ECN. Как это выглядит, показано на схеме ниже.



Раньше, когда мы использовали связку чипсет Broadcom + ИИ-процессор Ascend 310, у нас было ограниченное количество возможностей по тюнингу таких параметров.

Такой вариант мы можем условно назвать Software AI ECN, так как логика делается на отдельном чипе и уже проливается в коммерческий чипсет.


У моделей, которые снабжены чипсетом P5 производства Huawei, ИИ-возможности существенно шире (особенно на свежем релизе), благодаря тому, что на нём реализована значительная часть необходимой для этого функциональности.



Как используем алгоритмы


Используя Ascend 310 (или встроенный в P-карты модуль), мы начинаем анализировать трафик и сравнивать его с эталонной базой известных приложений.



В случае с известными приложениями показатели трафика оптимизируются на лету, в случае с неизвестными происходит переход к следующему шагу.



Ключевые моменты:

  1. Производится обучение с подкреплением DDQN, исследование, накопление большого количества конфигураций базовых линий и исследование лучшей стратегии соответствия ECN.
  2. Классификатор CNN идентифицирует сценарии и определяет, является ли рекомендуемый порог DDQN надёжным.
  3. Если рекомендуемый порог DDQN ненадёжен, для его коррекции используется эвристический метод, с тем чтобы убедиться, что решение является обобщённым.


Такой подход позволяет скорректировать механизмы работы с неизвестными приложениями, а при большом желании можно и задать модель для своего приложения, используя Northbound API к системе управления коммутаторами.



Ключевые моменты:

  1. DDQN накапливает большое количество образцов памяти для конфигурации базовой линии и глубоко исследует логику согласования состояния сети и конфигурации базовой линии для изучения политик.
  2. Классификатор нейронных сетей CNN идентифицирует сценарии, чтобы избежать рисков, которые могут возникнуть, когда ненадёжные конфигурации ECN рекомендуются в неизвестных сценариях.


Что получаем


После такого цикла адаптации и изменения дополнительных сетевых порогов и настроек становится возможным избавиться от проблем сразу нескольких типов.

  • Проблемы производительности: низкая пропускная способность, длительная задержка, потеря пакетов, джиттер.
  • Проблемы с PFC: PFC-тупик, HOL, штормы и т. д. PFC-технология вызывает множество проблем системного уровня.
  • Проблемы приложений RDMA: ИИ / высокопроизводительные вычисления, распределённое хранение и их сочетания. RDMA-приложения чувствительны к производительности сети.


Резюме


В конечном счёте дополнительные алгоритмы машинного обучения помогают нам решить классические проблемы неотзывчивой сетевой среды Ethernet. Таким образом, мы ещё на шаг приближаемся к экосистеме прозрачных и удобных сквозных сетевых сервисов в противовес набору разрозненных технологий и продуктов.

***


Материалы по решениям Huawei продолжают появляться в нашей онлайн-библиотеке. В том числе по темам, затронутым в этом посте (например, до построении полноразмерных ИИ-решений под различные сценарии умных ЦОДов). А список наших вебинаров на ближайшие недели вы найдёте по ссылке.
Подробнее..

Искусственный интеллект в сети ЦОД опыт Huawei

05.12.2020 18:16:42 | Автор: admin
По следам своего доклада на конференции AI Journey, прошедшей 4 декабря, хочу рассказать вам, как правильное применение ИИ-систем в управлении сетью позволяет строить на базе решений Huawei современные центры обработки данных без узких мест и без потери пакетов. Выгоды от таких решений особенно наглядны, когда в ЦОДе эксплуатируются хранилища All-Flash, проводится обучение нейросетей или выполняются высокопроизводительные вычисления на GPU.





Трансформация ЦОД


Центры обработки данных концептуально меняются, и меняются разительно. Относительно массовым тренд стал около десяти лет назад, однако, скажем, в банковской сфере начался гораздо раньше. Вне зависимости от выбранного пути цели преобразований более или менее сходные унификация и консолидация ресурсов.

Это первый шаг, за которым следует дальнейшее повышение эффективности работы дата-центра путём автоматизации, оркестрации и перехода в режим гибридного облака. И самый дальний предел трансформации из досягаемых на сегодняшний день внедрение систем искусственного интеллекта.



Решения Huawei для каждого этапа трансформации


На каждой стадии в зависимости от IT-зрелости заказчика компания Huawei предлагает собственные решения, призванные обеспечить наилучший результат модернизации без лишних трат. Сегодня хотелось бы подробнее поговорить как раз о вишенке на торте системах ИИ в современных ЦОДах.



Если провести аналогию с человеческим организмом, коммутаторы сети ЦОД выполняют роль системы кровообращения, обеспечивая связанность между различными компонентами: вычислительными узлами, системами хранения данных и т. д.

Буквально несколько лет назад технологии хранения данных на твердотельных дисках стали широко доступны, а производительность центральных процессоров продолжает расти. Благодаря этому хранилища и вычислительные узлы перестали быть главными причинам задержек. А вот сеть ЦОД долгое время оставалась в структуре дата-центров своего рода младшим братом.

Производители пытались решить проблему по-разному. Кто-то выбирал для построения сети лицензированные технологии InfiniBand (IB). Сеть получалась специализированной и способной решать только узкопрофильные задачи. Кто-то предпочитал строить сетевые фабрики на протоколах Fibre Channel (FC). Оба подхода имели свои ограничения: либо пропускная способность сети оказывалась относительно скромной, либо общая цена решения кусалась, что вдобавок усугублялось зависимостью от одного вендора.

Наша компания пошла путём использования открытых технологий. В основу решений Huawei легла работа со второй версией RoCE, возможности которой были расширены за счёт использования дополнительных лицензируемых алгоритмов в наших коммутаторах. Это позволило серьёзно оптимизировать возможности сетей.



Почему мы не видим будущего за классическими FC-решениями? Дело в том, что они работают по принципу статического выделения кредитов, что требует настройки сетевой фабрики в соответствии с потребностями ваших приложений на ограниченный срез времени.

В последнее время FC шагнул вперёд к автономным сетям хранения данных, но продолжает нести в себе ограничения производительности. Сейчас мейнстрим шестое поколение технологии, позволяющее добиться пропускной способности 32 Гбит/с, начинают внедряться и решения 64 Гбит/с. При этом с помощью Ethernet мы уже сегодня, используя таблицы приоритета, можем получить 100, 200 и даже 400 Гбит/с до сервера.



Дополнительные возможности сети ЦОД приобретают особое значение в мире, где твердотельные накопители со скоростными интерфейсами занимают всё большую долю рынка, вытесняя классические шпиндельные. Huawei стремится к тому, чтобы дать СХД на основе SSD полностью раскрыть свой потенциал.



Сеть ЦОД следующего поколения


Небольшой пример того, как мы это делаем. На схеме изображена одна из наших систем хранения данных, признанных самыми быстрыми в мире. Здесь же показаны наши серверы, построенные на архитектуре x86 или ARM и демонстрирующие производительность на уровне ожиданий крайне требовательных клиентов. В ЦОДах на основе этих решений нам удаётся добиться сквозной задержки не более 0,1 мс. Получить такой результат нам помогает использование новых application-технологий.

Классические технологии, применяемые в СХД, были ограничены, в частности, достаточно высокими задержками, которые обуславливались шиной SAS. Переход на новые протоколы, такие как NVMe, позволил значительно улучшить этот параметр, и вместе с тем ограничивающим производительность фактором становилась сама сеть.



Рассмотрим в рамках этого же примера использование сетей с дополнительными лицензируемыми алгоритмами. Они позволяют оптимизировать сквозную задержку, существенно повысить пропускную способность сети и увеличить количество операций ввода-вывода на единицу времени. Такой подход помогает избежать двойной закупки, подчас необходимой для достижения необходимых параметров производительности, а совокупная экономия (в измерении TCO) при внедрении новой сети достигает 1840% в зависимости от моделей применяемого оборудования.



Что же это за вау-алгоритмы?


Привычные технологии несли с собой привычные же проблемы, так как работали со статическими пороговыми значениями очереди. Такой порог означал, что для всех приложений формировалась некое базовое соотношение между скоростью и задержкой. Ручной режим управления не давал обеспечить динамическую подстройку параметров сети.

Используя в коммутаторах дополнительные чипсеты машинного обучения, мы научили сеть работать в режиме, позволяющем строить интеллектуальные сети ЦОД без потерь пакетов (мы назвали его iDCN).



Как достигается интеллектуальная оптимизация? Те, кто занимается нейросетями, легко найдут на схеме знакомые элементы и механизмы training / inference. Наличие в наших решениях встроенных моделей сочетается со способностью обучаться на конкретной сети.



Система ИИ накапливает определённый объём знаний о сети, которые затем аппроксимируются и используются при динамической настройке сети. В устройствах на базе наших собственных аппаратных решений применяется специальный ИИ-чип. В моделях, построенных на лицензируемых чипсетах американских производителей, задействуются дополнительный модуль и программная шина.



О применяемых моделях. Мы используем подход, который опирается на модель обучения с подкреплением. Система анализирует 100% проходящих через сетевое устройство данных и выбирает базовую линию. Если, к примеру, известны пропускная способность и те задержки, которые критичны для конкретного приложения, определить базовую линию не составляет труда. При большом количестве приложений можно проводить медианные вычисления и выполнять настройки в автоматическом режиме, ощутимо повышая производительность.



На схеме процесс представлен более подробно. На старте оптимизации сети мы производим вычисления пороговых значений как минимальных, так и максимальных. Далее в дело вступает конволюционная нейронная сеть (CNN). Таким образом удаётся выровнять пропускную способность и коэффициенты задержек для каждого приложения, а также определить его общий вес в рамках сетевых сервисов. Используя такой стратифицированный подход, мы получаем действительно интересные выводы.



Когда приложение неизвестно, применяется алгоритм эвристического поиска в сочетании с машиной состояний. С её помощью мы начинаем двигаться по изображённой выше блок-схеме против часовой стрелки, выявляя пороговые значения и строя модель. Это автоматический процесс, на который при необходимости можно оказывать управляющее воздействие. Если такой необходимости нет, проще положиться на коммутатор и его сервисы.



От теории к практике


Применяя такие алгоритмы и работая на уровне всей сети, а не отдельных её срезов, мы решаем все основные проблемы производительности. Уже есть интересные кейсы внедрения и использования подобных технологий в банковской сфере. Востребованы эти механизмы и в других отраслях, например среди операторов связи.



Обратимся к результатам открытых тестов. Независимая лаборатория The Tolly Group протестировала наше решение и сравнила его с решениями Ethernet и IB других производителей. Как показали испытания, производительность продукта Huawei эквивалентна возможностям IB и на 27% превосходит Ethernet-продукты других крупных производителей.



Максимальную эффективность сеть ЦОД без потерь демонстрирует в нескольких сценариях, как то:

  • обучение ИИ;
  • централизованное хранение;
  • распределённое хранение;
  • высокопроизводительные вычисления на GPU.




В заключение рассмотрим один из сценариев применения интеллектуальной сети ЦОД. Многие заказчики используют распределённые системы хранения (SDS). Интегрируя между собой программные СХД разных производителей с помощью нашего решения, можно добиться на 40% более высокой производительности, чем без него. А значит, когда известен требуемый уровень производительности вашей SDS, его можно добиться, используя на 40% меньше серверов.

***


Кстати, не забывайте про наши многочисленные вебинары, проводящиеся не только в русскоязычном сегменте, но и на глобальном уровне. Список вебинаров на декабрь доступен по ссылке.
Подробнее..

Конкурс про ИИ на форуме Huawei Enterprise

25.12.2020 18:10:30 | Автор: admin
Сегодня ИИ используется в самых разных научных областях: ядерной- и радиофизике и электронике, космических исследованиях, геологии и геофизике, биологии, медицине, экономике, социальных исследованиях, юриспруденции, лингвистике и др. Какие компании разрабатывают эти технологии и воплощают их в жизнь, какие направления и разработки наиболее перспективны?

image

Узнать из первых рук о новых технологиях, поучаствовать в дискуссиях, вступить в клубы по интересам вы сможете на русскоязычном форуме Huawei Enterprise.

Уже сейчас один из подходов технологии машинного обучения генеративное моделирование, основанное на сетях глубокого обучения может помочь физикам определить наиболее вероятную теорию среди соревнующихся моделей наблюдаемых данных. Без специальных знаний о том, какие физические процессы могут происходить в исследуемой системе.

Эксперты из технологических компаний пишут статьи, ведут вебинары и рассказывают читателям форума о том, что происходит на переднем крае прикладной науки

Проект IBM Watson обещал революционизировать сферу лечения рака, но Согласно внутренним документам компании IBM, многие врачи остались недовольны первыми результатами тестирования системы Watson for Oncology. Специалисты выявили многочисленные примеры небезопасных и некорректных рекомендаций по лечению, составленных суперкомпьютером


Приглашаем вас на форум поделиться своим мнением о том, что нам даст эра искусственного интеллекта. Где, по вашему мнению, наиболее востребованы эти технологии? С какими технологиями вы работали или хотите поработать, например Huawei Atlas.

Интересно узнать ваш взгляд на варианты их применения в будущем, о том, как изменится мир с появлением ИИ. Фантазируйте о мире с искусственным интеллектом!

До 17 января 2021 г. вы можете участвовать и выиграть технику Huawei: ноутбук, телефоны, часы, наушники.
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru