Русский
Русский
English
Статистика
Реклама

Обучение с подкреплением и эвристический анализ на коммутаторах ЦОД предпосылки и преимущества

Перед конференцией AI Journey, которую Huawei поддерживает как титульный партнёр и на которой выступит несколько наших спикеров, мы решили поделиться предварительной информацией о наших наработках, и в частности о том, как используем искусственный интеллект в умных сетях ЦОД. И заодно пояснить, почему устоявшихся технологий недостаточно для построения современных сетей ЦОД и нам нужна дружеская помощь от ИИ.




Что происходит в сфере условных lossless-сетей


За годы, когда среды передачи данных переживали бурное развитие, инженеры успели столкнуться со множеством явлений, препятствующих успешной реализации сетей хранения данных и высокопроизводительных кластеров вычислений на Ethernet: потерями, негарантированной доставкой информации, deadlock, microburst и другими малоприятными вещами.

Как следствие, считалось правильным строить референсную выделенную сеть под определённый сценарий:

  • IB для кластеров высоконагруженных вычислений;
  • FC для классической сети хранения;
  • Ethernet для сервисной задачи.


Попытки добиться универсальности выглядели приблизительно как на иллюстрации.



По каким-то задачам векторы могли совпадать (примерно как у лебедя и рака), и ситуативно универсальность достигалась, хоть и с меньшим КПД, чем при выборе узкоспециализированного сценария.

Сегодня Huawei видит будущее в многозадачных конвергентных фабриках и предлагает своим заказчикам решение AI Fabric, рассчитанное, с одной стороны, на сценарии повышения производительности сети без потерь (до 200 Гбит/с на порт сервера в 2020 году), с другой на увеличение производительности самих приложений (переход к RoCEv2).

О технической составляющей AI Fabric у нас, кстати, был отдельный подробный пост.

Что нуждается в оптимизации


Прежде чем рассуждать об алгоритмах, имеет смысл уточнить, что конкретно они призваны улучшить.

Static ECN приводит к тому, что с увеличением числа серверов-отправителей при едином получателе вырисовывается, мягко говоря, неоптимальная картина трафика (мы имеем дело с так называемой many-to-one incast моделью).



В традиционном Ethernet нам придётся вручную добиваться баланса между коэффициентами вероятности потерь на сети и низкой производительностью самой сети.



Те же предпосылки мы увидим также при использования связки PFC/ECN в случае реализации без постоянного тюнинга (см. рис. ниже).



Для решения описанных проблем мы задействуем алгоритм AI ECN, суть работы которого заключается в своевременном изменении порогов ECN. Как это выглядит, показано на схеме ниже.



Раньше, когда мы использовали связку чипсет Broadcom + ИИ-процессор Ascend 310, у нас было ограниченное количество возможностей по тюнингу таких параметров.

Такой вариант мы можем условно назвать Software AI ECN, так как логика делается на отдельном чипе и уже проливается в коммерческий чипсет.


У моделей, которые снабжены чипсетом P5 производства Huawei, ИИ-возможности существенно шире (особенно на свежем релизе), благодаря тому, что на нём реализована значительная часть необходимой для этого функциональности.



Как используем алгоритмы


Используя Ascend 310 (или встроенный в P-карты модуль), мы начинаем анализировать трафик и сравнивать его с эталонной базой известных приложений.



В случае с известными приложениями показатели трафика оптимизируются на лету, в случае с неизвестными происходит переход к следующему шагу.



Ключевые моменты:

  1. Производится обучение с подкреплением DDQN, исследование, накопление большого количества конфигураций базовых линий и исследование лучшей стратегии соответствия ECN.
  2. Классификатор CNN идентифицирует сценарии и определяет, является ли рекомендуемый порог DDQN надёжным.
  3. Если рекомендуемый порог DDQN ненадёжен, для его коррекции используется эвристический метод, с тем чтобы убедиться, что решение является обобщённым.


Такой подход позволяет скорректировать механизмы работы с неизвестными приложениями, а при большом желании можно и задать модель для своего приложения, используя Northbound API к системе управления коммутаторами.



Ключевые моменты:

  1. DDQN накапливает большое количество образцов памяти для конфигурации базовой линии и глубоко исследует логику согласования состояния сети и конфигурации базовой линии для изучения политик.
  2. Классификатор нейронных сетей CNN идентифицирует сценарии, чтобы избежать рисков, которые могут возникнуть, когда ненадёжные конфигурации ECN рекомендуются в неизвестных сценариях.


Что получаем


После такого цикла адаптации и изменения дополнительных сетевых порогов и настроек становится возможным избавиться от проблем сразу нескольких типов.

  • Проблемы производительности: низкая пропускная способность, длительная задержка, потеря пакетов, джиттер.
  • Проблемы с PFC: PFC-тупик, HOL, штормы и т. д. PFC-технология вызывает множество проблем системного уровня.
  • Проблемы приложений RDMA: ИИ / высокопроизводительные вычисления, распределённое хранение и их сочетания. RDMA-приложения чувствительны к производительности сети.


Резюме


В конечном счёте дополнительные алгоритмы машинного обучения помогают нам решить классические проблемы неотзывчивой сетевой среды Ethernet. Таким образом, мы ещё на шаг приближаемся к экосистеме прозрачных и удобных сквозных сетевых сервисов в противовес набору разрозненных технологий и продуктов.

***


Материалы по решениям Huawei продолжают появляться в нашей онлайн-библиотеке. В том числе по темам, затронутым в этом посте (например, до построении полноразмерных ИИ-решений под различные сценарии умных ЦОДов). А список наших вебинаров на ближайшие недели вы найдёте по ссылке.
Источник: habr.com
К списку статей
Опубликовано: 29.11.2020 16:21:40
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Блог компании huawei

Машинное обучение

Искусственный интеллект

Сетевое оборудование

Huawei

Huawei enterprise

Huawei ai ecn

Ecn

Ai fabric

Ascend 310

Умный цод

Ddqn

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru