Отказоустойчивость между 5 дата-центрами как мы разгребаем зоопарк

Сейчас мы стоим в 4 физически разных ЦОДах, соединённых кольцом тёмной оптики, размещая там 5 независимых пула ресурсов. И так получилось, что если в одну из кроссовых попадёт метеорит, то у нас тут же отвалится 3 этих пула, а оставшиеся два не потянут нагрузку. Поэтому мы занялись полной ребалансировкой, чтобы навести порядок. Вообще, оглядываясь назад, могу сказать, что все действия по размещению это вынужденные ходы. И вот только сейчас на 15-й год мы можем настраивать инфраструктуру так, как нужно нам.

По дороге нам пришлось научиться готовить ProxySql балансировщики MySQL и немного закопаться в сетевой стек. Но, пожалуй, начну с самого начала. А начиналось всё с shared hosting и VPS в Мастехосте, на которых крутилось наше расписание электричек, которое многие из вас видели. И эти сервера получали тройной трафик на майские, отчего сразу ложились. Точнее, мы не знаем, какой трафик они получали, потому что ложились именно на тройном от обычного.

Первый ЦОД

Сначала ЦОДа вообще не было. Был старый системник в общаге МГУ. Потом, почти сразу виртуальный хостинг у Мастерхоста (они ещё живы, чертяки). Посещаемость сайта с расписанием электричек удваивалась каждые 4 недели, поэтому очень скоро мы перешли на KVM-VPS, это случилось примерно в 2005 году. В какой-то момент мы упёрлись в ограничения по трафику, поскольку тогда надо было соблюдать баланс между входящим и исходящим. У нас было две инсталляции, и мы перекладывали с одной на другую пару увесистых файлов каждую ночь, чтобы соблюсти требуемые пропорции.

В марте 2009 были только VPS. Это дело хорошее, решили переходить на colocation. Купили пару физических железных серверов (один из них тот самый со стены, тело которого мы храним как память). Поставили в ЦОД Фиорд (и они ещё живы, чертяки). Почему? Потому что было недалеко от тогдашнего офиса, порекомендовал знакомый, и вставать надо было быстро. Плюс было сравнительно недорого.

Разделение нагрузки между серверами было простым: на каждом был бэк, MySQL с master-slave репликацией, фронт был там же, где и реплика. Ну т.е. почти без разделения по типу нагрузки. Довольно скоро их тоже начало не хватать, купили третий.

Примерно 1 октября 2009 мы поняли, что серверов уже больше, но на новый год ляжем. Прогнозы по трафику показывали, что возможная мощность будет перекрыта с запасом. Причём упирались мы в производительность БД. Был месяц полтора на подготовку перед ростом трафика. Это было время первых оптимизаций. Купили пару серверов чисто под БД. Там делали акцент на быстрые диски со скоростью вращения 15krps (не помню точную причину, почему мы не использовали SSD, но скорее всего они имели невысокий лимит по количеству операций записи, и при этом стоили, как самолет). Разделили фронт, бэк, базы, подкрутили настройки nginx, MySQL, провели ресеч по оптимизации SQL запросов. Пережили.

Сейчас-то мы стоим в паре Tier-III ЦОДов и в Tier-II по UI (с замахом на T3, но без сертификатов). А вот Фиорд был ни разу даже не T-II. У них были проблемы по живучести, бывали ситуации из разряда все провода питания в одном коллекторе, а там пожар, а генератор ехал три часа. В общем, решили переезжать.

Выбрали ещё один ЦОД, Караван. Задача: как переехать серверами без даунтайма? Решили пожить на два ЦОДа какое-то время. Благо трафика внутри системы на тот момент было не столько, как сейчас, можно было гонять трафик по VPN между локациями какое-то время (особенно вне сезона). Сделали балансировку трафика. Постепенно увеличивали долю Каравана, через некоторое время полностью переехали туда. И вот у нас остался один ЦОД. А нужно два, мы это уже понимали, спасибо сбоям у Фиорда. Оглядываясь на те времена, могу сказать, что TIER III тоже не панацея, живучесть-то будет 99.95, но вот доступность это другое. Так что одного ЦОДа для доступности 99.95 и выше точно не хватит.

Вторым выбрали Стордату, и там уже была возможность оптического линка с площадкой Каравана. Успели протянуть первую жилу. Только начали загружать новый ЦОД, как Караван объявил, что у них наступила задница. Им надо было покинуть площадку, потому что здание сносят. Уже. Сюрприз! Новая площадка есть, предлагают потушить все, кранами поднять стойки с оборудованием (тогда у нас уже было 2.5 стойки железа), перевести, включить, и все заработает 4 часа на все сказки я уж молчу, что нам даже час простоя не подходил, а тут история на сутки минимум затянулась бы. Причём подавалось всё это в духе Всё пропало, гипс снимают, клиент уезжает!. 29 сентября первый звонок, а числа 10-го октября они хотели забрать всё и везти. За 3-5 дней нам пришлось разработать план переезда, и в 3 этапа, выключая по 1/3 оборудования за раз с полным сохранением сервиса и аптайма перевезти машины в Стордату. В итоге простой был 15 минут в одном не самом критичном сервисе.

Так мы опять остались с одним ЦОДом.

В этот момент нам надоело таскаться с серверами под мышкой и играть в грузчиков. Плюс надоело заниматься самим железом в ЦОДе. Стали смотреть в сторону публичных облаков.

От 2 до 5 (почти) ЦОДов

Начали искать варианты с облаками. Вышли на Крок, попробовали, протестировали, договорились по условиям. Мы встали в облако, которое в ЦОДе Компрессор. Сделали кольцо тёмной оптики между Стордатой, Компрессором и офисом. Везде свой аплинк и два плеча оптики. Перерубание любого из лучей не рушит сеть. Потеря аплинка не рушит сеть. Получили статус LIR, есть своя подсеть, BGP анонсы, сеть резервируем, красота. Как именно заходили в облако с точки зрения сети здесь описывать не буду, но были нюансы.

Так у нас стало 2 ЦОДа.

У Крока есть еще ЦОД на Волочаевской, они расширили свое облако и туда, предлагали перенести часть ресурсов наших туда. Но помня историю с Караваном, который, по сути, так и не оправился после сноса ЦОДа, захотелось облачные ресурсы брать у разных провайдеров, чтобы уменьшить риск, что компания перестанет существовать (страна такая, что игнорировать такой риск нельзя). Поэтому с Волочаевской не стали связываться на тот момент. Ну и ещё второй вендор делает магию с ценами. Потому что, когда вы можете взять и эластично уехать, это даёт сильную переговорную позицию по ценам.

Смотрели разные варианты, но выбор пал на МТС.Cloud. Тому было несколько причин: облако на тестах показало себя хорошо, с сетью ребята тоже умеют работать (телеком оператор все-таки), и очень агрессивная маркетинговая политика захвата рынка, как следствие, интересные цены.

Итого 3 ЦОДа.

Дальше все-таки мы подключили и Волочаевскую нужны были дополнительные ресурсы, а в Компрессоре уже было тесновато. В общем, перераспределили нагрузку между тремя облаками и своим оборудованием в Стордате.

4 ЦОДа. Причём уже по живучести везде T3. Сертификаты, кажется, не у всех есть, но не буду утверждать точно.

У МТС был нюанс. Ничего кроме МГТС последней милей туда зайти не могло. При этом тянуть темную оптику МГТС целиком от ЦОДа до ЦОДа не было возможности (долго, дорого, и, если я не путаю, они такую услугу и не предоставляют). Пришлось делать со стыком, выводить два луча из ЦОДа до ближайших колодцев, где есть наш провайдер темной оптики Мастертел. У них разветвлённая сеть оптики по всему городу, и, если что, они просто сваривают нужный маршрут и дают вам жилу. А в это время Чемпионат мира по футболу пришел в город, неожиданно, как снег зимой, и доступы в колодцы в Москве закрыли. Мы ждали, пока это чудо закончится, и мы сможем прокинуть свой линк. Казалось бы, нужно было выйти из ЦОДа МТС с оптикой в руках, посвистывая дойти до нужного люка и опустить её туда. Условно. Делали три с половиной месяца. Точнее первый луч сделали довольно быстро, к началу августа (напомню, что ЧМ закончился 15 июля). А вот со вторым плечом пришлось повозиться первый вариант подразумевал, что надо перекопать Каширское шоссе, для чего перекрыть его на недельку (там при реконструкции завалило какой-то туннель, где лежат коммуникации, надо откапывать). К счастью, нашли альтернативу: другой маршрут, такой же геонезависимый. Получилось две жилы от этого дата-центра до разных точек нашего присутствия. Кольцо оптики превратилось в кольцо с ручкой.

Чуть забегая вперёд, скажу, что всё равно нам его положили. К счастью, в самом начале эксплуатации, когда еще мало всего перенесли. В одном колодце случился пожар, и пока монтажники матерились в пене, во втором колодце кто-то вытащил посмотреть коннектор (какой-то он был новой конструкции, интересно же). Математически вероятность одновременного сбоя была ничтожна. Практически мы его поймали. Собственно, нам и во Фиорде везло там рубанулось основное питание, и вместо включения его обратно, кто-то перепутал рубильник и выключил резервную линию.

Были не только технические требования по распределению нагрузки между локациями: чудес не бывает, и агрессивная маркетинговая политика с хорошими ценами подразумевает определенные темпы роста потребления ресурсов. Так что мы все время держали в голове, какой процент ресурсов надо отправить в МТС обязательно. Всё остальное мы перераспределяли между другими ЦОДами более-менее равномерно.

Снова своё железо

Опыт использования публичных облаков показал нам, что их удобно использовать, когда надо быстро добавить ресурсов, под эксперименты, под пилот и т.п. При использовании под постоянной нагрузкой, получается дороже, чем крутить свое железо. Но мы уже не могли отказаться от идеи контейнеров, бесшовных миграций виртуалок внутри кластера и т.п. Написали автоматизацию, чтобы гасить часть машин ночью, но всё равно экономика не складывалась. У нас не было достаточно компетенции для поддержки частного облака, пришлось отрастить.

Искали решение, которое бы позволило получить облако на своем железе относительно легко. На тот момент мы никогда не работали с серверами Cisco, только с сетевым стеком, в этом был риск. На Деллах же простое хорошо знакомое железо, надёжное как автомат Калашникова. У нас такое стояло годами, и до сих пор где-то есть. Но идея Hyperflex в том, что он из коробки поддерживает гиперконвергентность итогового решения. А у Делла всё живёт на обычных маршрутизаторах, и там есть нюансы. В частности, производительность по факту не такая прикольная как в презентациях из-за оверхеда. В смысле, их можно правильно настроить и будет супер, но мы решили, что это не наш бизнес, и пусть Делл готовят те, кто находит в этом призвание. В итоге выбрали Cisco Hyperflex. Этот вариант победил по совокупности как самый интересный: меньше геморроя в настройке и эксплуатации, и во время тестов все было хорошо. Летом 2019 запустили кластер в бой. У нас была полупустая Стойка в Компрессоре, занятая по большей части только сетевым оборудованием, там и разместили. Таким образом получили пятый ЦОД физически-то четыре, но по пулам ресурсов получилось пять.

Взяли, посчитали объём постоянной нагрузки и объём переменной. Постоянную превратили в нагрузку на своё железо. Но так, чтобы на уровне оборудования давало облачные преимущества по отказоустойчивости и резервированию.

Окупаемость проекта железного проекта по средним ценам наших облаков за год.

Вы находитесь здесь

В этот момент у нас закончились вынужденные ходы. Как видите, у нас не было особо вариантов экономически, и постоянно мы нагружали то, куда должны были встать по каким-то причинам. Это привело к странной ситуации, что нагрузка неравномерная. Отказ любого сегмента (а сегмент с ЦОДами Крока держится на двух Нексусах в узком месте) это потеря пользовательского опыта. То есть сайт сохранится, но будут явные сложности с доступностью.

Был сбой в МТС со всем ЦОДом. Было ещё два в других. Периодически отваливались облака, либо контроллеры облаков, либо возникала какая-то сложная сетевая проблема. Короче, мы время от времени теряем ЦОДы. Да, кратковременно, но все равно неприятно. В какой-то момент приняли за данность, что ЦОДы отваливаются.

Решили идти на отказоустойчивость уровня дата-центров.

Сейчас мы не ляжем, если откажет один из 5 ЦОДов. Но вот если потеряем плечо Крока будут очень серьёзные просадки. Так и родился проект отказоустойчивости дата-центров. Цель такая если ДЦ умрёт, сеть до него умрёт или оборудование умрёт, сайт должен работать без вмешательства руками. Плюс после аварии мы должны штатно восстановиться.

В чём подводные камни

Сейчас:

Нужно:

Сейчас:

Нужно:

Эластик устойчив к потере одной ноды:

MySQL базы (много небольших) управляются достаточно сложно:

Про это лучше детальнее напишет мой коллега, который делал балансировку. Важно то, что до того, как мы навесили это, если мы теряли мастера, то надо было руками зайти на резерв и там поставить флажок r/o=0, перестроить на этот новый мастер ансиблом все реплики, а их в основной гирлянде более двух десятков, поменять конфиги приложения, потом раскатать конфиги и дождаться обновления. Сейчас приложение ходит по одному anycast-ip, который смотрит на LVS балансировщике. Постоянный конфиг не меняется. Вся топология баз на оркестраторе.

Сейчас между нашими ЦОДами протянута тёмная оптика, которая позволяет обращаться к любому ресурсу в пределах нашего кольца как к локальному. Время ответа между ЦОДами и время внутри плюс-минус одинаковое. Это важное отличие от других компаний, которые строят геокластеры. Мы очень сильно завязаны на своё железо и свою сеть, и мы не пытаемся локализовать запросы внутри ЦОДа. Это с одной стороны круто, а с другой если захотим в Европу или в Китай, то свою тёмную оптику не вытащим.

Это означает ребалансировку почти всего, в первую очередь баз данных. Много схем, когда активный мастер и на чтение, и на запись держит всю нагрузку, а рядом реплика синхронная для быстрого переключения (мы не пишем в два сразу, а именно реплицируем, иначе работает не очень хорошо). Основная база при этом в одном ЦОДе, а реплика в другом. Ещё частичные копии могут быть в третьем для отдельных приложений. Таких инстансов от 10 до 15 в зависимости от времени года. Оркестратор растянутый кластер между цодами 3 ЦОДами. Тут мы детальнее расскажем ещё, когда найдутся силы описать, как вся эта музыка играет.

Нужно будет покопаться в приложениях. Это и сейчас нужно: у нас иногда бывает, что если порвалось соединение, то корректно погасить старое, открыть новое. Но иногда повторяются запросы в уже потерянное соединение в цикле, пока процесс не сдохнет. Последнее, что ловили задача по крону, напоминание про поезд не выписалось.

В общем, есть ещё чем заняться, но план понятный.

Физика движения локомотива такая: чем он мощнее, тем лучше он трётся о рельс и больше тянет. При этом чем больше вам нужно тянуть, тем тяжелее должен быть локомотив, чтобы не проскальзывать по рельсу. А чем тяжелее он будет, тем больше шансов повредить рельс. В итоге примерно к 2000-м годам вся эта система достигла равновесия: более-менее устаканились ТТХ отечественных локомотивов с учётом ширины колеи и допустимого из

Лепра пришла к человечеству сильно раньше, чем у нас появились хоть какие-то работающие механизмы диагностики или лечения. Болезнь на несколько веков разделила мир на две больших части: здоровых и изгнанников.

Инкубационный период от 6 месяцев до 20 лет, при том что нормальным сроком спячки болезни считается период от трёх до семи лет, это вам не две недели карантина.

Этот день яркий пример того, как несколько вещей, которые сами по себе не приводят к отказу, могут удачно совпасть. Итак, 23 апреля было совершенно обычным днём, с обычным трафиком и обычной загрузкой ресурсов. Как обычно, с запасом больше трети, чтобы при потере любого из ЦОДов пережить это без проблем. Никто не думал, что к серверному мониторингу нужно прикручивать ещё мониторинг того, что говорит президент на прямой

Скорее всего, вы знаете про Эквадор две вещи: мужика по имени Дарвин, который именно на Галапагосских островах открыл эволюцию и бананы. 96% бананов в России растут на фермах этой страны, проплывают полпланеты на сухогрузах, чтобы потом оказаться в магазинах дешевле яблок. Возможно, ещё вы знаете, что у н

В этот блок выдачи могут попасть только сервисы группы юрлиц Яндекса

Я уже несколько постов разбираю наше обращение в ФАС по поводу интеграции поиска Яндекс с различными сервисами Яндекса. Напомню предыдущие серии: предупреждение ФАС, ФАС возбуждает дело против Яндекса. В комментар

Скриншот показывает, как эффективно Яндекс добавляет свои сервисы наверх выдачи

Привет! Я один из тех юристов, которые направили обращение в ФАС, в результате рассмотрения которого появилось

Большую часть своей жизни я жил и работал в Москве. Занимался тем, что менял здоровье на деньги. Правда, на очень хорошие, поэтому под занавес пятого десятка купил квартиру в тихом приморском городке, далеко от столичной суеты и ежедневной нервотрёпки.

Особой необходимости в работе у меня не было. Дети уже стали самостоятельными настолько, что запросто могут содержать нас с женой. Да и скопить удалось прилично. Однако, были

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

Я как-то видел, когда в команду разработки закинули задачу распилить монолит. И всё. Люди должны были работать в два раза больше это ужасно.

Когда поступает похожий запрос, важно не наворотить дел и понять, как избежать новых трудностей. Об этом рассказал Марсель Ибраев, технический директор Слёрма.

Марсель поделился непростым кейсом из своего опыта, высказал мнение, что всё начинаетс

Что такое single sign-on?

Технология единого входа (Single sign-on SSO) метод аутентификации, который позволяет пользователям безопасно аутентифицироваться сразу в нескольких приложениях и сайтах, используя один набор учетных данных.

Как работает SSO?

SSO базируется на настройке доверительных отношений между приложением, известным как провайдер услуг, и системой управления до

Привет! Меня зовут Мирослав, я инженер-разработчик проекта по реализации BPM-решений для внутренней автоматизации КРОК.

Наш проект не гоняет миллионы строк каждую ночь через фильтры и правила, это не сложная система, которая отвечает за кадровую информацию, бюджетирова

Согласно последнему отчету Yole Developments, внедрение новой памяти DDR5 будет происходить, по меркам сегмента, практически молниеносно. Аналитики компании считают, что уже к 2023 году сумма поставки модулей памяти нового поколения превысят $200 млрд, а к 2026 году новая память займет 90% мирового компьютерного

В Kubernetes не так-то просто что-то удалить вы уверены, что удалили объект, но оказывается, что он все еще присутствует в кластере. Вы, конечно, можете выполнять команду kubectl delete в повседневных операциях и надеяться на лучшее, но знание принципов работы

Сегодня, в третьей части серии материалов, посвящённых разработке серверов на Go, мы займёмся реализацией нашего REST-сервера с использованием Gin одного из самых популярных веб-фреймворков для Go. Вот

Успешные постмортемы без поиска виноватых помогают учиться на инцидентах, чтобы не допускать подобных ошибок в будущем.

Постмортем это сам и процесс, и его результат, то есть документ, где вы описываете инцидент, его разрешение и меры, которые можно принять, чтобы такого боль

Скачать Cheatsheet по запросам PromQL

Начало работы с PromQL может быть непростым, если вы только начинаете свое путешествие в увлекательный мир Prometheus. Это руководство поможет понять принципы его работы, статья включает интересные и полезные советы, необходимые для начала работы.

Поск

В этой статье приведены примеры популярных запросов Prometheus для мониторинга Kubernetes.

Если вы только начинаете работать с Prometheus и у вас возникают сложности при создании запросов PromQL, советуем обратиться к руководству по нач

Обзор версии ISPmanager 6

О панели ISPmanager, ее достоинствах и возможностях, кажется, знают все это одно из самых популярных решений для управления VPS и серверами на базе Linux.

Казалось бы, ну что еще добавить? Всё уже давно сказано. Но недавно разработчики из ISPsystem представили новую версию ISPmanager 6. Давайте разберемся, какие нововведения можно увидеть в решении

Описание

Huawei FusionModule2000 - интеллектуальный модульный центр обработки данных нового поколения, созданный специально для того, чтобы предоставить заказчикам простое, эффективное и надежное решение для ЦОД. Huawei FusionModule2000 первым в мире получил сертификацию уровня Tier IV Ready от Uptime Institute: он соответствует самым высоким требованиям к доступности.

Это высокоинтегрированное модульное решение, от

Что такое автономно управляемая сеть и чем она отличается от SDN? Huawei совместно с консалтинговой компанией IDC изучила критерии оценки сетевой инфраструктуры по уровню её способности поддерживать собственную работу без помощи администратора.

Какой заказчики

Если у вас большой и серьезный ЦОД, то параметрия температурных режимов не является проблемой. Существуют проверенные решения, например, программируемые контроллеры TAC Xenta, которые работают через LonWorks. Именно так мы собираем данные в московском ЦОД Datahouse. Но непосвящённому смертному весьма непросто собрать правильные показатели из этой связки и выводить их в мониторинг в нужном виде. К тому же решение промышленное и дост

В предыдущих частях мы рассказывали, как создавали и внедряли новую систему мониторинга ЦОД. В итоге у нас появился мощный механизм отслеживания и ведения статистики всех параметров ЦОДа, влияющих на доступность его ресурсов

Идея запустить и испытать дата-центр в космосе не нова. Собственно, многие космические аппараты так или иначе обрабатывают данные на борту, но и проекты размещения полноценных серверов в космосе появляются в мире уже не первый год.

Для начала, зачем вообще запускать да

Современная IT инфраструктура все больше виртуализируется, уплывая в Облака. Модели все как сервис SaaS, PaaS, IaaS используются повсеместно, но все эти решения по-прежнему используют сети передачи данных и машинные ресурсы для их обработки.

За последние 20 лет сети ЦОД претерпели множество изменений, с которыми попробуем познакомиться ближе на вебинаре

Для начала, зачем вообще запускать да

Ранее мы уже рассказывали о том, как проходили аттестацию

Привет, Хабр! Меня зовут Виктор, я главный инженер-энергетик в мегаЦОДе "Удомля". Мои коллеги уже показывали, как мы организуем гарантированное электропитание дата-центра с помощью ДГУ и регулярно проверяем их работоспособность. Но кроме ДГУ есть другое оборудование, которое может одновременно обеспечить гарантированное электроснабжение и бесперебойное питание. Речь о дизельных динамических ИБП (ДИБП). Такие установки стоят

В Норвегии изучают вопрос вторичного использования тепла, выделяемого ЦОД. Предполагается, что тепло можно направить на бытовые и общественные нужды обогрев зданий, производств, для рыбных хозяйств.

Термин бережливого производства (Lean) в настоящее время на слуху. Мы все знаем результаты применения данной идеи в компании Toyota, которые позволили выпускать малые партии комплектующих точно в срок (Just-In-Time, JIT).

В книге Microsoft Secrets (1995 года) авторы (Кузумано и Ричард Селби) описали подходы контроля качества схожие с Lean применяемым в Toyota.

Выпуск малыми партиями как нельзя лучше подходит для разра

Для различных уровней от senior до staff и выше.

Как проводить встречи. И нет, быть человеком, который говорит больше всех это не значит проводить встречу
Как писать проектную документацию, получать фидбек и доводить её до реализации в разумный промежуток времени
Как менторить нового junior-коллегу, middle-инженера, нового менеджера, которому нужен технический совет

Коллеги, всем привет!

В сегодняшней статье хотелось бы поговорить о том, как можно своими силами организовать обучение сотрудников в ситуации, когда нет времени или возможности оперативно отправить их на внешние тренинги или курсы.

Сразу отмечу, что если хочется

Статья раскрывает тему прямых и косвенных механизмов развития сотрудников и продуктовых команд внутри компании. К прямым механизмам относятся коучинг, менторство, терапия, тренинг и консультация, спонсируемые и поддерживаемые на уровне руководства компании. К косвенным относ

Возможно, вы уже умеете писать отличный код. И может, у вас уже есть реальное представление, как работает платформа, виртуализация и сеть с безопасностью. Но что, если вы не хотите углубляться ни в одну из этих областей? А может, вы уже думали о переходе в DevOps, где требуется много знаний и со стороны dev, и со стороны ops, но не нужно становиться хардкорным разработчиком? Тогда у нас хорошая новость начинать в DevOps можно в люб

Здравствуйте, дорогой читатель! Сегодня я хочу поделиться своими мыслями и аргументами на тему личного бренда, расскажу подробнее, что это такое, и зачем оно нужно.

Итак, личный бренд это Вы. Да, да, именно Вы. Вы бренд. У Вас есть своя философия, отношение к клиентам и даже логотип! Вы лицо своего бренда, главный идейный вдохновитель, маркетолог и генеральный директор! А клиенты это все люди вокруг, с которыми Вы взаимодейс

Это гостевая публикация отПэдди Байерса (Paddy Byers), сооснователя и технического директораAbly платформы д

Всем привет. Этой статьей мы начинаем знакомить вас с новой версией российской гиперконвергентной системы AERODISK vAIR v2, в частности, со встроенным гипервизором АИСТ, который сейчас получил возможность работать автономно от vAIR, используя внешние СХД.

В первой части мы рассказали про наиболее популярные пассивные средства ИБ, которые применяются для мониторинга и анализа трафика в сети. Возникает логичный вопрос: если системы умеют выявлять угрозы, то почему бы не блокировать их? Сегодня предлагаем Вам поговорить про

В последнее время Prometheus стал де-факто стандартом для сбора и хранения метрик. Он удобен для разработчиков ПО - экспорт метрик можно реализовать в несколько строк кода. Для DevOps/SRE, в свою очередь, есть простой язык PromQL для получения метрик из хранилища и их визуализ

Эта статья написана потому, что я бы хотел иметь такую статью перед глазами, когда развертывал кластер по документации. Сразу хочу сказать, что не являюсь экспертом в K8S, однако имел опыт с развертыванием продуктовых установок DC/OS (экосистемы, основанной на Apache Mesos). Долгое время K8S меня отпугивал тем, что, при попытке его изучения, тебя закидывают кучей концепций и терминов, отчего мозг взрывается.

Тем не менее, у

	Русский
	English

Отказоустойчивость между 5 дата-центрами как мы разгребаем зоопарк

Первый ЦОД

От 2 до 5 (почти) ЦОДов

Снова своё железо

Вы находитесь здесь

В чём подводные камни

Сейчас читают

Блог компании туту.ру

Почему практически бесполезно делать локомотив мощнее

Деньги лепрозориев

Как новость про 4 выходных дня уронила нам базу данных

Эквадор и Галапагосы середина мира и естественная биологическая лаборатория

А чего плохого в монополии Яндекса? И вообще в монополиях?

ФАС возбудило дело против Яндекса что это значит для Рунета

It-инфраструктура

USB over IP удалённое администрирование

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Интервью с Марселем Ибраевым о распиле монолита или Успех распила монолита грамотный менеджмент

Перевод Как работает single sign-on (технология единого входа)?

Что такое single sign-on?

Как работает SSO?

Внутренняя автоматизация почему мы отказались от low-code системы в пользу Camunda

Внедрение DDR5 будет молниеносным к 2026 году новая память займет 90 рынка

Серверное администрирование

Перевод Контролируем удаление с финализаторами

Перевод Разработка REST-серверов на Go. Часть 3 использование веб-фреймворка Gin

Перевод Постмортем инцидентов для начинающих

Перевод Знакомство с PromQL Cheatsheet

Перевод Tоп 10 PromQL запросов для мониторинга Kubernetes

ISPmanager 6. Что нового?

Обзор версии ISPmanager 6

Цод

Часто задаваемые вопросы про Huawei FusionModule2000

Описание

Huawei ADN первая в индустрии сеть с автономным управлением третьего уровня

О том, как мы температуру в ЦОД мерили

Мониторинг в ЦОДе как мы меняли старую BMS на новую. Часть 4

Выше облаков а не построить ли сервер в космосе?

Перевод CCIE 13 Как сдать экзамен Designing Cisco Enterprise Networks (300-420 ENSLD)

Дата-центр

О том, как мы температуру в ЦОД мерили

Мониторинг в ЦОДе как мы меняли старую BMS на новую. Часть 4

Выше облаков а не построить ли сервер в космосе?

Аттестация сотрудников ЦОДа как и зачем ее проводят в Linxdatacenter

Проверка двигателя на прочность как мы тестируем динамические ИБП

Ресайклинг по-норвежски ЦОДам предложили направлять излишки тепла на обогрев помещений

Развитие

Мы решили внедрить Agile-Lean принципы в процесс разработки на ходу и вот что из этого получилось

Перевод Неполный список навыков, необходимых senior-разработчикам, помимо написания кода

Самообучение в организации и как сделать эффективный тренинг

SCRUM Развитие сотрудников и продуктовых команд

С чего начинается DevOps и куда он может привести

Зачем айтишнику развивать личный бренд? 5 причин, 3 условия, 4 инструмента

Балансировка

Отказоустойчивость между 5 дата-центрами как мы разгребаем зоопарк

Отказоустойчивость

Перевод Инженерная надежность и отказоустойчивость распределенной системы

Как новость про 4 выходных дня уронила нам базу данных

Гиперконвергентная система AERODISK vAIR v2. Часть 1. Система виртуализации АИСТ

Обеспечение сетевой безопасности совместно с брокерами сетевых пакетов. Часть вторая. Активные средства безопасности

Cortex и не только распределённый Prometheus

Настройка отказоустойчивого кластера Kubernetes на серверах с публичной и приватной сетью с помощью Kubeadm

Категории

Последние комментарии