Как команде технарей построить свой стартап или путь из функционального мониторинга к AIOps-платформе

Три месяца назад я опубликовал историю про то, как не получилось из проекта сделать продукт, как он обратно превратился в проект и так и не вышел на рынок (прочитать об этом можно тут).

Второй подход к снаряду начался несколько лет назад, и пока полет нормальный. Уже есть клиенты, выручка, призовые места на международных конкурсах, интерес со стороны инвесторов. Историю развития продукта я бы хотел рассказать в этой статье. А также поделиться уроками, которые были выучены во время забега к продукту. Эта статья будет интересна и тем, кто строит продукт, и тем, кто занимается мониторингом в крупной организации. Так как мы строим именно систему для автоматизации, зонтичного мониторинга, функционального мониторинга и предиктивной аналитики.

Как родилась идея

Жила-была в 2014 году в одном интеграторе команда технарей, которая мечтала сделать свой продукт и выйти с ним на рынок. Нет, даже не так. Команда и не мечтала сделать свой продукт, она сначала увидела возможность помочь своим коллегам поддерживать информационные системы более эффективно.

Этот интегратор занимался тогда в основном поддержкой высоконагруженных систем с огромным числом пользователей и большим числом процессорных ядер на каждую систему. Поддержка была в лучших традициях жанра 24/7. В одной смене могли работать по 20-30 человек. Кто-то смотрел в экраны инфраструктурного мониторинга, кто-то следил за обращениями пользователей, кто-то в непрерывном режиме тестировал руками функционал, кто-то поддерживал автотесты на селениуме и т.д.

Было две проблемы, за решение которых можно было взяться:

Руками проверять функционирование систем очень тяжело и дорого, надо этот процесс автоматизировать;
Летит безумное число оповещений из систем мониторинга, надо найти способ сократить число оповещений и выявить из них только важные.

На обе проблемы было дано решение.

Первая решилась развертыванием Jenkins, на нем запускались сборки тестов на Selenium, далее данные парсились и выводились в виде метрик в Zabbix, на которые были построены триггеры. По сработавшим триггерам приходили оповещения команде поддержки.

Вторая решилась написанием небольшого приложения, где в RabbitMQ падали все оповещения из систем мониторинга, далее они по жестко заданными правилам обрабатывались, результаты складывались в базу PostgreSQL, был построен небольшой дашборд на Bootstrap шаблоне, где были выведены эти события. Назвали его Сервис-монитор. После чего стоял тот же Zabbix, который следил за возникающими событиями и высылал уже команде предобработанные события в почту.

Для интегратора задача была решена относительно быстро и недорого. И команда гордилась тем, что сделала. В то время подобной автоматизацией мало кто мог похвастаться.

И вот однажды, на одной из встреч с одним из крупных заказчиков, руководитель проекта со стороны интегратора показал заказчику этот дашборд. Похвалился, как теперь они узнают о сбоях. Заказчик попросил доступ в дашборд и попросил оповещать его о критических сбоях, которые были не решены за 1 час.

Потом руководитель заказчика увидел данный дашборд и попросил настроить на него оповещение, если критический сбой длится более 2 часов.

Как в том мультфильме про Винни-Пуха. Они посидели еще немного, а потом еще немного. Заказчик попросил настроить еще несколько правил: особое правило для выходных дней, особое правило, если инцидент массовый, особое правило на обработку ночных событий. Вручную правила в коде писать было очень неудобно. Росло число правил, и росло время на поддержку системы.

Так внутренний продукт интегратора фактически получил первого внешнего клиента. Именно тогда пришла мысль: а что, если из этого сделать продукт, с которым потом можно было бы выйти на рынок? До этого было еще очень долго, но команде нравилась своя работа и то, что получалось сделать что-то реально полезное.

Урок 1: не упускайте возможностей

Если у вас есть технические наработки, которые помогают вам, покажите их своим клиентам, возможно им они даже нужнее.

Функциональный мониторинг

В 2015 году этот заказчик эксплуатировал более ста информационных систем, работал с двадцатью подрядчиками, а в эксплуатации были заняты более 50 инженеров внутри организации и 300 со стороны подрядчиков. Затраты на мониторинг были очень высокими, а эффективность низкая из-за понятных сложностей в координации всех разрозненных процессов, ну, и, конечно, человеческого фактора, который делал систему оценки качества непрозрачной. При этом мониторинг был зачастую в руках подрядчиков, которым было невыгодно регистрировать инциденты, чтобы не портить свои KPI занижением SLA.

У организации были две наиболее сильные боли, для которых она искала решение:

Пользователи систем обнаруживали проблемы в работе ИТ сервисов раньше специалистов эксплуатации;
Подрядчики иногда не регистрировали инциденты и завышали SLA.

Так как заказчику была известна система Сервис-монитор, он выбрал ее в качестве решения. За первые полгода к мониторингу были подключены 87 информационных систем (в среднем 3-7 тестов по 10 шагов на каждую систему), использовали более 7 000 метрик и более 2600 триггеров. Было написано более 50 разных правил эскалации. Все это позволило ответить на самый главный вопрос работают ли услуги у заказчика и кто из подрядчиков врёт. Оказалось, что некоторые инциденты не замечались не только ночью, но и днем, если пользователи не писали о проблемах.

Есть одна распространенная проблема, с которой сталкиваются при внедрении мониторинга методом синтетических транзакций или непосредственной проверке функционирования через имитацию действий пользователей. Систему хочется проверять боевую, а вносить изменения тестовому пользователю нельзя. Так произошло с центральной бухгалтерской системой, построенной на базе 1С и Парусе. Проблема, как тестировать толстый клиент решилась быстро, а что делать со сценариями, где надо проводить платежи, но делать этого нельзя было непонятно.

Там, где речь идет о финансовом и зарплатном учете, робот может просматривать данные, но никаких изменений вносить было нельзя. Представьте заработную плату сотруднику изменить, или уволить сотрудника. А размер заработной платы вообще вещь очень чувствительная. К таким данным надо относиться со всей заботой и безопасностью. Пришлось рядом с каждым подразделением, на той же инфраструктуре модернизировать препрод, сделать зеркало системы с похожими, но трансформированными данными. Уже сюда можно было вносить изменения и смотреть, как поведет себя система, и, если все работало (входные данные же практически неотличимы) мы знали, что и на проде всё тоже будет работать. Собственно, кейс подтверждался на 100%: сбои и на дублере, и на боевой системе происходили одновременно.

А как же мониторинг логов и мониторинг реальных транзакций?

Он был бы не очень информативен, так как некоторые операции совершались редко. Нужно было выявить проблему раньше, чем ее заметит пользователь. А мониторинг реальных транзакций показал бы проблему, когда ее уже обнаружит пользователь.

Вот так, например, выглядит отчет о выполненных проверках:

Как говорится, аппетит приходит во время еды. Сначала была решена проблема с достоверностью и контролем подрядчиков, но теперь многократно возросла нагрузка на ситуационные центры, которые получили еще одну систему мониторинга.

Сервис-монитор у заказчика тогда не воспринимался как средство объединения данных из разных систем мониторинга. Эту функцию он исполнял внутри интегратора, где он реально помогал снизить число мусорных оповещений и повысить эффективность работы дежурной смены.

Когда у тебя 10 инженеров и 200 оповещений в день внутри нескольких проектов интегратора, это не одно и тоже, когда у тебя 100 систем, 350 инженеров и 10 тысяч оповещений от систем мониторинга в день у крупной организации, где миллионы клиентов и десятки тысяч сотрудников.

В 2016 году Сервис-монитор принесли показать в ситуационный центр заказчика и было понятно, что продукт еще очень и очень сырой. Внедрять его в том виде, каким он был, было невозможно.

Урок 2: цените критику

Самые ценные советы по развитию продукта дают те, кто от него отказывается.

В интеграторе было принято решение, что продукт надо развивать быстрее и было выделено дополнительное финансирование на расширение команды R&D. Были взяты на карандаш все требования ситуационного центра. А они были примерно такие:

Ролевая модель доступа к разным объектам инфраструктуры;
Написание правил эскалации из интерфейса, желательно в визуальном конструкторе;
Шаблоны оповещений для разных групп пользователей;
Возможность подключать разные системы мониторинга, такие как Zabbix или SCOM;
Автоматическая регистрация инцидентов в системе Сервис-деск не через почтовый канал;
Просмотр информации по инциденту (протокол) из интерфейса системы.

Заказчик в 2016 году архитектуру своего мониторинга видел так:

Требования были разумные и полезные для развития продукта.

В 2017 году все требования были в той или иной степени удовлетворены. В непрерывном режиме мы показывали, что у нас получается, руководителю ситуационного центра. Была заинтересованность, и она вселяла уверенность, что продукт будет полезен.

Урок 3: не теряйте коммуникацию и будьте упорными

Нам очень повезло, что заказчик не выбрал другой более зрелый продукт известного западного вендора. Если бы мы не напоминали о себе, скорее всего так бы и произошло.

Так, например, в итоге стали выглядеть правила в конструкторе правил и действий:

Зонтичный мониторинг

У заказчика было очень много информационных систем, написанных разными разработчиками на разных языках, и у каждой информационной системы зачастую был свой мониторинг, который генерировал огромный поток событий, среди которых нужными и важными оказывались далеко не все (максимум 10%). Обычно за этот мониторинг уровня работы приложений, среды исполнения, баз данных, отвечали подрядчики.

На более низких уровнях: виртуализация, сервера, сети, были свои системы мониторинга, которые уже были на стороне заказчика. Данные с этих систем стекались в ситуационный центр. Также ситуационный центр мониторил обращения пользователей. И было так, что пошел массовый инцидент, инженеры ищут на уровне сети/серверов проблему, дальше дергают подрядчиков, те говорят, что у них все хорошо и проблема в ЦОДе. Знакомо такое?

Приходилось обмениваться скринами из своих мониторингов, показывать, доказывать, а время шло, инцидент висел в работе, клиенты оставались без сервиса. И так было несколько лет и воспринималось нормой.

И тут приходит зонтичная система аналитики и говорит, что все их проблемы быстро будут решены, что одно информационное пространство быстро всех помирит, что можно будет быстро расследовать инцидент.

На эту тему у меня есть картинка, которая говорит, что прогресс, если он нужен людям, победит.

Человек на картинке с красным флагом (или лампой) предупреждает людей о приближении автомобиля. Это требование Locomotive Act 1865. Его отменили в 1896 году, 31 год спустя запуска на дорогу первого автомобиля. Представьте, через какой протест прошли первые автостроители.

Наверное, руководитель ситуационного центра тогда также нелепо смотрелся таким же мужичком с красным флагом. Через два года, к слову сказать, ситуационный центр был трансформирован в центр эксплуатации, где работали менеджеры процессов и проектов, а не операторы. Из 10 экранов осталось два, и на них теперь висит ресурсно-сервисная модель с набором фильтров по бизнес-направлениям и дашборд здоровья основных систем.

Несколько лет назад, когда продукт встал в ситуационный центр, некоторые подрядчики скрытно саботировали использование Сервис-монитора. Да и некоторые специалисты ситуационного центра выбрали для себя тактику во что бы то ни стало найти косяки в работе продукта, который, как они думали, может их когда-то заменить. Таким образом, у продукта появились первые несколько сотен пользователей. И это было очень ценно, так как они помогали развивать продукт. Но работать в таких условиях было непросто. Приходилось за каждый релиз биться, не спать ночами, фиксить баги.

Урок 4: не бойтесь тяжелой работы

Трудности обязательно будут. Преодолеть их поможет только трудолюбие и стремление к результату.

Вот, например, самый ненавистный экран для слабых подрядчиков по эксплуатации, где заказчик сейчас сам проверяет уровень сервиса. Тут показан расчет, по которому идет определение штрафных санкций по контракту, если SLA не выполнен:

За год работы системы в контуре заказчика помимо двух тысяч функциональных роботизированных проверок, нескольких сотен правил, более тысячи пользователей, система на борт себе взяла управление ресурсно-сервисной моделью. Вот так она выглядит со стороны. Мне кажется, это практически искусство.

А вот такой экран здоровья систем появился не так давно:

Развитие продукта

Каждый функциональный пользователь системы Сервис-монитор хотел чего-то своего. Незаметно система стала настольной для большого числа специалистов, занятых в процессах поддержки, поменяла бизнес-процессы организации и изменила привычки людей. Что в 2015 году казалось космосом, в 2016 году это представлялось очень сложной задачей, а в 2019 году уже эксплуатировалось.

Продукт развивался вместе с развитием требований заказчика. В 2019 году появилась автоматизация, был сделан большой рефакторинг бэкэнда и фронтенда, в 2020 году появился анализ логов, аналитические модели с использованием ML. Сейчас мы понимаем, кто наши конкуренты и что мы делаем, какое у нас позиционирование, что мы AIOps-платформа. Мы в 2019 году также изменили название, стали называться платформой MONQ, вывели продукт в отдельный спин-офф, получили статус резидента Сколково. В 2020 году стали наконец-таки операционно прибыльными, победили на Startrup Village, но это все уже другая история, которая относится к другой стадии стартапа.

Если вы сейчас читаете эту статью и у вас есть наработки, которые кому-то упрощают жизнь, попробуйте о них рассказать другим. Возможно они нужны еще кому-то. Не теряйте возможностей, самое страшное, что произойдет, вы просто потеряете время на рассказ о них. Внимательно слушайте критику, она поможет вам сфокусировать ваш продукт на клиента. Не теряйте надежду и не оставляйте коммуникацию с теми, кто дал вам фитбэк по вашей идее, особенно с теми, кто высказался в негативном ключе. Ну и если есть идея, прототип, есть понимание клиента, приготовьтесь к тяжелой работе. Дорогу осилит идущий.

Угадайте, какая система более централизована, государственные деньги или децентрализованные криптовалюты? Более централизованы оказались криптовалюты. Твиты одного человека способны двигать не только цены монет малой капитализации, но и его величества Биткоина.

Мне нравятся технологии, которые бурно развиваются в сфере блокчейн. Нодавайте сначала пройдемся по недостаткам крипты. Криптовалюты не прозрачны, спекулятивны. Тот,

	Русский
	English

Как команде технарей построить свой стартап или путь из функционального мониторинга к AIOps-платформе

Как родилась идея

Функциональный мониторинг

Зонтичный мониторинг

Развитие продукта

Сейчас читают

Венчурные инвестиции

Перевод Перевод Курса по стартапам и бизнесу от Стэнфордского Университета. Лекция 2. Команда и реализация стартапа

Оптимизации портфеля с помощью Python и PyPortfolioOpt

Портфельная теория Марковица

Психология криптовалют или социальная сеть Биткоин

Перевод Привлечение инвестиций в Кремниевой долине в чем колоссальное отличие от других мест

Клубный дом за 4 млрд стоит ли он этих денег

Заводчики единорогов перечитываем интересные посты о создании и развитии стартапов

Системное администрирование

USB over IP удалённое администрирование

Перевод Как объяснить детям, что такое Apache Kafka за 15 минут с картинками и выдрами

Перевод Контролируем удаление с финализаторами

Перевод Как работает single sign-on (технология единого входа)?

Что такое single sign-on?

Как работает SSO?

Перевод Разработка REST-серверов на Go. Часть 3 использование веб-фреймворка Gin

Интеграция SAML в Zimbra OSE

Управление продуктом

Перевод Разработчики не могут исправить ошибки управленцев

BAдайджест, май 2021 подкаст сКарлом Вигерсом, Docs asCode

Business Analysis

Перевод Как Airbnb скрывает кошмары при помощи тайной команды чистильщиков

Перевод Пол Букхайт Три типа идей и почему плохие идеи часто оказываются лучшими

MVP на примере швейцарского ножа

Recovery mode Система мотивации ТОП-3практики из США

Monq