Русский
Русский
English
Статистика
Реклама

Аттестация сотрудников ЦОДа как и зачем ее проводят в Linxdatacenter



Ранее мы уже рассказывали о том, как проходили аттестацию Uptime Institute Management & Operations Stamp of Approval в 2018 году и подтверждали уровень соответствия его требованиям в 2020.

Сегодня поговорим о тренировке и проверке знаний инженеров ЦОДа это опыт Linxdatacenter в Санкт-Петербурге, который сертифицирующая организация взяла на вооружение в своей работе.

Напомним, о чем идет речь: стандарт Management & Operations отраслевого экспертного института Uptime Institute оценивает качество управления инженерных служб дата-центров и направлен на снижение количества отказов из-за человеческого фактора.

Он появился в результате анализа 6000 эпизодов отказов ЦОДов за 20 лет наблюдений за отраслью и является частью (одной из трех) более емкого отраслевого стандарта Operational Sustainability.

Помимо M&O (управление и эксплуатация) туда входят также Building Characteristics (характеристики здания) и Site Location (расположение площадки). Вопросы управления и эксплуатации ЦОДа в этой иерархии играют главную роль в эксплуатационной устоичивости площадки.

Более 75% всех сбоев обусловлено человеческим фактором: он включает как прямые ошибки оператора, так и принятие неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания, обучения и общего подхода к работе.

Обучение персонала, инструкции по действиям в различных ситуациях и регламентное обслуживание сокращают количество отказов минимум в 3 раза.

Аттестация зрелости

Одно из базовых положений стандарта, на котором мы и развернули программу аттестации персонала, гласит: Наличие надлежащего количества квалифицированных сотрудников имеет решающее значение для достижения долгосрочных целеи. Без надлежащего количества квалифицированных сотрудников и правильнои организации их труда, у ЦОД не будет ресурсов для успешного функционирования.

Обеспечить себя такими сотрудниками стандарт рекомендует через качественный подбор персонала и выработку комплексного подхода к обслуживанию ЦОДа. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).

Чем выше уровень Tier дата-центра, чем быстрее растут целевые показатели его производительности, строже становятся требования к организации, поскольку сложность и детализация каждого из этих элементов увеличивается.

Стандарт предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации.

Только такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт еще раз: Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события.

Собственно, отсюда и берет начало наша система аттестации.

Вторая ее идеологическая опора стандарт ISO 22301 Security and resilience Business continuity management systems Безопасность и устойчивость Системы управления операционной непрерывностью бизнеса.

Этот стандарт непосредственно регулирует шаги компаний (во всех сферах, не только ИТ) по обеспечению непрерывного характера своей деятельности вне зависимости от наступления экстренных ситуаций и неблагоприятных внешних условий.

Один из его пунктов указывает, что организация должна определить необходимые компетенции лиц, выполняющих работу, которая влияет на обеспечение ее бесперебойного функционирования. И далее по тексту, на компании накладываются обязательства по обеспечению компетенций этих лиц на основе соответствующего образования, подготовки или практического опыта.

Этот процесс нужно поддерживать, совершенствовать и оценивать его результаты, сохраняя соответствующую документально подтвержденную информацию в качестве доказательства компетентности.

Наконец, третий столп нашей программы собственный опыт нескольких лет последовательной работы над повышением скоординированности и эффективности работы инженерных служб. Этот опыт нашел отражение в нашей документации по процедурам аварийной эксплуатации (EOP Emergency Operations Procedures), в том числе в части аттестации персонала.

Четко задокументированные и формализованные процедуры в структуре бизнес-процессов площадки в Санкт-Петербурге позволяют оценивать профессиональный уровень работника и выявлять соответствие его квалификации занимаемой должности или выполняемой им работы.

Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и т. д. является обязанностью работников.

Основные виды и главные задачи

Зачем нам это нужно? С одной стороны да, работали как-то без аттестации раньше, без нее также обходятся масса (да почти все) коллег по отрасли.

С другой, следует понимать, что дата-центр сложнейший инженерный объект, состоящий из множества подсистем, управление которыми требует высочайшей квалификации, ответственности и внимания.

Мы постоянно занимаемся апгрейдом инженерных подсистем и групп процессов управления дата-центром. Только за последнее время были внедрены процессы профилактическогоухода за дизель-генераторными установкамиианализа качества поставляемого топливадля них, контроль уровнядавления и подпора воздухав серверных в помещениях икомплекс мер по предотвращению загрязнения воздуха. Также была проведена серьезная модернизация системы управления зданием (BMS), внедрен в эксплуатацию широкий спектркомпонентов системы LOTO.

В ходе этих работ мы неоднократно убеждались, что любые методики контроля качества приносят хороший результат, только если они формализованы и применяются на регулярной основе это еще одна причина ввода обязательной аттестации.

Кроме того, такие проверки помогают стимулировать рост эффективности и качества труда, определить необходимость повышения квалификации и подтягивания уровня знаний конкретных специалистов, а также организовать правильную расстановку кадров с учетом уровня их профессиональных знаний и навыков.

Перед плановой аттестацией руководители проводят подготовительную консультационную работу, а именно за две недели аттестуемому персоналу сообщаются критерии аттестации, вопросы для экзамена, проводят разъяснительные консультации.

Все вопросы сопровождаются подробно разобранными ответами со ссылками на нормативные документы и инструкции.

Процедура по сути

Аттестацию проводит комиссия в составе не менее трех человек, процедура состоит из двух этапов.

На первом проводится тестирование аттестуемого работника в рамках опросников и тестов. Общее количество вопросов 60-70 в зависимости от специализации. Во время аттестации случайным образом выбираются 15. Около 80% вопросов касаются непосредственно профессии, остальные 20% смежных областей знаний и компетенций коллег по ЦОДу.

Для проведения аттестации был разработан специальный внутренний портал, который позволил автоматизировать и сделать прохождение аттестации регистрируемым процессом



Примеры вопросов для сотрудников различных департаментов

Механики

Раздел Maintenance (Обслуживание)

  1. Когда запланировано следующее ТО систем, за которые вы отвечаете?
  2. Сколько сотрудников указано в списке на доступ от подрядчика, который будет проводить следующее ТО?
  3. Какая текущая версия и дата утверждения документа с контактами и SLA поставщиков?
  4. Что такое Предупредительное обслуживание? (Predictive maintenance)? Дайте ссылку на инструкцию по Predictive maintenance и график его проведения.
  5. Какие виды технического обслуживания проводятся в ЦОД? Чем они отличаются? Где можно увидеть списки такого обслуживания?

Раздел EOP

  1. При какой температуре в помещениях ИБП нужно начинать выполнение EOP?
  2. При каком давлении в системе ХС нужно начинать выполнение EOP?
  3. Укажите действия при неисправности фанкойла Water loss alarm.

ИТ-инженеры

Раздел Оборудование

  1. Укажите ближайшую дату поверки средства измерения (и его тип) по вашим системам.
  2. Приложите ссылку на папку с документацией к любому оборудованию, относящемуся к вашим системам.
  3. Приложите ссылку на исполнительную документацию по любой из обслуживаемых вами систем.
  4. Приложите ссылку на папку с альбомом последних версий схем по обслуживаемым вами системам.

Раздел Работа в системе инцидент-менеджмента

  1. Как определить, какой приоритет нужно поставить обращению?
  2. Если для решения проблемы нужна дополнительная информация от клиента, какой статус нужно выставить в тикете?
  3. Ваши действия при поступлении высокоприоритетных обращений в нерабочее время.
  4. Как правильно запросить дополнительную информацию от клиента?
  5. В чем разница в статусах On Hold и Waiting? Учитываются ли эти статусы при расчете времени решения обращения?

Инженеры-электрики

Раздел Общие инструкции, Приказы (Common Instructions, Orders)

  1. Укажите ваши действия при пожаре в ЦОД и при пожаре в ДГУ.
  2. Укажите ваши действия при появлении неисправностей на пожарной панели ЦОД или ДГУ.
  3. Укажите ваши действия при ложном срабатывании систем пожаротушения ЦОД или ДГУ.
  4. Каким документом регламентируются работы в действующих электроустановках?
  5. Что должен сделать контролирующий системы мониторинга при появлении аварийных и предупредительных сообщений (за исключением периода перехода между источниками энергии)?
  6. Где располагается мастер-ключ для экстренного доступа в стойки клиентов?
  7. В каких инструкциях указаны меры по работе во время пандемии и какие они?

Как видно из приведенных примеров, мы учитываем текущие реалии, в которых работаем. В данном случае это вопросы по состоянию на декабрь 2020 года.

Второй этап процедуры аттестации состоит из личного собеседования комиссии со специалистом. В работе аттестационной комиссии обязательное участие принимает непосредственный руководитель аттестуемого работника.

Основными критериями, исходя из которых оцениваются профессиональные компетенции работника, являются уровень его подготовки, в том числе профессиональные навыки, итоги работы за определенный период времени, а также соответствие требованиям к занимаемой должности.

Решение принимается открытым голосованием большинством голосов.

Вердикты

По результатам аттестации выносится заключение:

  • занимаемой должности соответствует;
  • соответствует, но не полностью (рекомендуется повторная аттестация); или
  • не соответствует занимаемой должности.

В первом случае сотрудника могут включить в резерв на вышестоящую должность, условия трудовых соглашений с ним не меняются. В последнем же рассматривается вопрос либо о переводе на другую работу, требующую более низкой квалификации, либо о расторжении трудового договора по п. 3 ч. 1 ст. 81 ТК РФ.

Неполное соответствие чревато переводом с согласия сотрудника на другую работу, а также направлением на курсы повышения квалификации (дополнительного обучения).

Тяжело в учении легко в бою

Большую роль в процессе обучения сотрудников служб эксплуатации дата-центра играет практический аспект тренировки и учения.

В качестве примера приведем выдержки из итогового протокола учений по отработке действий сотрудников дежурной смены и охраны ЦОДа в Санкт-Петербурге.

Хронология событий

1050 Произошел пожар (имитация) помещении 107. Сработала пожарная сигнализация и система голосового оповещения.

1050 Руководитель смены охраны объекта связался с дежурной сменой ЦОДа, сообщив им о месте пожара и поставил задачу сотруднику охраны по организации эвакуации клиентов ЦОДа.


1207 Сотрудник охраны выдвинулся в ЦОД для проверки путей эвакуации, разблокировки калиток на путях эвакуации, проверки разблокировки полноростового турникета, организации эвакуации людей. Сотрудник охраны экипирован электрическим фонарем, изолирующим противогазом и рацией для связи.


1207 Звонок сотрудника охраны ЦОДа старшему смены охраны ПСБ СКАЙ-ТРЕЙД с сообщением о происшествии в ЦОДе.

1208 Начало эвакуации людей, не задействованных в обнаружении и локализации (ликвидации) пожара, из помещений ЦОДа.

1209 Сотрудники дежурной смены ЦОДа выдвинулись для проверки причин срабатывания пожарной сигнализации и организации эвакуации людей из ЦОДа.


1211 Сотрудники дежурной смены ЦОДа подошли к месту предполагаемого пожара. Сотрудники экипированы электрическими фонарями и изолирующими противогазами.


1212 Доклад сотрудника охраны о том, что все помещения свободны и люди из ЦОДа эвакуированы.

1212 Эвакуация завершена.


1215 Перевод системы пожарной сигнализации и голосового оповещения из режима Пожар в дежурный режим. Окончание пожарно-технической тренировки.

Это отчет о событийной канве мероприятия, которая, как мы видим, укладывается во временной промежуток продолжительностью чуть более одного часа. Далее лица, ответственные за проведение учений, указывают выявленные несоответствия и перечисляют решения, принятые в отношении команды.

В данном конкретном случае не был сымитирован звонок сотрудника дежурной смены на пульт пожарной охраны поэтому оценка только 4.

Рекомендовано повторить порядок действий при сигнале о пожаре в соответствии с инструкцией и проводить подобные учения для каждой смены персонала не реже 1 раза в квартал.

Выводы и планы развития

Формализация и документирование процессов помогают обеспечить историчность (отслеживание динамики), а также объективность оценок.

На данном этапе развития направления нам удалось реализовать комплексный подход к обучению и проверке уровня знаний персонала ЦОДа, от которых зависят такие показатели, как непрерывность работы площадки, и, в конечном итоге, SLA для клиентов.

В целом, реализованная нами система подтверждения знаний и умений это общий тренд развития направления в будущем. Все решения по обеспечению непрерывности бизнеса строятся на архитектуре тесно увязанных между собой специалистов, политик, процедур и процессов, а также организационной структуры и ресурсов компании.

И люди в этом перечне на первом месте.
Источник: habr.com
К списку статей
Опубликовано: 25.03.2021 12:22:32
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Блог компании linxdatacenter

Управление персоналом

Инженерные системы

Цод

Аттестация персонала

Сертификация

Эксплуатация цод

Дата-центр

Тренинг

Проверка знаний

Инженерная служба

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru