- NetPing
- >
- Блог
- >
- Примеры применения
- >
- Пример мониторинга на основе NetPing в типовой серверной
Пример мониторинга на основе NetPing в типовой серверной
Введение
В этой статье я бы хотел описать свой опыт и взгляды на мониторинг серверного помещения. Для начала оценим масштаб зоны ответственности. У меня небольшая серверная площадью в два квадратных метра, в которой всего 2 стойки: под сервера и сетевое оборудование. Климат обеспечивается сплит-системой из двух кондиционеров (основного и резервного), также присутствует ИБП. В целом, обычная серверная небольшой компании. Железо DELL, СХД NetApp, сети на Cisco, ИБП APC, серверная ОС WinServer 2008 R2(AD, DNS,DHCP,сервер приложений и сервер БД), за мониторинг отвечает PRTG Network Monitor.
Как-то раз я получил письмо о том, что мои серверы получили статус End-Of-Support (прошло 5 лет с момента закупки), и руководство приняло решение не продлевать гарантию за деньги, а закупить новое железо. Старое должно было уйти на игровые площадки для разработчиков и тестировщиков, но руководство предупредило, что «наступают тяжелые времена» и денег под развитие выделяться больше не будет без крайней необходимости. Обеспокоенный вопросом долговечности и надежности моих серверов, я поднял вопрос о мониторинге не только самого оборудования, но и серверного помещения.
Чтобы уговорить руководство раскошелиться еще немного, я выложил следующие аргументы:
- СН 512-78 Технические требования к зданиям и помещениям для установки средств вычислительной техники, а конкретно пункт 3: Требования к микроклимату и шуму.
- Перечень сервисов и время их простоя. Какие проекты будут «задеты» в случае падения промышленного сервера приложений.
По итогам было предложено либо закупить дополнительное оборудования для подготовки отказоустойчивого решения, либо купить систему мониторинга для серверной. Денег выделили, да и задублировать критичные сервисы тоже согласились. Но поговорим о мониторинге помещения.
Что мы будем мониторить и как
Само железо я мониторю через консоль IPMI – оттуда я получаю данные по состоянию мат. платы, процессора, жесткого диска и т.д., в том числе и информацию по температуре непосредственно внутри. В самом помещении мне нужно будет мониторить температуру и влажность.
Но для начала – зачем это нужно?
- Температура: здесь важно понимать, что даже наличие информации по температуре не дает мне понимания о состоянии самое серверной, ведь температура внутри корпуса запросто может превышать 50 градусов! Даже если опираться только на теплодатчики внутри железа, получение алерта с самого сервера – это уже точка невозврата, поскольку сервер после остановки кондиционера нагревается не сразу.
- Влажность – для серверных оптимальной влажность считается 40-60%. Если меньше – накапливается электростатический заряд, а если больше – конденсация влаги, что приводит к окислительным процессам и сокращает срок работы железа.
Теперь к инструменту пониторинга. Я буду использовать UniPing Server Solution v3/SMS.
Для наглядности – схема подключения:
Все изображенное на картинке мне не понадобится, я ограничусь только датчиками влажности и температуры.
Сам UniPing был установлен в одной стойке, по 3 термодатчика на стойку (спереди снизу, посередене и сверху для избежания «средней температуры по больнице), 1 датчик влажности снаружи, между стойками.
Получилось приблизительно так:
На другой стойке такое же расположение термодатчиков. Сам UniPing я настроил на отправку SMS и работу сигнализации, данные с него у меня обрабатывает PRTG (как подружить PRTG с UniPing читайте в отдельной статье). Казалось бы, задача решена, но так ли это?
Мониторинг - это не только сбор информации
Настроенные алерты, графики на большом экране - это лишь полдела, не менее важна реакция на инцидент. Об управлении инцидентами отдельно рассказывается на курсах ITIL и ITSM, поэтому мы слегка затронем конкретно ситуацию мониторинга.
Для начала давайте определимся с метриками. Какая допустимая норма? При каком пороговом значении и в какие временные рамки какое должно срабатывать оповещение?
Я установил верхний порог для температуры 28 градусов. При достижении такой температуры PRTG пришлет мне электронное письмо через 5 минут после обнаружения. Это значение обусловлено тем, что при температуре 28 градусов в помещении температура внутри корпуса достигает уже 51 градус через 15-20 минут. Это не является критичным для железа, но сокращает срок его службы. При достижении 30 градусов через 5 минут срабатывает сигнализация в помещении, и отправляется сообщение на телефонные номера меня, моего коллеги и моего начальника.
Касательно влажности все немного сложнее. Пороговых значений здесь уже два: ниже 35% и выше 65%. Аварийная сигнализация здесь не срабатывает, только отправка SMS и предупреждение в мониторинг.
Вот так выглядят настройки границ в UniPing:
Вот такие графики с сенсоров после подключения их к PRTG Network Monitor:
Настройка отчета по датчикам влажности.
Реакция на инциденты
По воле злого рока мониторинг пригодился сразу – один из кондиционеров отказал, а второй не включился. Обнаружили, что пропало питание на сплит-систему, вызвали техобслуживание здания, и проблема была решена. Благо это произошло в рабочий день, но что делать, если кондиционер отказал в выходной день?
По результатам внутреннего обсуждения и переговоров с администрацией бизнес-центра мы пришли к следующему регламенту. При достижении критичного значения влажности и температуры в любое время инженерам инфраструктуры и техобслуживанию здания приходит электронное письмо. Инженеры и руководство IT получают SMS-сообщение, также оно приходит на дежурный телефон службы техобслуживания. После этого инженеры от IT незамедлительно связываются со службой техобслуживания для решения проблемы. Инженеры ИТ между собой заранее регулируют, кто будет первым реагировать на инцидент в нерабочее время (читай – кто поедет в офис по необходимости).
Такой регламент соблюдается при условии, что сисадмины работают в обычное офисное рабочее время, и дежурных смен у нас нет. Если бы у нас была дежурная смена, то ответственность за реакцию лежала бы на ней.
Также мы теперь собираем данные по показателям температуры помещения для выявления трендов (например, не стала охлаждающая способность кондиционеров хуже или нет ли тренда повышения влажности).
С такими отчетами можно потом идти к руководству, чтобы заказать новый кондиционер или установку приточно-вытяжной вентиляции.

Цена: 2 340 руб.

Цена: руб.

Цена: 1 045 руб.

Цена: 42 500 руб.

Цена: 950 руб.

Цена: 15 730 руб.

Цена: 4 290 руб.

Цена: 6 200 руб.

Цена: 20 280 руб.

Цена: 20 280 руб.

Цена: 10 980 руб.

Цена: 8 580 руб.

Цена: 18 000 руб.

Цена: 27 300 руб.

Цена: 1 429 руб.

Цена: 3 354 руб.

Цена: 2 240 руб.

Цена: 1 400 руб.

Цена: 8 973 руб.

Цена: 15 700 руб.

Цена: 1 224 руб.

Цена: 6 700 руб.

Цена: 3 800 руб.