Мониторинг системы

 

Модуль включает в себя серверную часть ПО Zabbix, а также набор серверных скриптов и правил настройки Zabbix-агента, позволяющих осуществлять мониторинг корректности работы ключевых компонентов АСР Platex таких как СУБД, RADIUS-сервер, сервер биллинга, коллектор. Мониторинг специализированных параметров АСР осуществляется набором серверных скриптов. ПО Zabbix осуществляет мониторинг параметров, возможность которых поддерживается в стартовой конфигурации ПО (загрузка CPU, RAM, анализ журнальных файлов).

 

При обнаружении ошибок модуль отправляет уведомление по электронной почте администратору системы и отображает информацию об ошибке в web-интерфейсе Zabbix.

 

Администратор системы расчетов может настроить периодичность запуска скриптов мониторинга и параметры запуска: е-mail для отправки уведомлений, пиковые значения параметров мониторинга (загрузка CPU, объем свободной памяти, объем свободного места в табличных пространствах СУБД).

 

Главный экран мониторинга (отображает список проблем, журнал действий и доступность узлов мониторинга)

 

Описание функционала мониторинга

Отслеживаемые модулем параметры можно разделить на две группы: стандартные и пользовательские.

Под стандартными параметрами понимаются параметры, мониторинг которых можно осуществлять посредством ПО Zabbix "из коробки" без необходимости установки дополнительных расширений/плагинов. К ним можно отнести:

Мониторинг виртуальных машин: доступность, загрузка CPU, свободная/занятая ОЗУ, свободное место на диске;

Мониторинг состояния процессов, влияющих на корректность работы АСР

Анализ журнальных файлов (логов)

 

К пользовательским параметрам относятся те параметры, мониторинг которых осуществляется путем установки специализированных пользовательских скриптов. Такие параметры прописываются в отдельных конфигурационных файлах ПО Zabbix в формате "Название параметра + команда запуска". К таким параметрам можно отнести:

Мониторинг СУБД Oracle: доступность, необходимость расширения табличных пространств;

Мониторинг RADIUS-модуля: доступность, проверка авторизации тестового абонента;

Любые другие параметры по требованию заказчика.

 

Настройка параметров мониторинга осуществляется в веб-интерфейсе во вкладке Настройка -> Узлы сети -> Элементы данных.

 

 

Пользователю предоставляется возможность настроить интервал мониторинга и интервал хранения истории, активировать/деактивировать мониторинг значения. Более подробно о настройках параметров мониторинга в Zabbix можно прочитать в официальной документации ПО Zabbix.

 

Стандартные параметры

На сервере биллинга и коллектора (парсер) осуществляется проверка:

Загрузка CPU (CPULoad)

Количество свободной оперативной памяти (RAMAvailable)

Количество свободного места на разделе (например, Free space /usr/local/PLATEX/oracle)

Количество занятого места на диске (например, Used space /usr/local/PLATEX/oracle) - используется для построения графиков стиля PieChart

Наличие процесса в системе процесса Crond - процесс Crond отвечает за запуск заданий на сервере по расписанию

Наличие процессов сбора NetFlow (NetflowReceiver) — процесс отвечает за сбор данных по трафику NetFlow (запущены на коллекторе)

Наличие процессов RADIUS (Radius) — отвечает за PPPOE (запущены на сервере биллинга)

Проверка доступности порта FTP коллектора CDR (si2000/si3000 collector port check)

Проверка доступности порта 1521 TCP сервера биллинга (Port 1521 check) - порт прослушивается Oracle, должен быть доступен внешне

Анализ bill.log (logAnalyze bill.log) - протокол АСР

Анализ radiusd.log и acct.log (logAnalyze rad-auth.log и logAnalyze rad-acct.log) - протокол RADIUS-сервера

Анализ alert_PLATEX.log (logAnalyze alert_PLATEX.log) - протокол СУБД

 

На каждый из элементов данных повешены триггеры (просмотреть можно во вкладке Настройка -> Узлы сети -> Триггеры). Триггеры срабатывают при получении критичного значения элемента данных. При срабатывании триггера в системе генерируется событие (Мониторинг -> Проблемы) и отправляется E-mail администратору системы.

 

Значения элементов могут быть: числовые (загрузка CPU, количество свободного места на разделе и др.), логические (доступен/не доступен порт, запущен/не запущен процесс) и журнальные (логи). Для стандартных параметров настроены следующие триггеры:

Загрузка CPU превышает значение "Количество ядер/2"

Заполнено более 70% места на разделе X

Свободно менее 1Gb оперативной памяти

Не доступен порт 1521

Не доступен по FTP коллектор CDR

Не запущен процесс NetflowReceiver (любой из 10 работающих)

Не запущен процесс Radius

Не запущен процесс Crond

Наличие строк "Child is hung up" в логах RADIUS

Наличие строк "ORA-" в alert_PLATEX.log

Наличие строк "Error" в bill.log

 

Последние значения, полученные сервером мониторинга можно посмотреть во вкладке Мониторинг -> Последние данные. По количественным значениям строятся графики на панелях "Сервер биллинга (общая)" и "Парсер (общая)".

 

 

 

Пользовательские параметры

На сервере биллинга проверяется:

Количество свободного места в табличном пространстве  (например, oraTablespaceFreeSpace CALLS) - переполнение может привести к аварии СУБД

Количество процессов в СУБД Oracle (oraProcessesCount)

Количество сессий в СУБД Oracle (oraSessionsCount)

Наличие строк в буфере тарификации телефонии и интернета за предыдущие сутки (oraJT_REG_CALLS и oraJT_REG_I_CALLS)

Наличие длительных операций в Oracle и незавершенных транзакций с временем запуска в предыдущие сутки (oraLongOperationsCount, oraTransactionsCount + oraLongOperationsView, чтобы вывести сами операции)

Количество RADIUS-сессий  (RADIUS sessions count) - количество авторизованных в АСР сессий RADIUS

Авторизация тестового абонента (radius Authorization Success Check) - проверка авторизации тестового абонента (в plClients - ZABBIX RADIUS TEST) через radclient

 

Для пользовательских параметров настроены следующие триггеры:

Количество свободного места в табличном пространстве меньше 5Gb;

Количество процессов в СУБД Oracle превышает 85% до установленного лимита;

Количество сессий в СУБД Oracle превышает 85% до установленного лимита;

Присутствуют записи в буфере тарификации (телефония и интернет) с датой за предыдущие сутки;

Присутствуют длительные операции/незавершенные транзакции, запущенные за предыдущие сутки;

Количество RADIUS-сессий меньше 1000 (можно настроить любой другой «критический» порог);

Авторизация тестового абонента завершилась неудачно.

 

Последние значения, полученные сервером мониторинга можно посмотреть во вкладке Мониторинг -> Последние данные.

По количественным значениям строятся графики на панелях "Сервер биллинга (oracle,radius)" и "Oracle Tablespaces".

 

 

 

Создание пользователей и настройка оповещений

При срабатывании триггера отправляется Email группам пользователей "Zabbix Administrators" и "Zabbix Users".

 

 

Группы пользователей и пользователи (включая их права) настраиваются во вкладках Администрирование -> Группы пользователей и Администрирование -> Пользователи. Пользователи могут делиться на 3 категории: супер администратор, администратор и пользователь. Супер администратор может управлять правами доступа пользователей, узлами сети и параметрами мониторинга. Администратор может изменять только доступные ему настройки. Пользователь не имеет доступа к настройкам. Права доступа к узлам сети определяются на уровне групп пользователей (Zabbix Users не имеют доступа к настройками узлов сети).

Email для отправки оповещений настраивается в настройках каждого пользователя во вкладке "Оповещения".

 

 

Более подробно о настройках пользователей и прав доступа можно прочитать в официальной документации ПО Zabbix.