Восстановление работы инфраструктурных сервисов после сбоев в организации ритейла и госучреждении

Периодически у наших заказчиков возникают проблемы, с решением которых мы помогаем. В качестве примера рассмотрим 2 случая:

1. Клиент (ритейл) обратился за помощью в восстановлении работы серверного и сетевого оборудования. В течение 1 часа был организован выезд технических специалистов с соответствующей квалификацией.

Описание проблемы:

В результате визуального осмотра установлено, что все кабельные соединения (оптические, медные) извлечены из оборудования. Вся инфраструктура заказчика остановлена, доступ к сервисам отсутствует. Информации о требуемом порядке соединений (кабельный журнал) у заказчика нет. Информация о плане IP-адресации, логинах/паролях к интерфейсам управления отсутствует.

Описание работ:

Используя сканер сети, подключая последовательно соединительные линии, которые могли подойти только к определенным разъемам, восстановили картину физической коммутации. Работа по восстановлению заняла 3 часа. Убытки от простоя нескольких десятков магазинов удалось максимально снизить.

Рекомендации:

Использование резервного центра обработки данных (облачного или локального) позволит в кратчайшие сроки переключить работу на резервное оборудование с минимальным сроком переключения. В данной ситуации рекомендуем иметь актуальную документацию по настройке системы и наличие плана переключения на резервную вычислительную площадку для исключения случаев остановки сервисов компании при нештатных ситуациях.

2. Клиент (государственный заказчик) обратился за помощью – отказала основная система хранения данных.

Описание проблемы:

Работа нескольких приложений, влияющих на работу всей организации, остановлена. Последнее резервное копирование критичных сервисов выполнено месяц назад. Это означает, что при невозможности восстановить работу – данные за один месяц будут потеряны.

Описание работ:

В результате обследования предложен план восстановления, включающий в себя последовательный набор действий, который по мере выполнения операций с минимальным риском для данных позволял определить причину сбоя и возможность восстановления данных. Последовательно, в нерабочее время, отключая серверные мощности от СХД и подключая заново, выполняя действия по разработанному плану восстановления, удалось восстановить работу СХД, обеспечив сохранность актуальных данных. Время восстановления – 5 календарных дней в круглосуточном режиме.

Рекомендации:

В инфраструктуре должна быть резервная система хранения данных для быстрого восстановления работы в случае недоступности основной системы хранения. Рекомендуем следить за актуальностью резервных копий данных, которые критичны для работы организации. Должен быть план восстановления после сбоя, что позволит выходить из подобных ситуаций с минимальным простоем процессов в организации.

Используемые решения и технологии: HPE BladeSystem c7000, HPE 3PAR 8400, IBM BladeCenter H, IBM Storwize v7000, VMware vSphere 6.7, Windows Server 2016

Восстановление работы инфраструктурных сервисов после сбоев в организации ритейла и госучреждении

ДРУГИЕ ПРОЕКТЫ

Автоматизация бизнеса

Информационная безопасность

IT - услуги

Компания