Disaster Recovery - plan działania po awarii w ramach odtworzenia utraconych danych

Awaria systemu informatycznego, utrata dostępu do kluczowych danych, bądź utrata samych danych zajmują obecnie w przypadku każdej branży wysokie miejsce w rankingu czarnych scenariuszy związanych z działalnością przedsiębiorstwa. Panika, przestoje, straty (finansowe i wizerunkowe), a w pewnej liczbie przypadków nawet zaprzestanie działalności - to konsekwencje wystąpienia awarii związanej z IT. W ukazanym kontekście staje się zatem niezwykle istotne posiadanie stosownych procedur uruchamianych w określonych przypadkach i umożliwiających firmom i organizacjom maksymalnie sprawne i bezproblemowe wznowienie pracy po awarii.

Disaster Recovery Plan - zasady i cele

Zasady postępowania awaryjnego w przypadku awarii określa Disaster Recovery Plan będący częścią Business Continuity Planning. Jego odpowiednie wdrożenie ma zminimalizować ryzyko utraty danych i ewentualny czas przestoju, a także obniżyć poziom stresu towarzyszący tego rodzaju sytuacjom, przywracając spokój i sprawność działania. Disaster Recovery w założeniach ma ograniczać negatywne skutki awarii technicznych (przerwa w zasilaniu), błędów ludzkich (wyciek danych, nieprawidłowości podczas wdrażania zmian informatycznych), ataków hakerskich, czy katastrof przyrodniczych (powódź, pożar, trzęsienie ziemi itp.), i stanowi udokumentowany zestaw zaleceń oraz wytycznych opisujących sposób postępowania w celu wznowienia działalności po awarii.

W ramach nakreślenia planu odzyskiwania sprawności po awarii, instytucja musi przeprowadzić wewnętrzną analizę najbardziej newralgicznych obszarów swego działania oraz wymagań dotyczących restytucji odpowiednich funkcji. Bardzo istotne, obok nakreślenia samego planu działań, jest także jego testowanie i szkolenie personelu w kontekście właściwego rozumienia swoich obowiązków. Wśród głównych celów planu powinny znaleźć się m.in.:

zminimalizowanie przerwy w standardowych operacjach instytucji,
minimalizacja strat ekonomicznych,
ustalenie czynności zastępczych w ramach działań operacyjnych,
maksymalnie sprawne przywrócenie operatywności systemu.

Charakterystyka DRP

Plan przywracania sprawności po awarii oparty powinien być na kilku uwzględnionych wcześniej czynnikach i podawać dokładnie wartości przyjętych wskaźników. DRP powinien charakteryzować:

Recovery Point Objective – parametr określający akceptowalny okres czasu występowania awarii, który nie spowoduje nadmiernych strat.
Recovery Time Objective – określający maksymalny czas usunięcia awarii, odzyskania danych i przywrócenia pełnej sprawności systemu.
Network Recovery Objective – czas pomiędzy wystąpieniem zdarzenia, a momentem ustanowienia awaryjnych łączy sieciowych koniecznych do uruchomienia procedur odtwarzanie danych.
Maximum Data Loss – oznacza możliwą maksymalną ilość danych utraconych w wyniku awarii z uwzględnieniem perspektywy ich odzyskania.
Backup window objective - optymalne okno czasowe, w którym najlepiej jest wykonać kopię zapasową danych, aplikacji lub systemu. Jest to wstępnie zdefiniowany i zaplanowany czas, w którym backupowe aplikacje mogą uruchomić proces realizacji kopii zapasowej.

Podstawowe elementy Planu działania po awarii

Każdy plan awaryjnego odzyskiwania systemu po awarii powinien zawierać kilka niezbędnych elementów.

Identyfikacja krytycznych dla działania organizacji procesów oraz czasu, w którym możliwe jest funkcjonowanie z ich wyłączeniem. Niezbędna jest także lista działań wykonywanych w pierwszej kolejności oraz priorytetów podczas prowadzenia odzysku danych.
Ocena krytycznych dla instytucji zasobów (systemów, oprogramowania, pakietów danych) będących podstawą dla efektywnego planu odzysku płynności działania po awarii.
Procedury działania oraz rola pracowników - każdy pracownik powinien zostać przeszkolony i wiedzieć jakie są jego obowiązki w sytuacji kryzysowej oraz postępować zgodnie z przyjętymi procedurami działania (lokalizacja, diagnoza i zgłoszenie) w momencie zaistnienia awarii. Utworzenie specjalnego zespołu pracowników odpowiedzialnych za opracowanie szczegółów, implementację oraz monitorowanie Planu może ułatwić instytucji odpowiednią operacyjność w momencie zaistnienia awarii.
Opracowanie metod i sposobów naprawy uszkodzenia - choć nie można przewidzieć rodzaju zaistniałego uszkodzenia, plan powinien uwzględnić różne scenariusze możliwych awarii wraz z ryzykiem wystąpienia (i metodami prewencji) oraz określać sposoby ich usuwania, a także ustalenie metod odzyskiwania danych, które mogą być stosowane dla danego typu działalności. Zasadne może być wcześniejsze nawiązanie kontaktów z profesjonalnym laboratorium odzyskiwania danych w ramach opracowania szczegółów ewentualnych wzajemnych kontaktów i przyspieszenia koniecznych działań w momencie wystąpienia skomplikowanej awarii.
Harmonogram tworzenia kopii zapasowej - należy określić ranking ważności danych i opracować dla nich odpowiedni harmonogram backupu, a także limity czasu pomiędzy uruchomieniem kolejnych procesów tworzenia kopii zapasowych. Należy pamiętać o zasadach maksymalnie bezpiecznego magazynowania danych - przynajmniej trzy kopie umieszczone na dwóch różnych nośnikach, z których jeden powinien znajdować się poza siedzibą organizacji.
Bardzo istotne jest również określenie sposobu w jaki dane z kopii zapasowych będą przywracane w przypadku zaistnienia awarii i uruchomienia Planu.

W szczególności plan Disaster Recovery powinien omawiać także:

Sposoby ochrony krytycznych dla systemu konfiguracji sprzętowych, hostów czy serwerów.
Szczegóły lokalizacji (w siedzibie firmy/ poza nią) odpowiednich pakietów danych oraz metod i sposobu ich magazynowania. Wirtualizacja i korzystanie z chmury mogą być pomocne w kontekście dostępności danych oraz wzrostu skuteczność działania narzędzi i metod stosowanych podczas odzysku danych.

Niezbędne wydają się także:

Konieczność prowadzenia szczegółowej dokumentacji - każde działanie powinno być opisywane, co - w razie zaistnienia skomplikowanej awarii wymagającej np. interwencji laboratorium data recovery - może skrócić proces odzysku danych i uruchomienia systemu.
Testowanie (częściej niż raz w roku) oraz optymalizację Planu w ramach aktualizacji i podniesienia efektywności strategii odzysku danych w kontekście ewolucji zagrożeń (szacowania potencjalnych możliwości ich wystąpienia) i doskonalenia działań strategicznych w ramach Business Continuity Planning.

Oczywiście rozwiązania awaryjnego odtwarzania systemu po awarii klasyfikowane będą według rosnącej szczegółowości i złożoności zastosowanych rozwiązań oraz malejącego czasu potrzebnego do przywrócenia dostępu do danych albo ich odtworzenia.

Stała optymalizacja DRP

Disaster Recovery Plan jest niezwykle istotnym elementem zachowania ciągłości działalności organizacji. Brak Planu często równoważny jest z chaosem podczas wystąpienia awarii, a w konsekwencji z narażeniem na uszczerbek wizerunku oraz wymierne straty finansowe. Plan odzysku danych po awarii powinien być pod stałą kontrolą i monitoringiem w kontekście optymalizacji w efekcie zmian w otoczeniu. Inwestycje w nowoczesny hardware oraz software są także istotnym elementem polityki “antyawaryjnej”. Szkolenia personelu i kontrola znajomości obowiązujących procedur stanowią trzon właściwie zaprojektowanego Planu - nawet najbardziej precyzyjny dokument jest bezużyteczny w przypadku nieznajomości jego szczegółów i nieumiejętności jego ewentualnego wdrożenia.

Właściwie przygotowany Plan powinien w sposób maksymalnie skuteczny zapewnić odzyskanie utraconych danych i ponowne włączenie organizacji w typowe dla jej rodzaju działalności tryby. Choć jeszcze nie tak dawno realizowany był przez wielkie instytucje posiadające w swych strukturach potężne systemy informatyczne, obecnie coraz częściej tworzony bywa także przez organizacje średnich i mniejszych rozmiarów, świadome istniejących zagrożeń i korzyści wynikających z tego rodzaju rozwiązań.

Pavel Kroupka