Nadpisywanie, czyli jak odzyskać dane po Gutmannie

Wpis ten sprowokowany został istniejącymi rozbieżnymi opiniami na temat możliwości odzysku danych po ich wcześniejszym nadpisaniu. Tytuł tekstu jest trochę przewrotny i od razu na wstępie musimy zaznaczyć: niestety (albo na szczęście dla tych, którzy próbują coś bezpowrotnie usunąć) nadpisanych danych nie da się odzyskać ani po 35. krotnym nadpisaniu wg algorytmu Gutmanna, ani nawet po jednokrotnym nadpisaniu dysku jakimkolwiek ciągiem znaków. Istnieją jednak głosy zupełnie przeciwne. Z czego biorą się te odmienne opinie? Pomijając usprawiedliwienie dla wysokich cen komercyjnych programów do kasowania danych (uzyskanie pewności musi kosztować), trzeba przyznać, że istnieją pewne teoretyczne podstawy dla takich refleksji. Jest to jednak teoria (przynajmniej na razie) i nie są nam znane przypadki takich realizacji w praktyce.

Kilka słów o nadpisywaniu danych. Polega ono na zapisaniu całej przestrzeni dysku nowymi danymi według określonego wzorca. Zabieg taki wykonywany jest jednorazowo lub kilkukrotnie. Parametry te określane są przez zastosowany algorytm nadpisania. Wybór algorytmu w kontekście liczby powtórzeń wydaje się nie mieć znaczenia, gdyż jak wspomniano, już jednokrotne nadpisanie przekreśla w praktyce możliwość odzyskania danych. Niemniej jednak często się zdarza, iż procedury kasowania danych są zdefiniowane przez wewnętrzne przepisy, którymi precyzyjnie określane są możliwe do zastosowania metody. Z tego powodu większość producentów oprogramowania do kasowania danych pozwala na korzystanie z wielu algorytmów, w tym również bardzo czasochłonnych, jak wspomniany algorytm Gutmanna.

Metoda Gutmanna przeprowadza nadpisywanie danych 35. seriami ciągów liczb wg określonego wzorca. Algorytm ten opisuje wzorce dla trzech różnych typów zapisu danych na dysku. Użytkownik znający rodzaj dysku i metodę zapisu może wykorzystać tylko wzorce dedykowane dla danego urządzenia. Algorytm powstał w latach 90. i był projektowany do kasowania danych z dysków wykorzystujących ówczesne metody zapisu jak MFM czy RLL. Współczesne dyski nie wykorzystuję już tych metod dlatego niekiedy algorytm ten uznawany jest za przestarzały, a w najlepszym przypadku niektóre z jego wzorców za bezużyteczne. Wielokrotne nadpisywanie mogło mieć swoje uzasadnienie w czasach tworzenia algorytmu kiedy dyski miały niewielkie pojemności i niską gęstość zapisu, ścieżki zapisu danych były szersze niż głowice a programy kasujące działały tylko w zapisanym obszarze. Obecne systemy zapisu posiadają dużą gęstość, wielkości głowic odpowiadają ścieżkom a programy nadpisują całą powierzchnię dysku. Dlatego już jednokrotne nadpisanie może być skuteczne.

Skąd zatem biorą się wątpliwości co do skuteczności nawet wielokrotnego nadpisania? Podczas nadpisywania danych w zależności od tego jaki stan logiczny ulega nadpisaniu, logicznym wartościom 0 i 1 będą odpowiadać nieco inne wartości analogowe (trochę wyższe lub niższe), które mogą być odczytane poprzez precyzyjny pomiar sygnału analogowego zanim zostanie on zdekodowany. Sygnał ten będzie się zatem nieznacznie różnił od idealnego sygnału cyfrowego. Na podstawie owej różnicy można teoretycznie otrzymać wartość zapisanych poprzednio stanów logicznych. Niektórzy są zdania, iż w teorii nawet kilkukrotne nadpisanie nie wyklucza możliwości odczytu pierwotnego sygnału. Wiąże się to z przenikalnością magnetyczną materiału, która zmienia się wraz z częstotliwością pola magnetycznego. Pole o wyższej częstotliwości nie wnika tak głęboko w warstwę magnetyczną dysku jak pole o niższej częstotliwości. Sygnał zarejestrowany za pomocą pola o niskiej częstotliwości będzie zatem teoretycznie ciągle „obecny” nawet po wielokrotnym nadpisaniu sygnałem wysokiej częstotliwości. Stąd tak istotne jest, zdaniem Gutmanna, zastosowanie odpowiednich wzorców nadpisywania dostosowanych do sposobów kodowania dysku, które powinny być generowane poprzez zmienne, możliwie niskie częstotliwości pola magnetycznego.

Innym argumentem przemawiającym za możliwością odzysku nadpisanych danych jest "nieprecyzyjność" systemu pozycjonowania głowic. Krótko mówiąc, w kolejnych cyklach zapisu dane nie muszą być fizycznie umieszczane w tych samych miejscach co bity starej informacji. Może istnieć pewne fizyczne przesunięcie, które sprawia, że ślady kasowanych danych pozostają widoczne np. na krawędzi ścieżki. Nie wpływa to na jakość odczytu ponieważ ścieżka danych jest dostatecznie szeroka w porównaniu z namagnesowanymi pozostałościami obecnymi na krawędziach – głowica dysku odczytując informacje uśrednia sygnał pomijając ten nieistotny szum. Stosując zaawansowane przyrządy pomiarowe rejestrujące minimalne zmiany w polu magnetycznym (mikroskop sił magnetycznych) można pokusić się o próbę odczytania owych resztek. Zwolennicy tego argumentu twierdzą, iż niemożliwe jest by głowica za każdym razem trafiała w ten sam obszar zapisu wynoszący kilka nanometrów pozostawiając tym samym ślady poprzednich zapisów. Ich odczyt jest tylko kwestią zastosowania odpowiedniego oprzyrządowania pomiarowego. Niestety ewentualne zastosowanie owego oprzyrządowania i cała procedura pociągają za sobą niewyobrażalne koszty. Nie ma także gwarancji, że odzyskane w ten sposób informacje nie będą jedynie nic nieznaczącymi i niepowiązanymi ze sobą pojedynczymi bitami.

Zwolennicy możliwości odczytu nadpisanych danych powołują się także na samego Gutmanna, który wyraził wątpliwość co do możliwości trwałego usunięcia danych nawet przy pomocy wielokrotnego ich nadpisania. Jego wątpliwości wydają się mieć naturę raczej hipotetyczną i odnosić do przyszłości oraz ewentualnych nowych, tanich i pewnych metod odzysku, które może ona przynieść. Wątpliwości owe leżą zatem na gruncie czysto teoretycznym i nie dotyczą praktycznego wdrażania omawianych dywagacji. Konkludując należy także wspomnieć o innych wątpliwościach Gutmanna mających swe praktyczne uzasadnienie. Wątpliwościach odzyskania czegokolwiek z dysku przy obecnie stosowanych gęstościach i różnych egzotycznych technikach zapisu, które wydają się być kluczowe w kwestii ewentualnego odzysku. Przy takich technologiach odzyskiwanie danych po ich nadpisaniu określił jako „nieprawdopodobne”.

Pavel Kroupka

Galeria