Przejdź do treści
Wczytuję...

Big Data - wyzwania technologiczne i analityczne

Kilka podstawowych kwestii związanych z Big Data już omówiliśmy. Pora na przedstawienie technologicznych wyzwań jakie pojawiają się w kontekście coraz bardziej wartkiego strumienia napływających informacji.

Obecny napływ informacji liczony jest na poziomie trylionów bajtów dziennie. Olbrzymia ilość generowanych plików danych stała się zjawiskiem globalnym i powszechnym, dotyczącym wszystkich podmiotów, w każdej dziedzinie życia. Konwencjonalne metody zarządzania informacją już dawno stały się nieadekwatne, Big Data stało się wyzwaniem zdigitalizowanej współczesności.

Termin “Big Data” jest trudny do scharakteryzowania, najogólniej rzecz ujmując dotyczy kwestii gromadzenia i zarządzania dużymi pod względem objętości i skomplikowanymi pod względem złożoności zasobami informacji. Źródła pochodzenia danych są tutaj wielorakie - bazy danych, dokumenty, maile, wpisy z blogów, mediów społecznościowych, informacje płynące z różnego rodzaju sensorów rejestrujących (internet rzeczy), urządzeń lokalizacyjnych (GPS) itp. Dane mają przy tym różnoraką strukturę; określoną, jak i nieokreśloną, co znacznie utrudnia ich analizę oraz przetwarzanie. Między innymi owa złożoność jest wyzwaniem dla analityków i architektów trudniących się projektowaniem adekwatnych do potrzeb systemów informatycznych. Ale nie tylko ona. Wyzwaniem w kontekście Big Data jest już sama ilość generowanych danych, ich różnorodność oraz liczba źródeł informacji. Najogólniej problemy przed którymi stajemy w kontekście ogromnej liczby informacji podzielić można na wyzwania technologiczne oraz te, które są związane bezpośrednio z danymi.

Wyzwania technologiczne

Wyzwania technologiczne związane są z projektowaniem adekwatnej do potrzeb architektury systemu. Architektura rozumiana jest tutaj holistycznie, jako całościowy proces skorelowany ze źródłami danych, przesyłem, gromadzeniem, przetwarzaniem, modelowaniem, wnioskowaniem i udostępnianiem informacji.

Big Data to informacje płynące z wielu różnych źródeł. Istotna jest więc kwestia odpowiedniej identyfikacji źródeł, określenia stopnia ich istotności dla danych celów, czy problemów automatycznej weryfikacji. Kłopotliwe są tu kwestie odpowiedniej filtracji i segregacji napływającego strumienia informacji. Odrzucenie danych nieistotnych stanowi ważną kwestię w kontekście ograniczania kosztów procesu ich przetwarzania. Odpowiednia automatyczna generacja metadanych (informacji opisujących dane, o których szerzej piszemy tutaj) także stanowi problematykę wymagającą zastosowania przemyślanego podejścia.

Problematyczna jest także różnorodność źródeł informacji. Dane z nich napływające nie są jednolite pod kątem posiadanych formatów. Wyzwaniem jest w tym przypadku projektowanie systemów integrujących różne rodzaje danych, systemów charakteryzujących się możliwościami korelacji różnych rodzajów danych, znajdowania zależności i porządkowania pod kątem powiązań między nimi.

Przetwarzanie informacji w czasie rzeczywistym stało się koniecznością (rosnące wymagania chociażby systemów transakcyjnych). Nie do przyjęcia jest wydłużony czas oczekiwania na wyniki analizy, czy ich prezentacja w tradycyjnych formach np. w postaci wykresów czy tabel. Ogromny wolumen płynących zewsząd danych stanowi więc i w tych kwestiach wyzwanie któremu podołać muszą projektanci systemów - możliwości starszych typów baz danych wyczerpały się.

Ciągły strumień danych stwarza konieczność przetworzenia wciąż przybywających informacji oraz aktualizacji zgromadzonych zasobów, przy czym nie tylko wolumen jest tutaj istotny, prędkość przepływu także ma niebagatelne znaczenie. Szybkość stanowi ogromne wyzwanie dla struktur administrujących, zwłaszcza dla systemów przechowywania i obsługi zapytań. Odpowiednia wydajność jest w obu przypadkach niezwykle istotna.

Niebagatelne znaczenie ma też odpowiednia infrastruktura. Przetwarzanie dużych wolumenów danych na ogół związane jest z odpowiednimi inwestycjami - zakup sprzętu, np. serwerów, pamięci, czy oprogramowania. Szczególnie istotne jest inwestowanie w narzędzia służące bardziej efektywnemu zarządzaniu i wzrostowi wydajności działań.

Wyzwania skorelowane bezpośrednio z danymi

Jak już zostało wspomniane, niezwykle istotna jest odpowiednia filtracja napływających informacji. Nie wszystkie bowiem dane są równoważne jakościowo. Wiele z nich nie jest przydatna z punktu widzenia danego użytkownika. Niektóre z nich mogą zawierać błędy lub być kompletnie nieprawdziwe (wpisy na portalach społecznościowych). Wyzwanie stanowi tutaj opracowanie odpowiednich systemów weryfikujących i dokonujących selekcji. W oparciu o błędne informacje mogą być podejmowane poważne decyzje biznesowe, których wyniki generować będą straty finansowe.

Wśród trudności, z którymi muszą mierzyć się analitycy jest kwestia wymiarowości danych i stosowanie właściwych metod jej redukcji, co ma znaczenie w kontekście obróbki i odpowiedniej prezentacji informacji. Ze względu na ogromną wielowymiarowość rekordów, ich występowanie w formie dużych zbiorów, wizualizacja danych często staje się po prostu niemożliwa albo przestaje być czytelna. Szybkość realizacji odpowiedniej prezentacji danych jest oczywiście ograniczana także przez operujące nimi systemy cyfrowe. Ograniczenie wymiarowości danych przez zastosowanie odpowiednich algorytmów oraz zarządzania nimi i skalowalności staje się zatem palącym wyzwaniem w kontekście ich właściwej prezentacji (wizualizacji). Problematyczne stają się także kwestie związane z konkretnymi metodami wizualizacji i przestrzenią ich możliwego i najbardziej odpowiedniego wykorzystania.

Wyzwaniem staje się także odpowiednie odczytanie otrzymanych wyników w kontekście celów wyznaczonych przez odbiorcę informacji. Ustalenie celów prowadzonych analiz jest oczywiście priorytetowe. Dopiero w tym kontekście można przystąpić do wyznaczenia zakresu potrzebnych danych oraz źródeł ich pozyskiwania. Określenie rodzaju gromadzonych dane jest tutaj kluczowe w kontekście przyjętych celów biznesowych. Świadomość celów, ich jasne sprecyzowanie, jest zatem priorytetowe. Właściwe wnioski płynące z analiz otrzymywanych informacji otrzymane być mogą jedynie w oparciu o właściwe narzędzia analityczne oraz umiejętności i kompetencje osób z nich korzystających. Czynnik ludzki ma tu bardzo duże znaczenie, bowiem odpowiednia interpretacja otrzymanych wyników wymaga właściwej kadry o najwyższych zdolnościach analitycznych. Zatrudnienie właściwego specjalisty bywa jednak niezwykle trudne, warto zatem rozważyć wdrożenie odpowiednich systemów kształcenia i szkolenie własnych pracowników o pożądanym profilu analitycznym.

Niezwykle istotne jest także łączenie działań na polach technologicznych, biznesowych i produktowych. Praktyka wykazuje, iż współpraca różnie zorientowanych zespołów przynosi wymierne korzyści. Dzielenie się informacjami, komunikowanie intencji i zamierzeń to także dobra strategia, która znajduje odzwierciedlenie w otrzymywanych wynikach.

Obecnie nie ma już wątpliwości, że analizy związana z Big Data umożliwiają podmiotom biznesowym wstąpienie na nowy poziom rozwoju. Strategie budowane w oparciu o tego typu analizy mogą przekładać się na znaczną przewagę konkurencyjną. Zmierzenie się z wyzwaniami jakie przed nimi stawiają duże zbiory danych staje się zatem powoli koniecznością.

Leave a Comment

Bezpłatny i niezobowiązujący odbiór i odwiezienie sprzętu do klienta

W związku zaistniałą sytuacją oferujemy bezpłatny transport sprzętu do naszego laboratorium i z naszego laboratorium na terenie Warszawy oraz całej Polski, jak również bezpłatną diagnozę. Cała operacja nie zobowiązuje do zlecenia nam odpłatnej usługi. Sprzęt odwożony do klientów dezynfekowany jest przy pomocy specjalnych preparatów. Zapraszamy do kontaktu telefonicznego w celu ustalenia szczegółów. Na terenie Warszawy transport odbywa się przy pomocy naszych kierowców. Na terenie Polski - posiłkujemy się usługami niezawodnej firmy UPS. Skontaktuj się z nami aby ustalić szczegóły działania.