Czym jest Big Data?

Tags:

Z pewnością kiedyś zastanawiałeś się czym jest Big Data.
Usłyszałem kiedyś że Big Data zaczyna się, gdy kończą nam się wolne komórki do przetwarzania danych w arkuszu Excel’a.
Na początku wydawało mi się to rozsądne, jednak wraz z pogłębianiem tematu zmieniłem zdanie.

Big Data rozpoczyna się gdy pracujemy nad zbiorem danych który zmienia się dynamicznie, trudno jest określić ich docelowy wolumen oraz strukturę przez co nie jest możliwe przetwarzanie ich przy pomocy tradycyjnych narzędzi.

Spróbujmy zatem przeprowadzić analizę, w której zbadamy zdolność naszej organizacji do korzystania z dobrodziejstw Big Data.

Miara 4V

Forrester charakteryzuje Big Data przy pomocy 4 parametrów nazywanych 4V:

  • Volume – objętość danych (często liczona w gigabajtach/terabajtach/petabajtach). Ilość składowanych przez nas danych wciąż rośnie. Rosną także pojemności nośników do ich składowania, co skutkuje wydłużaniem się ich cyklu życia. Dla przykładu niektóre eksperymenty naukowe produkują wiele GB danych na sekundę.
  • Variety – różnorodność danych (niezależne źródła, brak bezpośrednich relacji, niespójna struktura). Wyobraźmy sobie media społecznościowe Twitter, Google+, Facebook. Codziennie generowane są setki tysięcy a nawet milionów wpisów na wszystkie możliwe tematy. W tym gąszczu danych możliwe jest odnalezienie relacji, wyodrębnienie zagadnień i powiązanych z nimi osób zainteresowanych. Analizując wpisy można dowiedzieć się o osobach praktycznie wszystkiego. Można to wykorzystać na bardzo wiele sposobów.
  • Velocity – szybkość zmian danych, wymaganie szybkiej analizy w czasie zbliżonym do rzeczywistego. Śledząc transakcje na platformach wymiany walut, algorytmy mają około 100 mikrosekund na przeanalizowanie zleceń w ilościach kilku tysięcy na sekundę by móc podjąć decyzje. Ilość gromadzonych danych GPS jest coraz większa przez zwiększającą się liczbę urządzeń mobilnych, choć w większości wypadków najistotniejsze są dane najnowsze, przez co przetwarzanie musi się odbywać praktycznie w czasie rzeczywistym.
  • Value – wartość danych, istotność, możliwy wpływ na decyzje. Czy dla sprzedawcy reklamy w Internecie istotne jest który użytkownik odwiedza strony o danej tematyce? Oczywiście, dzięki temu może dopasować reklamy. Czy dla ubezpieczyciela istotne będą informacje o częstym spożywaniu alkoholu i prowadzeniu pojazdów pod jego wpływem, którymi chwali się użytkownik na Facebook’u? Oczywiście. Prawdopodobnie odpowiednio dostosuje wartość składki. Szacuje się że na podstawie mediów społecznościowych można wyodrębnić około 10 tysięcy metryk charakteryzujących każdą osobę i jej cechy.

Wszystko to wygląda dobrze, do momentu gdy zauważymy że parametry te nie są w żaden sposób ograniczone. Czy wolumen na poziomie wielu Exabajtów, przetwarzanie jednocześnie zdjęć, filmów, dźwięku, komentarzy do artykułów może definiować Big Data? Z pewnością tak.

Czy jednak znając wartości powyższych parametrów możemy wszystkie rodzaje danych między sobą porównać? Niestety nie do końca. Dzieje się tak głównie dlatego, że powyższe miary są względne. Dla jednego przedsiębiorstwa dane o pewnych parametrach mogą mieć ogromny wpływ na strategię, podejmowane decyzje, plany marketingowe. Dla innego, są w mniejszym lub większym stopniu bezużyteczne.

Miara SPA

Aby móc lepiej porównywać i oceniać różne typy Big Data, należało by wprowadzić dodatkową klasyfikację. Forrester proponuje zdefiniowanie 3 parametrów tzw. SPA:

  • Store – zdolność pozyskiwania i składowania danych (czy zdążysz je zgromadzić i zapisać?BigData_SPA
  • Process – zdolność przetwarzania danych, ich wzbogacanie, wyłuskiwanie istotnych zależności
  • Access – zdolność przeszukiwania wyników przetwarzania, wizualizacja danych

Spróbujmy zbudować przykładową skalę zdolności naszego biznesu do zajmowania się wybranym typem Big Data:

5Doskonale sobie radzimy lub brak takiej potrzeby
4Dość dobrze sobie radzimy
3Akceptowalnie, sporo można by poprawić
2Słabo, rzadko ma to negatywny wpływ na biznes
1Źle, często negatywny wpływ na biznes
0Potrzebujemy sobie z tym poradzić, ale nie potrafimy

Porównanie

Łącząc w macierz miary 4V oraz SPA możemy spróbować wnioskować na ile nasze przedsiębiorstwo gotowe jest wykorzystywać zasoby Big Data różnego rodzaju.

StoreProcessAccessPunkty
Volume55515
Velocity55515
Variety55515
Suma Big Data45

Interpretację wyników najlepiej przygotować samemu, jednak poniżej proponuję krótką charakterystykę, dzięki której będziesz posiadać punkt odniesienia do dalszych rozważań.

WynikOcenaOpis
0-15SłabaTwoja organizacja nie jest sobie w stanie poradzić z wymaganiami jakie stawia Big Data, zagraża to biznesowi i może uniemożliwiać prowadzenie istotnych analiz
16-30ŚredniaPrawdopodobnie poradziliście sobie z jakimś aspektem Big Data, np. wolumenem danych, ale zupełnie ignorujecie pozostałe mierniki, zatem wyniki mogą nie być satysfakcjonujące
30-40KorzystnaPozytywny wpływ na biznes dzięki wykorzystaniu Big Data, niweluje trud i problemy z jakimi ich się spotykacie aby te dane pozyskać
30-40IdealnaBiznes kwitnie, świetnie radzicie sobie z napływającymi danymi które potraficie doskonale wykorzystać.Nie jest to jednak nigdy moment aby poprzestać w doskonaleniu swojego środowiska i algorytmów

Im więcej mierników wykorzystasz oraz lepiej przygotujesz skalę wartości swojego biznesu, tym łatwiej będziesz mógł zadecydować czy informacje jakie pozyskacie dzięki Big Data będą mieć realny wpływ na zyski organizacji.

Czym jest Big Data?

W kolejnych postach przedstawię narzędzia jakie możemy wykorzystać do pracy z Big Data. Przygotuję także listę przykładowych, darmowych źródeł danych, na których można rozpocząć przygodę z analizą i wydobywaniem informacji. Pojawią się także elementy techniczne czyli jak przygotować sobie środowisko, aplikacje, jak komunikować się z mediami społecznościowymi i wykorzystać do tego wszystkiego zasoby w Chmurze

Poprzez korzystanie ze strony flexray.pl wyrażają Państwo zgodę na używanie cookies, a także akceptują Politykę dotyczącą tych plików. Nie, chcę się dowiedzieć więcej

Aby zapewnić Tobie najwyższy poziom realizacji usługi, opcje ciasteczek na tej stronie są ustawione na "zezwalaj na pliki cookies". Kontynuując przeglądanie strony bez zmiany ustawień lub klikając przycisk "Akceptuję" zgadzasz się na ich wykorzystanie.

Zamknij