Z pewnością kiedyś zastanawiałeś się czym jest Big Data.
Usłyszałem kiedyś że Big Data zaczyna się, gdy kończą nam się wolne komórki do przetwarzania danych w arkuszu Excel’a.
Na początku wydawało mi się to rozsądne, jednak wraz z pogłębianiem tematu zmieniłem zdanie.
Big Data rozpoczyna się gdy pracujemy nad zbiorem danych który zmienia się dynamicznie, trudno jest określić ich docelowy wolumen oraz strukturę przez co nie jest możliwe przetwarzanie ich przy pomocy tradycyjnych narzędzi.
Spróbujmy zatem przeprowadzić analizę, w której zbadamy zdolność naszej organizacji do korzystania z dobrodziejstw Big Data.
Miara 4V
Forrester charakteryzuje Big Data przy pomocy 4 parametrów nazywanych 4V:
- Volume – objętość danych (często liczona w gigabajtach/terabajtach/petabajtach). Ilość składowanych przez nas danych wciąż rośnie. Rosną także pojemności nośników do ich składowania, co skutkuje wydłużaniem się ich cyklu życia. Dla przykładu niektóre eksperymenty naukowe produkują wiele GB danych na sekundę.
- Variety – różnorodność danych (niezależne źródła, brak bezpośrednich relacji, niespójna struktura). Wyobraźmy sobie media społecznościowe Twitter, Google+, Facebook. Codziennie generowane są setki tysięcy a nawet milionów wpisów na wszystkie możliwe tematy. W tym gąszczu danych możliwe jest odnalezienie relacji, wyodrębnienie zagadnień i powiązanych z nimi osób zainteresowanych. Analizując wpisy można dowiedzieć się o osobach praktycznie wszystkiego. Można to wykorzystać na bardzo wiele sposobów.
- Velocity – szybkość zmian danych, wymaganie szybkiej analizy w czasie zbliżonym do rzeczywistego. Śledząc transakcje na platformach wymiany walut, algorytmy mają około 100 mikrosekund na przeanalizowanie zleceń w ilościach kilku tysięcy na sekundę by móc podjąć decyzje. Ilość gromadzonych danych GPS jest coraz większa przez zwiększającą się liczbę urządzeń mobilnych, choć w większości wypadków najistotniejsze są dane najnowsze, przez co przetwarzanie musi się odbywać praktycznie w czasie rzeczywistym.
- Value – wartość danych, istotność, możliwy wpływ na decyzje. Czy dla sprzedawcy reklamy w Internecie istotne jest który użytkownik odwiedza strony o danej tematyce? Oczywiście, dzięki temu może dopasować reklamy. Czy dla ubezpieczyciela istotne będą informacje o częstym spożywaniu alkoholu i prowadzeniu pojazdów pod jego wpływem, którymi chwali się użytkownik na Facebook’u? Oczywiście. Prawdopodobnie odpowiednio dostosuje wartość składki. Szacuje się że na podstawie mediów społecznościowych można wyodrębnić około 10 tysięcy metryk charakteryzujących każdą osobę i jej cechy.
Wszystko to wygląda dobrze, do momentu gdy zauważymy że parametry te nie są w żaden sposób ograniczone. Czy wolumen na poziomie wielu Exabajtów, przetwarzanie jednocześnie zdjęć, filmów, dźwięku, komentarzy do artykułów może definiować Big Data? Z pewnością tak.
Czy jednak znając wartości powyższych parametrów możemy wszystkie rodzaje danych między sobą porównać? Niestety nie do końca. Dzieje się tak głównie dlatego, że powyższe miary są względne. Dla jednego przedsiębiorstwa dane o pewnych parametrach mogą mieć ogromny wpływ na strategię, podejmowane decyzje, plany marketingowe. Dla innego, są w mniejszym lub większym stopniu bezużyteczne.
Miara SPA
Aby móc lepiej porównywać i oceniać różne typy Big Data, należało by wprowadzić dodatkową klasyfikację. Forrester proponuje zdefiniowanie 3 parametrów tzw. SPA:
- Store – zdolność pozyskiwania i składowania danych (czy zdążysz je zgromadzić i zapisać?
- Process – zdolność przetwarzania danych, ich wzbogacanie, wyłuskiwanie istotnych zależności
- Access – zdolność przeszukiwania wyników przetwarzania, wizualizacja danych
Spróbujmy zbudować przykładową skalę zdolności naszego biznesu do zajmowania się wybranym typem Big Data:
5 | Doskonale sobie radzimy lub brak takiej potrzeby |
4 | Dość dobrze sobie radzimy |
3 | Akceptowalnie, sporo można by poprawić |
2 | Słabo, rzadko ma to negatywny wpływ na biznes |
1 | Źle, często negatywny wpływ na biznes |
0 | Potrzebujemy sobie z tym poradzić, ale nie potrafimy |
Porównanie
Łącząc w macierz miary 4V oraz SPA możemy spróbować wnioskować na ile nasze przedsiębiorstwo gotowe jest wykorzystywać zasoby Big Data różnego rodzaju.
Store | Process | Access | Punkty | |
---|---|---|---|---|
Volume | 5 | 5 | 5 | 15 |
Velocity | 5 | 5 | 5 | 15 |
Variety | 5 | 5 | 5 | 15 |
Suma Big Data | 45 |
Interpretację wyników najlepiej przygotować samemu, jednak poniżej proponuję krótką charakterystykę, dzięki której będziesz posiadać punkt odniesienia do dalszych rozważań.
Wynik | Ocena | Opis |
---|---|---|
0-15 | Słaba | Twoja organizacja nie jest sobie w stanie poradzić z wymaganiami jakie stawia Big Data, zagraża to biznesowi i może uniemożliwiać prowadzenie istotnych analiz |
16-30 | Średnia | Prawdopodobnie poradziliście sobie z jakimś aspektem Big Data, np. wolumenem danych, ale zupełnie ignorujecie pozostałe mierniki, zatem wyniki mogą nie być satysfakcjonujące |
30-40 | Korzystna | Pozytywny wpływ na biznes dzięki wykorzystaniu Big Data, niweluje trud i problemy z jakimi ich się spotykacie aby te dane pozyskać |
30-40 | Idealna | Biznes kwitnie, świetnie radzicie sobie z napływającymi danymi które potraficie doskonale wykorzystać.Nie jest to jednak nigdy moment aby poprzestać w doskonaleniu swojego środowiska i algorytmów |
Im więcej mierników wykorzystasz oraz lepiej przygotujesz skalę wartości swojego biznesu, tym łatwiej będziesz mógł zadecydować czy informacje jakie pozyskacie dzięki Big Data będą mieć realny wpływ na zyski organizacji.
Czym jest Big Data?
W kolejnych postach przedstawię narzędzia jakie możemy wykorzystać do pracy z Big Data. Przygotuję także listę przykładowych, darmowych źródeł danych, na których można rozpocząć przygodę z analizą i wydobywaniem informacji. Pojawią się także elementy techniczne czyli jak przygotować sobie środowisko, aplikacje, jak komunikować się z mediami społecznościowymi i wykorzystać do tego wszystkiego zasoby w Chmurze