Źródła danych Big Data

Tags: ,

W poprzednim poście scharakteryzowałem pobieżnie jak możemy rozumieć Big Data. Dziś przedstawię kompilację w której umieszczam źródła danych Big Data, które za darmo możemy wykorzystywać we własnych algorytmach, metodologiach analizy danych.

Amazon Web Services

AWS ze względu na posiadanie w swoich usługach rozwiązań Big Data udostępnia także w formie darmowej zestawy danych na których można bezpośrednio pracować, dzięki umieszczeniu ich na zasobach S3 oraz a formie publicznych snapshotów EBS. Poniżej zamieszczam listę najbardziej popularnych.

NazwaObjętośćAdresOpis
Google Books Ngrams2.2TBS3://Zestaw danych zawierający n-grupy wyrazów na podstawie treści książek
CCAFS Climate Data6.0TBS3://Zestaw danych zawierający globalne modele klimatu
Common Crawl Corpus541TBS3://Kompilacja danych ze stron internetowych, tekst, metadane
NASA NEX-DCP30S3://NASA Earth Exchange – dane klimatyczne
NASA NEX MOD13Q1S3://NASA Earth Exchange – dane roślinności
NASA NEX Landsat GLSS3://NASA Earth Exchange – dane lądowe
Human Microbiome Project14.0TBS3://Baza mikrobiologii człowieka zawierająca markery genetyczne bakterii
1000 Genomes Project200TBS3://Zestaw genomów na podstawie ponad 2600 osób z 26 różnych populacji
Enron Email Data210GBEBS snap-d203feb5Zbiór 1,2mln emaili, 493tyś załączników ze śledztwa rynków energetycznych
Cannabis Sativa Genome1.0TBEBS snap-f8af5298Kompletny genom Cannabis Sativa Cultivar “Chemdawg”
ASF Public Mail Archives200GBEBS snap-17f7f476Archiwum publicznych maili Apache Software Foundation
Freebase Quad Dump35GBEBS snap-b2ca9bdcZrzut danych wszystkich obecnych faktów i twierdzeń w Freebase
Wikipedia Traffic Statistic150GBEBS snap-f57dec9aSzczegółowe statystiku ruchu na stronie Wikipedia
Million Song Dataset500GBEBS snap-5178cf30Kolekcja metadanych dotyczących popularnych utworów muzycznych

Twitter

Ciekawym źródłem są wpisy na popularnym portalu Twitter. Możliwy jest dostęp do wpisów praktycznie w czasie rzeczywistym. Zapewniamy sobie w ten sposób ogromną ilość danych na wszelkie możliwe tematy.
Wielu dostawców Big Data udostępnia swoje gotowe przykłady korzystania z danych Twittera.

Facebook

Kolejnym, o wiele bogatszym źródłem danych jest Facebook, obok danych tekstowych, znajdziemy nam wielkie zasoby multimedialne, powiązania użytkowników, grupy oraz wiele innych które można ze sobą korelować i wydobywać bardzo interesujące informacje. Poniżej kilka przykładów obróbki danych z Facebook:

Kolekcje – inne źródła danych Big Data

Poniżej zamieszcam listę gotowych kolekcji które możesz wykorzystać w poszukiwaniu danych na których planujesz oprzeć swoje Big Data

Poprzez korzystanie ze strony flexray.pl wyrażają Państwo zgodę na używanie cookies, a także akceptują Politykę dotyczącą tych plików. Nie, chcę się dowiedzieć więcej

Aby zapewnić Tobie najwyższy poziom realizacji usługi, opcje ciasteczek na tej stronie są ustawione na "zezwalaj na pliki cookies". Kontynuując przeglądanie strony bez zmiany ustawień lub klikając przycisk "Akceptuję" zgadzasz się na ich wykorzystanie.

Zamknij