Źródła danych Big Data

Tags: ,

W poprzednim poście scharakteryzowałem pobieżnie jak możemy rozumieć Big Data. Dziś przedstawię kompilację w której umieszczam źródła danych Big Data, które za darmo możemy wykorzystywać we własnych algorytmach, metodologiach analizy danych.

Amazon Web Services

AWS ze względu na posiadanie w swoich usługach rozwiązań Big Data udostępnia także w formie darmowej zestawy danych na których można bezpośrednio pracować, dzięki umieszczeniu ich na zasobach S3 oraz a formie publicznych snapshotów EBS. Poniżej zamieszczam listę najbardziej popularnych.

Nazwa Objętość Adres Opis
Google Books Ngrams 2.2TB S3:// Zestaw danych zawierający n-grupy wyrazów na podstawie treści książek
CCAFS Climate Data 6.0TB S3:// Zestaw danych zawierający globalne modele klimatu
Common Crawl Corpus 541TB S3:// Kompilacja danych ze stron internetowych, tekst, metadane
NASA NEX-DCP30 S3:// NASA Earth Exchange – dane klimatyczne
NASA NEX MOD13Q1 S3:// NASA Earth Exchange – dane roślinności
NASA NEX Landsat GLS S3:// NASA Earth Exchange – dane lądowe
Human Microbiome Project 14.0TB S3:// Baza mikrobiologii człowieka zawierająca markery genetyczne bakterii
1000 Genomes Project 200TB S3:// Zestaw genomów na podstawie ponad 2600 osób z 26 różnych populacji
Enron Email Data 210GB EBS snap-d203feb5 Zbiór 1,2mln emaili, 493tyś załączników ze śledztwa rynków energetycznych
Cannabis Sativa Genome 1.0TB EBS snap-f8af5298 Kompletny genom Cannabis Sativa Cultivar “Chemdawg”
ASF Public Mail Archives 200GB EBS snap-17f7f476 Archiwum publicznych maili Apache Software Foundation
Freebase Quad Dump 35GB EBS snap-b2ca9bdc Zrzut danych wszystkich obecnych faktów i twierdzeń w Freebase
Wikipedia Traffic Statistic 150GB EBS snap-f57dec9a Szczegółowe statystiku ruchu na stronie Wikipedia
Million Song Dataset 500GB EBS snap-5178cf30 Kolekcja metadanych dotyczących popularnych utworów muzycznych

Twitter

Ciekawym źródłem są wpisy na popularnym portalu Twitter. Możliwy jest dostęp do wpisów praktycznie w czasie rzeczywistym. Zapewniamy sobie w ten sposób ogromną ilość danych na wszelkie możliwe tematy.
Wielu dostawców Big Data udostępnia swoje gotowe przykłady korzystania z danych Twittera.

Facebook

Kolejnym, o wiele bogatszym źródłem danych jest Facebook, obok danych tekstowych, znajdziemy nam wielkie zasoby multimedialne, powiązania użytkowników, grupy oraz wiele innych które można ze sobą korelować i wydobywać bardzo interesujące informacje. Poniżej kilka przykładów obróbki danych z Facebook:

Kolekcje – inne źródła danych Big Data

Poniżej zamieszcam listę gotowych kolekcji które możesz wykorzystać w poszukiwaniu danych na których planujesz oprzeć swoje Big Data

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *