Źródła danych Big Data

Tags: ,

W poprzednim poście scharakteryzowałem pobieżnie jak możemy rozumieć Big Data. Dziś przedstawię kompilację w której umieszczam źródła danych Big Data, które za darmo możemy wykorzystywać we własnych algorytmach, metodologiach analizy danych.

Amazon Web Services

AWS ze względu na posiadanie w swoich usługach rozwiązań Big Data udostępnia także w formie darmowej zestawy danych na których można bezpośrednio pracować, dzięki umieszczeniu ich na zasobach S3 oraz a formie publicznych snapshotów EBS. Poniżej zamieszczam listę najbardziej popularnych.

Nazwa Objętość Adres Opis
Google Books Ngrams 2.2TB S3:// Zestaw danych zawierający n-grupy wyrazów na podstawie treści książek
CCAFS Climate Data 6.0TB S3:// Zestaw danych zawierający globalne modele klimatu
Common Crawl Corpus 541TB S3:// Kompilacja danych ze stron internetowych, tekst, metadane
NASA NEX-DCP30 S3:// NASA Earth Exchange – dane klimatyczne
NASA NEX MOD13Q1 S3:// NASA Earth Exchange – dane roślinności
NASA NEX Landsat GLS S3:// NASA Earth Exchange – dane lądowe
Human Microbiome Project 14.0TB S3:// Baza mikrobiologii człowieka zawierająca markery genetyczne bakterii
1000 Genomes Project 200TB S3:// Zestaw genomów na podstawie ponad 2600 osób z 26 różnych populacji
Enron Email Data 210GB EBS snap-d203feb5 Zbiór 1,2mln emaili, 493tyś załączników ze śledztwa rynków energetycznych
Cannabis Sativa Genome 1.0TB EBS snap-f8af5298 Kompletny genom Cannabis Sativa Cultivar “Chemdawg”
ASF Public Mail Archives 200GB EBS snap-17f7f476 Archiwum publicznych maili Apache Software Foundation
Freebase Quad Dump 35GB EBS snap-b2ca9bdc Zrzut danych wszystkich obecnych faktów i twierdzeń w Freebase
Wikipedia Traffic Statistic 150GB EBS snap-f57dec9a Szczegółowe statystiku ruchu na stronie Wikipedia
Million Song Dataset 500GB EBS snap-5178cf30 Kolekcja metadanych dotyczących popularnych utworów muzycznych

Twitter

Ciekawym źródłem są wpisy na popularnym portalu Twitter. Możliwy jest dostęp do wpisów praktycznie w czasie rzeczywistym. Zapewniamy sobie w ten sposób ogromną ilość danych na wszelkie możliwe tematy.
Wielu dostawców Big Data udostępnia swoje gotowe przykłady korzystania z danych Twittera.

Facebook

Kolejnym, o wiele bogatszym źródłem danych jest Facebook, obok danych tekstowych, znajdziemy nam wielkie zasoby multimedialne, powiązania użytkowników, grupy oraz wiele innych które można ze sobą korelować i wydobywać bardzo interesujące informacje. Poniżej kilka przykładów obróbki danych z Facebook:

Kolekcje – inne źródła danych Big Data

Poniżej zamieszcam listę gotowych kolekcji które możesz wykorzystać w poszukiwaniu danych na których planujesz oprzeć swoje Big Data

Poprzez korzystanie ze strony flexray.pl wyrażają Państwo zgodę na używanie cookies, a także akceptują Politykę dotyczącą tych plików. Nie, chcę się dowiedzieć więcej

Aby zapewnić Tobie najwyższy poziom realizacji usługi, opcje ciasteczek na tej stronie są ustawione na "zezwalaj na pliki cookies". Kontynuując przeglądanie strony bez zmiany ustawień lub klikając przycisk "Akceptuję" zgadzasz się na ich wykorzystanie.

Zamknij