W poprzednim poście scharakteryzowałem pobieżnie jak możemy rozumieć Big Data. Dziś przedstawię kompilację w której umieszczam źródła danych Big Data, które za darmo możemy wykorzystywać we własnych algorytmach, metodologiach analizy danych.
Amazon Web Services
AWS ze względu na posiadanie w swoich usługach rozwiązań Big Data udostępnia także w formie darmowej zestawy danych na których można bezpośrednio pracować, dzięki umieszczeniu ich na zasobach S3 oraz a formie publicznych snapshotów EBS. Poniżej zamieszczam listę najbardziej popularnych.
Nazwa | Objętość | Adres | Opis |
---|---|---|---|
Google Books Ngrams | 2.2TB | S3:// | Zestaw danych zawierający n-grupy wyrazów na podstawie treści książek |
CCAFS Climate Data | 6.0TB | S3:// | Zestaw danych zawierający globalne modele klimatu |
Common Crawl Corpus | 541TB | S3:// | Kompilacja danych ze stron internetowych, tekst, metadane |
NASA NEX-DCP30 | S3:// | NASA Earth Exchange – dane klimatyczne | |
NASA NEX MOD13Q1 | S3:// | NASA Earth Exchange – dane roślinności | |
NASA NEX Landsat GLS | S3:// | NASA Earth Exchange – dane lądowe | |
Human Microbiome Project | 14.0TB | S3:// | Baza mikrobiologii człowieka zawierająca markery genetyczne bakterii |
1000 Genomes Project | 200TB | S3:// | Zestaw genomów na podstawie ponad 2600 osób z 26 różnych populacji |
Enron Email Data | 210GB | EBS snap-d203feb5 | Zbiór 1,2mln emaili, 493tyś załączników ze śledztwa rynków energetycznych |
Cannabis Sativa Genome | 1.0TB | EBS snap-f8af5298 | Kompletny genom Cannabis Sativa Cultivar “Chemdawg” |
ASF Public Mail Archives | 200GB | EBS snap-17f7f476 | Archiwum publicznych maili Apache Software Foundation |
Freebase Quad Dump | 35GB | EBS snap-b2ca9bdc | Zrzut danych wszystkich obecnych faktów i twierdzeń w Freebase |
Wikipedia Traffic Statistic | 150GB | EBS snap-f57dec9a | Szczegółowe statystiku ruchu na stronie Wikipedia |
Million Song Dataset | 500GB | EBS snap-5178cf30 | Kolekcja metadanych dotyczących popularnych utworów muzycznych |
Ciekawym źródłem są wpisy na popularnym portalu Twitter. Możliwy jest dostęp do wpisów praktycznie w czasie rzeczywistym. Zapewniamy sobie w ten sposób ogromną ilość danych na wszelkie możliwe tematy.
Wielu dostawców Big Data udostępnia swoje gotowe przykłady korzystania z danych Twittera.
- Twitter Streaming Data – dokument Twittera o dostępie do danych, przykłady kodu źródłowego
- Twitter Data with Hadoop – How-to od Cloudera o przetwarzaniu danych z Twittera na Apache Hadoop
- Twitter Sentiment Analysis – Analiza nastrojów na AWS
- Refine and Visualise Twitter Data – Wizualizacja danych nastrojów na podstawie Twittera
- Twitter in HDInsight – Przykład Microsoft Azure na przetwarzanie wpisów Twittera
Kolejnym, o wiele bogatszym źródłem danych jest Facebook, obok danych tekstowych, znajdziemy nam wielkie zasoby multimedialne, powiązania użytkowników, grupy oraz wiele innych które można ze sobą korelować i wydobywać bardzo interesujące informacje. Poniżej kilka przykładów obróbki danych z Facebook:
- Facebook Petabyte Data Warehouse – Artykuł o tym jak Facebook radzi sobie z tak wielką ilością danych.
- Sociograph Facebook 100 – Dane offline zawierające wszystkie znajomości na Facebook na 100 uniwersytetach w USA
- Sampling Online Social Networks – Doskonały artykuł o tym jak pobierać i przetwarzać dane z portali społecznościowych
Kolekcje – inne źródła danych Big Data
Poniżej zamieszcam listę gotowych kolekcji które możesz wykorzystać w poszukiwaniu danych na których planujesz oprzeć swoje Big Data
- Stanford Large Network Dataset Collection – ogromna kolekcja różnego typu danych
- Datasets for Data Mining and Data Science – Kolejny duży zbiór odnośników do gotowych zbiorów danych
- CRAWDAD – Zbiór danych gromadzonych z sieci bezpczewodowych w różnych krajach
- Machine Learning Repository – Zbiór danych wykorzystywanych w algorytmach uczących się
- Austin/Texas Data – Przeróżne dane dotyczące Austin/Texas. Np. mapa posiadaczy niebezpiecznych psów
- Chicago Data Portal – Bardzo ciekawe dane dotyczące Chicago. Np. katalog przestępstw od roku 2001.
- Data Gov UK – Ogromne zestawy danych, duża część dostępna w czasie rzeczywistym na temat UK.