{"id":64,"date":"2014-12-26T22:05:18","date_gmt":"2014-12-26T20:05:18","guid":{"rendered":"http:\/\/flexray.pl\/?p=64"},"modified":"2015-09-30T11:10:28","modified_gmt":"2015-09-30T09:10:28","slug":"zrodla-danych-big-data","status":"publish","type":"post","link":"http:\/\/flexray.pl\/zrodla-danych-big-data\/","title":{"rendered":"\u0179r\u00f3d\u0142a danych Big Data"},"content":{"rendered":"

W poprzednim po\u015bcie scharakteryzowa\u0142em pobie\u017cnie jak mo\u017cemy rozumie\u0107 Big Data. Dzi\u015b przedstawi\u0119 kompilacj\u0119 w kt\u00f3rej umieszczam \u017ar\u00f3d\u0142a danych Big Data, kt\u00f3re za darmo mo\u017cemy wykorzystywa\u0107\u00a0we w\u0142asnych algorytmach, metodologiach analizy danych.<\/p>\n

Amazon Web Services<\/h3>\n

AWS<\/strong> ze wzgl\u0119du na posiadanie w swoich us\u0142ugach rozwi\u0105za\u0144 Big Data<\/strong> udost\u0119pnia tak\u017ce w formie darmowej zestawy danych na kt\u00f3rych mo\u017cna bezpo\u015brednio pracowa\u0107, dzi\u0119ki umieszczeniu ich na zasobach S3<\/strong> oraz a formie publicznych snapshot\u00f3w EBS<\/strong>. Poni\u017cej zamieszczam list\u0119 najbardziej popularnych.<\/p>\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n
Nazwa<\/th>\nObj\u0119to\u015b\u0107<\/th>\nAdres<\/th>\nOpis<\/th>\n<\/tr>\n<\/thead>\n
Google Books Ngrams<\/a><\/td>\n2.2TB<\/td>\nS3:\/\/<\/a><\/td>\nZestaw danych zawieraj\u0105cy n-grupy wyraz\u00f3w na podstawie tre\u015bci ksi\u0105\u017cek<\/td>\n<\/tr>\n<\/tbody>\n
CCAFS Climate Data<\/a><\/td>\n6.0TB<\/td>\nS3:\/\/<\/a><\/td>\nZestaw danych zawieraj\u0105cy globalne modele klimatu<\/td>\n<\/tr>\n<\/tbody>\n
Common Crawl Corpus<\/a><\/td>\n541TB<\/td>\nS3:\/\/<\/a><\/td>\nKompilacja danych ze stron internetowych, tekst, metadane<\/td>\n<\/tr>\n<\/tbody>\n
NASA NEX-DCP30<\/a><\/td>\n<\/td>\nS3:\/\/<\/a><\/td>\nNASA Earth Exchange – dane klimatyczne<\/td>\n<\/tr>\n<\/tbody>\n
NASA NEX MOD13Q1<\/a><\/td>\n<\/td>\nS3:\/\/<\/a><\/td>\nNASA Earth Exchange – dane ro\u015blinno\u015bci<\/td>\n<\/tr>\n<\/tbody>\n
NASA NEX Landsat GLS<\/a><\/td>\n<\/td>\nS3:\/\/<\/a><\/td>\nNASA Earth Exchange – dane l\u0105dowe<\/td>\n<\/tr>\n<\/tbody>\n
Human Microbiome Project<\/a><\/td>\n14.0TB<\/td>\nS3:\/\/<\/a><\/td>\nBaza mikrobiologii cz\u0142owieka zawieraj\u0105ca markery genetyczne bakterii<\/td>\n<\/tr>\n<\/tbody>\n
1000 Genomes Project<\/a><\/td>\n200TB<\/td>\nS3:\/\/<\/a><\/td>\nZestaw genom\u00f3w na podstawie ponad 2600 os\u00f3b z 26 r\u00f3\u017cnych populacji<\/td>\n<\/tr>\n<\/tbody>\n
Enron Email Data<\/a><\/td>\n210GB<\/td>\nEBS snap-d203feb5<\/td>\nZbi\u00f3r 1,2mln emaili, 493ty\u015b za\u0142\u0105cznik\u00f3w ze \u015bledztwa rynk\u00f3w energetycznych<\/td>\n<\/tr>\n<\/tbody>\n
Cannabis Sativa Genome<\/a><\/td>\n1.0TB<\/td>\nEBS snap-f8af5298<\/td>\nKompletny genom Cannabis Sativa Cultivar \u201cChemdawg\u201d<\/td>\n<\/tr>\n<\/tbody>\n
ASF Public Mail Archives<\/a><\/td>\n200GB<\/td>\nEBS snap-17f7f476<\/td>\nArchiwum publicznych maili Apache Software Foundation<\/td>\n<\/tr>\n<\/tbody>\n
Freebase Quad Dump<\/a><\/td>\n35GB<\/td>\nEBS snap-b2ca9bdc<\/td>\nZrzut danych wszystkich obecnych fakt\u00f3w i twierdze\u0144 w Freebase<\/td>\n<\/tr>\n<\/tbody>\n
Wikipedia Traffic Statistic<\/a><\/td>\n150GB<\/td>\nEBS snap-f57dec9a<\/td>\nSzczeg\u00f3\u0142owe statystiku ruchu na stronie Wikipedia<\/td>\n<\/tr>\n<\/tbody>\n
Million Song Dataset<\/a><\/td>\n500GB<\/td>\nEBS snap-5178cf30<\/td>\nKolekcja metadanych dotycz\u0105cych popularnych utwor\u00f3w muzycznych<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n

Twitter<\/h3>\n

Ciekawym \u017ar\u00f3d\u0142em s\u0105 wpisy na popularnym portalu Twitter<\/strong>. Mo\u017cliwy jest dost\u0119p do wpis\u00f3w praktycznie w czasie rzeczywistym. Zapewniamy sobie w ten spos\u00f3b ogromn\u0105 ilo\u015b\u0107 danych na wszelkie mo\u017cliwe tematy.
\nWielu dostawc\u00f3w Big Data<\/strong> udost\u0119pnia swoje gotowe przyk\u0142ady korzystania z danych Twittera<\/strong>.<\/p>\n