Kolejny artykuł ze względu na wysoko-chmurowy charakter trafił na Chmurowisko.pl
Zapraszam do lektury! Jest to kolejne wydanie przygotowania Hadoop, tym razem na Amazon Web Services wykorzystując mechanizmy Elastic Map Reduce.
Big Data AWS
Dla ułatwienia przygotowałem 20-minutowe video pokazujące krok po kroku jak możemy przygotować sobie środowisko Hadoop wykorzystując do tego wszystkie dobrodziejstwa chmury.
Jedyne różnice w stosunku do poprzedniego artykułu Ekspresowa instalacja Hadoop, Hive, Pig to kopiowanie wykonujemy bezpośrednio z S3 do HDFS, komenda będzie nieco inna, podobnie jak lokalizacja docelowa w HDFS czyli „/tmp”.
hadoop distcp s3n://bigdatalab/input/Batting.csv hdfs:///tmp
Dalsze kroki możemy po prostu skopiować i wkleić, pamiętając aby podmienić ścieżkę HDFS z „/user/root” na „/tmp”
LOAD DATA INPATH '/tmp/Batting.csv' OVERWRITE INTO TABLE temp_batting;
Możesz kontynuować przeklejanie z poprzedniego artykułu Ekspresowa instalacja Hadoop, Hive, Pig lub spróbować własnych sił.