Чтож. Отработал я первую неделю. Пора рассказать чем мне предстоит заниматься после окончания стажеровки (через ещё одну неделю).
Заниматься мне предстоит большими данными (BigData) используя hadoop. Вкрадце: эта технология имеет схожее назначение с SQL (а с использованием некоторых финтов, в ней можно использовать SQL синтаксис). Но кардинальным отличием является то, что hadoop позволяет оперировать данными, практически неограниченного размера. В то время, как на обслуживание огромной базы данных SQL вам понадобится супернавороченный сервер с огромным дисковым пространством (а если данные продолжают поступать, то даже самый крутой сервер не спасет), то для работы hadoop требуется кластер из самых простых машинок, и не важно, какой объем памяти будет у каждой из них. Даже 100Тб таблицу можно будет обработать, если она помещается в суммарную память кластера (+ минимум ещё столько же, для хранения резервной копии, и ещё немного для хранения данных узлов имён). Файл просто разбивается на блоки (вот и весь секрет).
Но как же передавать такие файлы из кластера для обработки? А ни как. Их не надо передавать. Когда вы пишите программу с использованием Hadoop, то её код отправляется на каждый из узлов кластера для параллельного выполнения. И сама итоговая выборка сохраняется в общую файловую систему кластера (или куда вы её попросите).
Подобная технология появилась неспроста. Первыми нужду в подобном ощутили поисковые гиганты. И в данное время её пользуется практически все, от Google и Microsoft, до операторов мобильной связи и банков.
Вот такой интересной штукой мне предстоит заниматься :3