Я тут недавно статейку опубликовал про MapReduce и Hadoop. Адрес: http://www.itshared.org/2015/03/hadoop-and-mapreduce.html

Комментарии приветствуются!

Я тут недавно статейку опубликовал про MapReduce и Hadoop. Адрес: http://www.itshared.org/2015/03/hadoop-and-mapreduce.html http://habrastorage.org/files/fbc/33e/2b2/fbc33e2b26894055b3a2c8d5d272aebb.jpg Комментарии приветствуются!

Картинка кстати оч клевая, сразу понятно что на какой стадии происходит.

Картинка кстати оч клевая, сразу понятно что на какой стадии происходит.

Спасибо, хорошая статья!

Спасибо, хорошая статья!

Добрый день. Хорошая статья, Hadoop действительно не имеет под собой десятилетий разработки, как СУБД, но и скорость разработки сейчас на порядки выше, чем тогда, когда писались серьезные СУБД. А разрабатывается Hadoop уже достаточно давно - лет 7 по крайней мере.

В связи с этим вопрос. Как вы оцениваете Spark?
На мой взгляд, это как раз такой инструмент, который способен заменить Hadoop относительно быстро. Он работает в памяти (а не на диске), у него есть интерфейсы доступа к данным типа SQL, есть интерфейс для обработки потоковых данных (streaming) и для обработки графов (graphx).

По крайней мере для итеративных алгоритмов (большинство алгоритмов в анализе данных именно такие) - Spark на порядки более быстрый инструмент, чем Hadoop.

Добрый день. Хорошая статья, Hadoop действительно не имеет под собой десятилетий разработки, как СУБД, но и скорость разработки сейчас на порядки выше, чем тогда, когда писались серьезные СУБД. А разрабатывается Hadoop уже достаточно давно - лет 7 по крайней мере. В связи с этим вопрос. Как вы оцениваете Spark? На мой взгляд, это как раз такой инструмент, который способен заменить Hadoop относительно быстро. Он работает в памяти (а не на диске), у него есть интерфейсы доступа к данным типа SQL, есть интерфейс для обработки потоковых данных (streaming) и для обработки графов (graphx). По крайней мере для итеративных алгоритмов (большинство алгоритмов в анализе данных именно такие) - Spark на порядки более быстрый инструмент, чем Hadoop.

Spark мне очень нравится, хорошая система, после Хадупа писать - одно удовольствие. Действительно, он решает многие минусы Хадупа.

Хотя я еще приглядываюсь к другой системе - Apache Flink. Она очень похожа на спарк, но внутри Flink делает оптимизацию "запроса" - прямо как СУБД. Flink не такой популярный, как Spark, но я думаю, что именно эти системы заменят Hadoop достаточно быстро, как вы и написали.

Сейчас я пишу пост про Flink, скоро опубликую. Так же в планах есть и пост про Spark.

Spark мне очень нравится, хорошая система, после Хадупа писать - одно удовольствие. Действительно, он решает многие минусы Хадупа. Хотя я еще приглядываюсь к другой системе - Apache Flink. Она очень похожа на спарк, но внутри Flink делает оптимизацию "запроса" - прямо как СУБД. Flink не такой популярный, как Spark, но я думаю, что именно эти системы заменят Hadoop достаточно быстро, как вы и написали. Сейчас я пишу пост про Flink, скоро опубликую. Так же в планах есть и пост про Spark.
204
просмотров
4
ответов
4
подписчики
Предпросмотр
введите как минимим 10 characters
WARNING: You mentioned %MENTIONS%, but they cannot see this message and will not be notified
Сохраняю...
Сохранено
Все темы будут удалено ?
Сохранены неопубликованные черновики. Нажмите для продолжения редактирования
Discard draft