Вычисления с помощью Apachee Spark. Мощный сервер или такой же по мощности — кластер?

Question

web_dev @web_dev

Вычисления с помощью Apachee Spark. Мощный сервер или такой же по мощности — кластер?

Здравствуйте. Не могу "нагуглить" сл информацию и хочется понимать...
В случае с Apachee Spark вычислений - нужно много оперативной памяти, кластер вычислительный и так д..
Но настаёт вопрос, который я немного не понимаю.

В случае с MapReduce как будет вычисляться быстрее. Если один сервер имеет такие же параметры как.. скажем 5 нодов в кластере?
Какова приблизительная производительность вычислений одного сервера и кластера с такими же параметрами?

Например сервер 10 ядер и 256 оперативки
5 нодов кластера по 2 ядра каждый и 51 гб оперативки.

Спасибо!

Вопрос задан более трёх лет назад
1166 просмотров

Комментировать

Подписаться 3 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 3

7 комментариев

web_dev @web_dev Автор вопроса

Владимир Олохтонов Пасиб за ответ. Да, это я понимаю. Но разве для Спарка не пямать главное? Может глупости спрашиваю.. Почему он не может в памяти распараллелить или по ядрам? Тоисть кластер из 5 комп послабее может дать прирост вычислений в 2-3 раза?

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

web_dev, ну вот представьте себе простейшее вычисление - просто подсчет числа элементов.
Нагрузка на память и процессор минимальна, скорее всего спарк уткнется в пропускную способность дисковой подсистемы.
Если вы разнесете обработку на 5, условно, машин, то и время обработки уменьшится кратно.

Это далеко не всегда так, но тем не менее, при не слишком тяжёлых вычислениях, большее число машин даст лучший результат, чем одна, но мощная.

Написано более трёх лет назад
web_dev @web_dev Автор вопроса

Владимир Олохтонов, Понимаю Вас, но тем не менее. Спарк же все вычисления в оперативной памяти делает. От этого и быстрый.. Почему Вы говорите, что нагрузка на память будет минимальная?
Дело в том, что данных должна быть немного, но алгоритмы сложные должны быть. Например 100мб данных, но вычисления реально требуют много времени. В данном случае всё-равно кластер будет в выиграше?
Спасибо!

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

web_dev, в этом случае очевидно наоборот, поскольку время загрузки с диска около секунды.

А если данных у вас не 100 мегабайт, а несколько терабайт? Вы их в память не загрузите, а обрабатывать их как-то надо :)

Написано более трёх лет назад
web_dev @web_dev Автор вопроса

Владимир Олохтонов, Да я вас понимаю. Но в данном случае речь идёт действительно о вычислениях только данных много не будет. Математика серьезная и так д.. Больше сказать не могу, так как за это отвечает другой человек. Я пытаюсь найти оптимальное решение...
Получит ли в данном случае кластер выигрыш?

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

web_dev, зависит от используемых алгоритмов, если они эффективно параллелятся, то можно получить преимущество. Если нет, то смысла в этом не будет и более быстрая машинка посчитает в 1 поток всё быстрее. Правда не понятно зачем вам в этом случае спарк.

Написано более трёх лет назад
web_dev @web_dev Автор вопроса

Владимир Олохтонов, - пасиб. это скорее всего экспериментально. Учиться, пробовать, тестировать. При этом хочется понимать, что где когда и как. )) Думаю Вы помогли утрясти небольшую кашу в голове.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Android

+3 ещё

Средний
Как получить разрешение для автостарта (чтобы при старте оно загружалось) для приложения под Андройд (Android)?
- 1 подписчик
- вчера
- 61 просмотр
0

ответов
Java

Простой
Как сделать глобальный чат Chatty?
- 1 подписчик
- 20 апр.
- 73 просмотра
0

ответов
Java

+2 ещё

Простой
Selenide + Spring Boot. Как объявить страницу через метод open(), если класс страницы является bean?
- 1 подписчик
- 19 апр.
- 41 просмотр
0

ответов
Java

+1 ещё

Простой
Почему не видит WebSecurityConfigurerAdapter при попытке импортировать его в класс SecurityConfig?
- 1 подписчик
- 19 апр.
- 62 просмотра
1

ответ
Java

Простой
Почему происходит два пустых вывода при чтении с клавиатуры?
- 1 подписчик
- 19 апр.
- 49 просмотров
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 198 просмотров
3

ответа
Java

+1 ещё

Простой
Как правильно внедрять зависимости в классы, зависящие от не-бинов?
- 1 подписчик
- 16 апр.
- 72 просмотра
1

ответ
Python

+1 ещё

Простой
Возможно ли соединить работающий java код и так же работающий скрипт python?
- 1 подписчик
- 15 апр.
- 230 просмотров
3

ответа
Java

+2 ещё

Простой
Как заставить Tomcat работать c utf-8 и кириллицей?
- 1 подписчик
- 14 апр.
- 65 просмотров
0

ответов
Java

+2 ещё

Простой
Как правильно вывести подблок с данными на странице?
- 1 подписчик
- 14 апр.
- 30 просмотров
1

ответ
Показать ещё Загружается…

Lead Java

Bell Integrator • Ульяновск

До 400 000 ₽

Lead Java

Bell Integrator • Хабаровск

До 400 000 ₽

Java-разработчик

ДАЛЕЕ

от 200 000 ₽

Доработка индикатора

25 апр. 2024, в 14:05

2000 руб./за проект

Разработать дизайн карточки для маркетплейсов

25 апр. 2024, в 14:01

3000 руб./за проект

Веб-приложения "Афиша" и "Бронирование":

25 апр. 2024, в 13:59

20000 руб./за проект

Answer 1 · 2017-11-21 17:22:22

Зависит от ваших вычислений. В общем случае кластер будет быстрее за счет параллельной обработки блоков данных (чаще рассчеты упираются не в CPU и память, а в диски и сеть).

Answer 2 · 2017-12-19 19:38:34

Если все данные влазят на диски одного сервера, то, за счёт отсутствия передачи данных по сети, этот вариант может оказаться более производительным.

Answer 3 · 2018-04-17 20:15:45

памяти всегда чем больше тем лучше, но это не критично, тк в спарке любую большую задачу можно и нужно делить на серию маленьких которые выполняются в памяти.
По поводу разницы между кластером и одним мощным сервером, мощный сервер будет быстрее, из-за более высокой скорости в выполнении "синхронизации" между "воркерами".
Но при грамотно составленных задачах расходы на синхронизацию будут чрезвычайно малы и могут выполнятся параллельно выполнению самой задачи, что вобщем особо не будет влиять на производительность.
В любом случае масштабировать свой сервис через повышение мощности одного сервера - это тупиковый путь. Так что я бы даже не замарачивался по поводу одного очень очень мощного и супер дорогого сервера.

Вычисления с помощью Apachee Spark. Мощный сервер или такой же по мощности — кластер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт