@rjsem

Как Apache Spark будет параллельно(или не) брать и обрабатывать данные?

Здравствуйте,

Я решил попытаться разобраться с Apache Spark, и в ходе знакомства с документацией и примерами у меня возник следующий вопрос:

Как спарк будет параллельно(или не) брать и обрабатывать данные?
1. В документации существует куча примеров с sc.textFile(“example.txt”), но нет примеров с parallelize, получается все это будет обрабатываться в 1 потоке(для каждого spark-submit)?

2. Есть примеры с HBase, HDFS, скажите, а как будут браться данные из hdfs, по 1 куску или сразу пачкой(и будут как-то распределятся и суммироваться)? и как всё это будет обрабатываться? параллельно(распределено различными воркерами)?
Что будет в случае использования hbase? а в случае с JDBC(POSTGRES)? Как распределять задания в таком случае?

В дополнение:
Как отправлять данные в spark? я вижу только spark-submit, а существуют ли другие способы и как получить только результат, а не весь мусор?
  • Вопрос задан
  • 122 просмотра
Пригласить эксперта
Ответы на вопрос 1
angrySCV
@angrySCV
machine learning, programming, startuping
данные из внешних источников грузятся в датаСеты (специальный интерфес над RDD) - поэтому вы там не увидели parallelize, вместо этого используется метод toDF или toDS.
в любом случае спарк работает только с RDD и только паралельно/распределенно (используя или нет дополнительные интерфейсы)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы