Ответы пользователя по тегу Apache Spark
  • Как отфильтровать данные за определенный период в Spark?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    можно просто попытаться как вы пишете отфильтровать, для этого в начале получить определенную структуру и тип данных:

    источникДанных
      .мап(созданиеСтруктуры)
      .фильтр(текущаяЗапись => СписокТребуемыхНомеров.содержит(текущаяЗапись.телефон) 
        && текущаяЗапись.дата<>требуемыйИнтервал)


    так будет работать, но очень долго, медленно и сожрет кучу ресурсов на одной машине - это не то ради чего спарк используют, спарк - это движек для распределенных вычислений. А чтоб запустить распределенные вычисления, нужно в начале создать пару "ключ"->"значение" (где ключ номер телефона, а значение все остальные данные), эти пары распределятся по узлам, где будут параллельно обрабатываться, а потом результат паралельной обработки агрегировать в один общий результат, и для этого не фильтр использовать а reduceByKey с aggregate, для паралельного сбора ключей и значений для этих ключей.
    Ответ написан
  • Apache Spark on Kubernetes - deploy process. Как деплоите господа?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    fabric8.io
    и никаких забот по выстраиванию пайплайнов
    Ответ написан
  • Вычисления с помощью Apachee Spark. Мощный сервер или такой же по мощности - кластер?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    памяти всегда чем больше тем лучше, но это не критично, тк в спарке любую большую задачу можно и нужно делить на серию маленьких которые выполняются в памяти.
    По поводу разницы между кластером и одним мощным сервером, мощный сервер будет быстрее, из-за более высокой скорости в выполнении "синхронизации" между "воркерами".
    Но при грамотно составленных задачах расходы на синхронизацию будут чрезвычайно малы и могут выполнятся параллельно выполнению самой задачи, что вобщем особо не будет влиять на производительность.
    В любом случае масштабировать свой сервис через повышение мощности одного сервера - это тупиковый путь. Так что я бы даже не замарачивался по поводу одного очень очень мощного и супер дорогого сервера.
    Ответ написан
  • Как Apache Spark будет параллельно(или не) брать и обрабатывать данные?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    данные из внешних источников грузятся в датаСеты (специальный интерфес над RDD) - поэтому вы там не увидели parallelize, вместо этого используется метод toDF или toDS.
    в любом случае спарк работает только с RDD и только паралельно/распределенно (используя или нет дополнительные интерфейсы)
    Ответ написан