Как отфильтровать данные за определенный период в Spark?

Question

nurzhannogerbek @nurzhannogerbek

Как отфильтровать данные за определенный период в Spark?

Здравствуйте, товарищи! Помогите пожалуйста разобраться.

Раньше со Spark не работал. Пытаюсь разобраться с ним на простом примере. Предположим есть большой файл со следующей структурой (см. ниже). В ней хранится дата, мобильный номер и его статус в это время.

| CREATE_DATE         | MOBILE_KEY | STATUS |
|---------------------|------------|--------|
| 2018-11-28 00:00:00 | 8792548575 | IN     |
| 2018-11-29 20:00:00 | 7052548575 | OUT    |
| 2018-11-30 07:30:00 | 7772548575 | IN     |

Как правильно отфильтровать все данные за указанный период для определенных мобильных номеров? К примеру в качестве входящих данных я получаю такие данные:

val dateFrom = "2018-10-01"
val dateTo = "2018-11-05"
val numbers = "7778529636,745128598,7777533575"

val arr = numbers.split(",") // Создать массив из мобильных номеров

spark.read.parquet("fs://path/file.parquet").filter(???)

Вопрос задан более трёх лет назад
139 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

nurzhannogerbek @nurzhannogerbek Автор вопроса

Здравствуйте! Спасибо за информацию.

Насколько следующий код корректен на ваш взгляд? Не совсем уверен в корректности фильтрации по массиву мобильных номеров.

import spark.implicits._

// Изначально приходят такие вот данные в формате "String"
val dateFrom = "2018-10-01"
val dateTo = "2018-11-05"
val numbers = "7778529636,745128598,7777533575"

// Создаю массив из мобильных номеров
val mobileNumbers = numbers.split(",")

var mf = spark.read.parquet("fs://path/file.parquet")
.filter(
	$"START_DATE".between(dataForm + " 00:00:00", dateTo + " 23:59:59") && $"MOBILE_NUMBER".isin(mobileNumbers: _*)
)

mf.show

На счет распараллеливание вычислений, к примеру создаю датафрейм, но что с ним дальше делать не знаю.

val df = spark.sparkContext.parallelize(mobileNumbers).toDF("mobile_numbers")

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Android

+3 ещё

Средний
Как получить разрешение для автостарта (чтобы при старте оно загружалось) для приложения под Андройд (Android)?
- 1 подписчик
- 2 минуты назад
- 4 просмотра
0

ответов
Java

Простой
Как сделать глобальный чат Chatty?
- 1 подписчик
- 20 апр.
- 64 просмотра
0

ответов
Java

+2 ещё

Простой
Selenide + Spring Boot. Как объявить страницу через метод open(), если класс страницы является bean?
- 1 подписчик
- 19 апр.
- 36 просмотров
0

ответов
Java

+1 ещё

Простой
Почему не видит WebSecurityConfigurerAdapter при попытке импортировать его в класс SecurityConfig?
- 1 подписчик
- 19 апр.
- 51 просмотр
1

ответ
Java

Простой
Почему происходит два пустых вывода при чтении с клавиатуры?
- 1 подписчик
- 19 апр.
- 44 просмотра
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 191 просмотр
3

ответа
Java

+1 ещё

Простой
Как правильно внедрять зависимости в классы, зависящие от не-бинов?
- 1 подписчик
- 16 апр.
- 70 просмотров
1

ответ
Python

+1 ещё

Простой
Возможно ли соединить работающий java код и так же работающий скрипт python?
- 1 подписчик
- 15 апр.
- 222 просмотра
3

ответа
Java

+2 ещё

Простой
Как заставить Tomcat работать c utf-8 и кириллицей?
- 1 подписчик
- 14 апр.
- 62 просмотра
0

ответов
Java

+2 ещё

Простой
Как правильно вывести подблок с данными на странице?
- 1 подписчик
- 14 апр.
- 30 просмотров
1

ответ
Показать ещё Загружается…

Lead Java

Bell Integrator • Ульяновск

До 400 000 ₽

Lead Java

Bell Integrator • Хабаровск

До 400 000 ₽

Lead Java

Bell Integrator • Ижевск

До 400 000 ₽

Создать дизайн лендинга портфолио на фигме

23 апр. 2024, в 14:09

500 руб./за проект

В wordpress подключить модуль по рассрочке (документацию дам)

23 апр. 2024, в 13:51

4500 руб./за проект

Сохранение постов из телеграм каналов+отправка платящим пользователям

17 апр. 2024, в 16:55

200000 руб./за проект

Answer 1 · 2018-12-21 10:05:50

можно просто попытаться как вы пишете отфильтровать, для этого в начале получить определенную структуру и тип данных:

источникДанных
  .мап(созданиеСтруктуры)
  .фильтр(текущаяЗапись => СписокТребуемыхНомеров.содержит(текущаяЗапись.телефон) 
    && текущаяЗапись.дата<>требуемыйИнтервал)

так будет работать, но очень долго, медленно и сожрет кучу ресурсов на одной машине - это не то ради чего спарк используют, спарк - это движек для распределенных вычислений. А чтоб запустить распределенные вычисления, нужно в начале создать пару "ключ"->"значение" (где ключ номер телефона, а значение все остальные данные), эти пары распределятся по узлам, где будут параллельно обрабатываться, а потом результат паралельной обработки агрегировать в один общий результат, и для этого не фильтр использовать а reduceByKey с aggregate, для паралельного сбора ключей и значений для этих ключей.

Answer 2 · 2018-12-27 09:10:47

Дату в формате ISO можно сравнивать как строки. Список телефонов оформить как множество.
Будет что-то типа

val arr = numbers.split(",").toSet

spark.read.parquet("fs://path/file.parquet").filter(t => t("CREATE_DATE") < dateTo && t("CREATE_DATE") > dateFrom && arr(t("MOBILE_KEY")))

Точно не знаю как к полям записи в SPARC обращаться, может быть надо будет немного переделать.

Как отфильтровать данные за определенный период в Spark?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт