Как правильно сгруппировать данные по временным границам?

Question

kyckos @kyckos

Как правильно сгруппировать данные по временным границам?

Добрый день.
У нас есть модель с примерными данными

id  DateTime                  Value
133 "2015-04-17 12:12:54 +04" 23
134 "2015-04-17 12:13:54 +04" 23
135 "2015-04-17 12:23:54 +04" 23
136 "2015-04-17 12:44:54 +04" 25
137 "2015-04-17 14:52:54 +04" 42
138 "2015-04-17 15:45:54 +04" 42

Нам нужно запросить все записи чей DateTime не пересекается с ближайшими записями в пределах 15 минут.
Т.е 133 подходит
136 подходит так как 44 - 23 > 15 минут
137 и 138 да остальные нет.
Наверное это задача кластеризации, т.е нужно сформировать группы записей с границами в 15 минут. Если более 15 минут то это новый кластер. Проблема в том что я не знаю как это реализовать в виде корректного алгоритма :/.

Наверное нужно что то вроде этого.
Псевдопитонокод

last_row_date_time = datetime.datetime()
groups = [] #Distinct groups
for row in Data.objects.all().order_by('datetime')
     if (row.datetime - last_row_date_time) > datetime.timedelta(minutes=15)
         groups.append(row)
         print "New group"
     else:
         print "Old group"

Но я не понимаю насколько это корректное решение. Возможно есть какие-то более оптимальные способы решения задачи?

Вопрос задан более трёх лет назад
385 просмотров

2 комментария

Подписаться 7 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Django

Простой
Как избежать дублирование кода?
- 1 подписчик
- 12 часов назад
- 44 просмотра
0

ответов
Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 14 часов назад
- 85 просмотров
1

ответ
Django

Простой
Django не могу правильно настроить шаблон?
- 1 подписчик
- 17 часов назад
- 56 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- вчера
- 102 просмотра
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- вчера
- 428 просмотров
1

ответ
Django

Простой
Допустимо ли использовать при деплое встроенный сервер разработки Django в локальной сети?
- 1 подписчик
- вчера
- 60 просмотров
2

ответа
Django

Простой
Django Как сделать чтоб у TabularInline был вложенный TabularInline?
- 1 подписчик
- вчера
- 19 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- 17 апр.
- 90 просмотров
1

ответ
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 17 апр.
- 74 просмотра
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 164 просмотра
3

ответа
Показать ещё Загружается…

Python/Django-разработчик (mobile+AI)

4Taps AI • Тольятти

от 150 000 до 250 000 ₽

Python team lead

Uptrade

от 200 000 до 300 000 ₽

Python Team Lead

Asym Labs Limited

от 4 000 до 5 000 €

Сканер коэффициентов в букмекерских конторах

20 апр. 2024, в 08:39

100000 руб./за проект

Доработать бота

20 апр. 2024, в 08:24

1500 руб./за проект

Разработать интранет сайт (корпоративный портал)

20 апр. 2024, в 07:24

100000 руб./за проект

А хранить в UNIX-формате (миллисекунды) невозможно?)
Евгений Петров: да как угодно) Тут суть не в деталях реализации, а именно в подходе. Может быть есть менее топорный вариант чем перебор с сортировкой.

Answer 1 · 2015-04-17 19:08:14

Для начала я буду отталкиваться от того, что это у Вас какой-то журнал и все записи идут по возрастанию времени. Для простоты я полагаю что эти записи у Вас лежат в массиве.

Решение в лоб - организовать перебор. По шагам:

Берем элемент N
Проверяем существует ли элемент N-1(обработка первого элемента)
Берете dataTime элемента N и вычитайте из него 15 минут(переменная time_minus)
Берем dataTime элемента N-1 и сравниваем с time_minus. Если он меньше - ставите некий флаг, пусть semi_result_minus, в истину
Проверяем существует ли элемент N+1(обработка последнего элемента)
Берете dataTime элемента N и прибавляйте к нему 15 минут(переменная time_plus)
Берем dataTime элемента N+1 и сравниваем с time_plus. Если он меньше - ставите некий флаг, пусть semi_result_plus, в истину
Если обе переменные semi_result_minus и semi_result_plus имеют истинное значение - текущий элемент N соответствует Вашим критериям, значит включайте его в результат

Вам отдельно нужно будет подумать как быть, если Вы работайте с первым и последним элементом, т.к. в этом случае одна из Ваших semi_ переменных точно будет иметь ложное значение.

Answer 2 · 2015-04-17 20:10:44

Если переменная -+15 минут меняться не будет и у вас сейчас в базе не огромное количество данных и вы можете переписать их добавление то:

Текущие данные в базе можно кластеризовать тупо прогнав через питон, думаю алгоритм любой может быть, не суть.

А новые записи кластеризовать при добавлении:
перед добавлением новой записи сделать выборку записей которые "+-15 минут от now".
Проверить найденные записи на наличие групп:
Если группы есть то искать те в которых все записи "+-15 минут от now", если не нашли то создаем новую и привязываем запись.
Группа - это M2M связь.
Возможно понадобятся какие-то блокировки в момент добавления и поиска групп.
Решение которое тут же пришло в голову, может что-то упустил.

Как правильно сгруппировать данные по временным границам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт