Как оптимизировать sql запрос (выборка из 1.5M строк)?

Question

cinic @cinic

Как оптимизировать sql запрос (выборка из 1.5M строк)?

Выбираю данные между двумя датами с количеством строк более миллиона таким запросом:

SELECT
  time AT TIME ZONE 'UTC' AT TIME ZONE 'MSK' AS time,
  type,
  CASE
    WHEN (duration > (extract(epoch from (time - '2015-08-29 12:36:50'))) )
    THEN extract(epoch from (time - '2015-08-29 12:36:50'))
    ELSE duration
  END AS trim_duration
FROM clamps
WHERE device_id = 27 AND time BETWEEN '2015-08-29 12:36:50' AND '2016-03-15 12:36:50'
ORDER BY time ASC

Структура таблицы:

CREATE TABLE clamps
(
  id serial NOT NULL,
  "time" timestamp without time zone,
  duration numeric,
  type character varying(255),
  device_id integer,
  packet_id integer,
  dur_float double precision DEFAULT 0,
  created_at timestamp without time zone DEFAULT now(),
  updated_at timestamp without time zone DEFAULT now(),
  CONSTRAINT clamps_pkey PRIMARY KEY (id)
)

Имеется индекс:

CREATE UNIQUE INDEX index_clamps_on_device_id_time
ON clamps
USING btree (device_id, "time");

Explaine Analyze:

Sort  (cost=149213.28..150770.01 rows=622695 width=21) (actual time=4263.385..4713.566 rows=1469514 loops=1)
  Sort Key: "time"
  Sort Method: external merge  Disk: 71816kB
  ->  Bitmap Heap Scan on clamps  (cost=17535.79..89284.59 rows=622695 width=21) (actual time=190.593..2692.161 rows=1469514 loops=1)
        Recheck Cond: ((device_id = 27) AND ("time" >= '2015-08-29 12:36:50'::timestamp without time zone) AND ("time" <= '2016-03-15 12:36:50'::timestamp without time zone))
        Heap Blocks: exact=17528
        ->  Bitmap Index Scan on index_clamps_on_device_id_time  (cost=0.00..17380.12 rows=622695 width=0) (actual time=186.667..186.667 rows=1469514 loops=1)
              Index Cond: ((device_id = 27) AND ("time" >= '2015-08-29 12:36:50'::timestamp without time zone) AND ("time" <= '2016-03-15 12:36:50'::timestamp without time zone))
Planning time: 0.291 ms
Execution time: 5414.691 ms

Запрос выполняется секунд 9-13 (хоть explain и показывает 5.5). Есть мысли как его оптимизировать?
Спасибо.

Вопрос задан более трёх лет назад
667 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 4

3 комментария

cinic @cinic Автор вопроса

ORDER BY device_id, time — не помогло.
Сортировка нужна для дальнейших вычислений и группировок ((

Написано более трёх лет назад
Павел @Ermako

cinic: Для каких группировок может понадобиться сортировка? Если это выполняется средствами того же sql, то в этом нет необходимости.

Написано более трёх лет назад
cinic @cinic Автор вопроса

Павел в одном из последующих запросов, в каждой строке проверяется наличие определённого значения в следующей строке, тут важна упорядоченность значений по времени. Полноценный запрос - https://gist.github.com/cinic/bf8bd4ed73e3a3bf5136...

Написано более трёх лет назад

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

SQL

Простой
Как правильно работать с двумя версиями данных в ClickHouse?
- 1 подписчик
- 13 часов назад
- 17 просмотров
0

ответов
PHP

+1 ещё

Простой
Где ошибка в коде при создании древа в sql из файла?
- 1 подписчик
- вчера
- 97 просмотров
0

ответов
PostgreSQL

Простой
Нужен ли первичный ключ в таблицах PostgreSQL?
- 1 подписчик
- 23 апр.
- 144 просмотра
2

ответа
PostgreSQL

+1 ещё

Простой
Как добавить отношения «многие-ко-многим» между таблицами из разных баз данных?
- 1 подписчик
- 22 апр.
- 131 просмотр
4

ответа
MySQL

+1 ещё

Простой
Как извлечь топ 15 очков из таблицы чтобы игроки не дублировались?
- 1 подписчик
- 22 апр.
- 118 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- 17 апр.
- 106 просмотров
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 201 просмотр
3

ответа
PostgreSQL

+2 ещё

Простой
Где искать рекомендуемые настройки SSL-аутентификации для Docker-образа Posgres?
- 1 подписчик
- 17 апр.
- 65 просмотров
3

ответа
PostgreSQL

+1 ещё

Простой
Как поправить язык в SQL Shell (psql)?
- 1 подписчик
- 14 апр.
- 98 просмотров
1

ответ
Python

+1 ещё

Простой
Как оптимизировать запрос?
- 1 подписчик
- 13 апр.
- 146 просмотров
2

ответа
Показать ещё Загружается…

Тестировщик SQL

Bell Integrator • Санкт-Петербург

До 200 000 ₽

Программист SQL

АвтоАльянс • Москва

от 165 000 ₽

Программист SQL

САМО-Софт • Москва

До 220 000 ₽

Разработать парсер

26 апр. 2024, в 07:47

2000 руб./за проект

Devops для видео сервиса

26 апр. 2024, в 06:46

1000 руб./в час

Найти ошибку flutter_map

26 апр. 2024, в 05:31

1000 руб./за проект

Answer 1 · 2016-07-29 17:36:44

При анализе результат не передается клиенту, время IO и передачи по сети не учитывается (а у Вас там 1.5 ляма строк, как сами сказали, к тому же относительно длинные строки могут быть).
И что Вы хотите добиться, сортируя огромный массив? Для дальнейшего анализа сортировка обычно не нужна, а для визуального анализа - нужна выборка поменьше. Уберете сортировку - сэкономите еще кучу времени. Это очень дорогая операция. (Хотя, если поставите ORDER BY device_id, time то сортировка может уйти из-за того, что сам по себе индекс хранит значения в отсортированном виде)

И вот это

CASE
    WHEN (duration > (extract(epoch from (time - '2015-08-29 12:36:50'))) )
    THEN extract(epoch from (time - '2015-08-29 12:36:50'))
    ELSE duration
  END AS trim_duration

Заменить на

LEAST(duration, extract(epoch from (time - '2015-08-29 12:36:50')))

Так чуть понятнее и короче, хотя сути и стоимости особо не меняет.

Answer 2 · 2016-07-29 21:48:43

Индекс правильный, но похоже что он не используется, попробуйте жестко указать индекс в запросе, так же можно попробовать переиндексировать.
Памяти под индекс хватает?

Answer 3 · 2016-07-29 17:58:49

WHEN (duration > (extract(epoch from (time - '2015-08-29 12:36:50'))) )
    THEN extract(epoch from (time - '2015-08-29 12:36:50'))

Дублирование кода? Не? Плюс там строки конвертятся каждый раз. Еще ORDER_BY попробуйте убрать.
Если даты константные. То может их лучше представить в более цифровом виде. Точно не помню. SQL это компилируемый язык сейчас, или еще интерпретируемый.

Answer 4 · 2016-07-29 19:20:57

shagguboy @shagguboy

сделать индекс (device_id , time )

Ответ написан более трёх лет назад

1 комментарий

Как оптимизировать sql запрос (выборка из 1.5M строк)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт