Как лучше реализовать highload таблицу?

Question

Антон Иванов @Fly3110

web developer

Как лучше реализовать highload таблицу?

Всем привет.

Используется PostgreSQL 9.3
Таблица состоит из полей id (int), started (timestamp), ended(timestamp), task(varchar 2048), active(int), comment(varchar 1024), retries(int)

Количество новых записей в эту таблицу - примерно 2 миллиона строк в сутки.
Количество апдейтов - так же, 2 миллиона.
При этом, актуальность строки (в идеале) - примерно 1 минута. То есть будет так:
00:00. Задача(строка) добавлена со "active"
00:01. Задача обработана ("active" = 0)
При этом, выполненные задания должны быть доступны для просмотра (удалять - не вариант) и должна сохраняться хорошая скорость поиска по id+active (перед постановкой задания проводится проверка, есть ли это задание в таблице, или нет).

Я вижу 3 варианта:

1. Все записи в одной таблице, индекс по active.
2. Завести вторую таблицу (tasks_done), куда переносить выполненные задания
3. После выполнения задания удалять строку из таблицы и помещать ее в nosql лог (elasticsearch)

Какой из вариантов будет предпочтительнее в плане быстродействия поиска еще не выполненного задания и поиска уже выполненного? Допустим, через 2 месяца можно удалять задания, то есть максимальное количество записей в таблице - 60 миллионов.

Вопрос задан более трёх лет назад
3346 просмотров

Комментировать

Подписаться 4 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

NoSQL

+1 ещё

Простой
Как в ScyllaDB создавать функцию и установить её по умолчанию?
- 1 подписчик
- вчера
- 23 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- 17 апр.
- 90 просмотров
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 164 просмотра
3

ответа
PostgreSQL

+2 ещё

Простой
Где искать рекомендуемые настройки SSL-аутентификации для Docker-образа Posgres?
- 1 подписчик
- 17 апр.
- 59 просмотров
3

ответа
PostgreSQL

+1 ещё

Простой
Как поправить язык в SQL Shell (psql)?
- 1 подписчик
- 14 апр.
- 91 просмотр
1

ответ
Python

+1 ещё

Простой
Как оптимизировать запрос?
- 1 подписчик
- 13 апр.
- 134 просмотра
2

ответа
PostgreSQL

Простой
Как взять значение из одной таблицы и прибавить к значению другой таблицы?
- 1 подписчик
- 12 апр.
- 79 просмотров
1

ответ
PostgreSQL

Простой
Psq восстановление бэкапа, что делаю не так?
- 1 подписчик
- 11 апр.
- 81 просмотр
2

ответа
PostgreSQL

+1 ещё

Средний
С чем может быть связана высокая нагрузка на сервер Postgres?
- 2 подписчика
- 11 апр.
- 186 просмотров
1

ответ
Linux

+1 ещё

Средний
Почему большой iowait в cloud vm c postgres?
- 5 подписчиков
- 11 апр.
- 2092 просмотра
4

ответа
Показать ещё Загружается…

Администратор PostgreSQL

Гринатом

До 200 000 ₽

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Верстка и логика формы выбора билетов в зале для покупки

20 апр. 2024, в 00:43

10000 руб./за проект

Разработать формирование УПД на Java

20 апр. 2024, в 00:28

20000 руб./за проект

Answer 1 · 2014-02-26 12:28:51

Если в таблице есть поле ts (ну или как оно у вас называется) которое сохраняет датувремя то можно использовать партиционные таблицы.
https://blog.engineyard.com/2013/scaling-postgresq...
www.postgresql.org/docs/9.3/static/ddl-partitionin...

Answer 2 · 2014-02-28 12:25:40

Если у вас есть требование "в статусе active=1 может быть только один таск с определённым значением поля task" (т.е. нужно отсутствие дубликатов) можно создать составной уникальный частичный индекс по полям task + active с ограничением типа "active = 1". Это позволит:
1) Не делать проверку на наличие таска перед его добавлением. Вместо этого обрабатывать исключение, возникающее при инсерте дублирующихся значений. Ваш вариант с проверкой таска на существование перед добавлением организует вам хорошие проблемы, если вы вдруг задумаете обрабатывать таски хотя бы в два потока.
2) Быстрый поиск по id и active

Регулярный перенос done задач в любом случае хорошая идея - будет облегчаться основная таблица с тасками.

Как лучше реализовать highload таблицу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт