Redis vs SQLite vs PostgreSQL

Question

HiltoN @HiltoN

Redis vs SQLite vs PostgreSQL

Решил сравнить производительность указанных БД для нескольких болльших плоских таблиц и простейших запросов (по ключу, по индексу и т.п.). Представил одинаковую предметную область — очередь сообщений: для SQLite и PostgreSQL это одинаковые схемы, для Redis использовались сортированные списки, т.к. другие варианты хранения не подошли для описанной задачи. Запросы: поиск сообщения по ключу, удаление сообщения по ключу из очереди, выборка сообщений старше n минут, выборка и удаление сообщения из начала очереди.

10 млн строк, все базы занимают почти по 2 ГБ (больше к сожалению не было RAM). Результат: если база влазит в память, то скорость выполнения запросов примерна одинакова для разных «СУБД» (простые операции — около 3000 операций в секунду, посложнее — около 600). В чём же тогда прелесть Redis-а? Понимаю, что он подходит для узконаправленных задач, например, только поиск по ключу, т.е. для ограниченных по размеру кешей. В остальном одни минусы: и за памятью следи, чтобы база влезала в RAM (PG же просто замедлиться перейдя к дисковому чтению, Redis же начнёт свопится); и набор команд и типов данных ограничен.

PS: Что вы используете для надёжного перманентного хранения данных и быстрого выполнения простых запросов? Холивар PG vs MySQL можно опустить, разницы между ними практически не будет.

Вопрос задан более трёх лет назад
16087 просмотров

Комментировать

Подписаться 18 Оценить Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 7

4 комментария

HiltoN @HiltoN Автор вопроса

Спасибо, повеселили.
И тем не менее задача не из головы, а реальная и каждый инструмент неплохо стравился с задачей и по-моему все они при примерно равных весовых категориях (я же не сравнивал с ораклом), но с немного отличающимся функционалом (т.е. часть функционала используется для решения задачи, часть нет). По вашему не бывает задач, которые успешно решаются несколькими способами? Или вы думаете что для конкретной задачи есть идеальный инструмент в котором напрочь отсутсвует лишняя функциональность?

Написано более трёх лет назад
CKOPOBAPKuH @CKOPOBAPKuH

SQLite — встраиваемая база. её можно скорее всего сравнивать с другими встраиваемыми базами. kyoto/tokio cabinet например.
Postgres/mysql и redis — разные весовые категории, у одних есть транзакции, тьюринг-полный sql, гарантированная консистентность, работа с данными которые значительно превышают объём ram и куча других штук, и redis, то есть простейшие структуры данных лежащие в оперативке + небольшой слой для поддержания персистентности.

вы декларировали цель «сравнить производительность указанных БД для нескольких болльших плоских таблиц и простейших запросов».
ваша задача, даже если бы все меряли правильно, не поможет узнать «производительность больших плоских таблиц и простейших запросов». и к очереди она не имеет никакого отношения, потому что у очереди есть ровно 2 операции: «взять» и «положить».
и это не говоря уже о том, что понятие «производительность» очень широкое и его можно трактовать как угодно. некоторые меряют скорость работы единичных аналитических запросов, которые выполняются десятки минут. некоторые меряют время отклика определенного количества мелких запросов с определенного количества потоков. некоторые меряют максимально возможное количество мелких запросов но чтобы время отклика не превышало пороговое, а количество одновременных запросов подбирают.

а что меряете вы? вы меряете задержки у единичных неконкурентных запросов. померяли. результаты ожидаемы.

Написано более трёх лет назад
HiltoN @HiltoN Автор вопроса

> «производительность больших плоских таблиц и простейших запросов».
> и к очереди она не имеет никакого отношения, потому что у очереди
> есть ровно 2 операции: «взять» и «положить».
Очередь — очень большая, сотни миллионов строк. Отсюда и слова про большую проскую таблицу. И кроме положить и взять (брать кстати нужно с начала очереди), нужно ещё — взять всё что накопилось за N минут + убрать всё это после обработки. И желательно делать это в нескольких потоках, т.е. быть уверенным что только ты взял этот элемент с очереди. И да, мои тесты примитивные, но отвечают на один из моих вопросов — сколько операций в секунду даст выполнить база когда к ней будут обращаться с одного потока.

Написано более трёх лет назад
CKOPOBAPKuH @CKOPOBAPKuH

> сколько операций в секунду даст выполнить база когда к ней будут обращаться с одного потока
> сравнить производительность указанных БД для нескольких болльших плоских таблиц и простейших запросов

я вижу тут противоречие. нет, ну на вопрос «сколько операций в секунду даст выполнить база из одного потока» ваши тесты отвечают. я именно поэтому пример с большим пальцем ноги и привёл.

Написано более трёх лет назад

9 комментариев

HiltoN @HiltoN Автор вопроса

Знаком с монго, но он по задумке не очень-то надёжен при работе на одном сервере, требует сервером для репликации и выделенных конфиг-серверов. Конечно всё это можно развернуть на одной машине, но толку от этого мало. Мне же нужно обеспечить максимальную надёжность хранения данных в случае креша.

Про недостаток в виде отсутсвия джойнов — вы ещё наверное с Redis-ом не знакомы, он даже по значениям искать не умеет, лишь по ключам.

Написано более трёх лет назад
Stdit @Stdit

Replica Set очень хороша, можно даже сделать на одной машине на разных портах (хотя я и делал всегда на разных)

Написано более трёх лет назад
Stdit @Stdit

В смысле, машинах

Написано более трёх лет назад
Stdit @Stdit

Да, и вот ещё что подумал: если вам так нужна надёжность, в чём проблема открыть дополнительную вдску?

Написано более трёх лет назад
cystbear @cystbear

Single machine durability резко возрос в MongoDB после версии 1.6. Вот полезная статья на эту тему www.thebuzzmedia.com/mongodb-single-server-data-durability-guide/

Написано более трёх лет назад
Zelgadis @Zelgadis

Так, во первых join'ы не нужный в mongo, встраиваемые документы и DBRef наше все. А во вторых, в mongo уже давно есть журнал изменений и он включен по-умолчанию. А Replica Set имеет смысл только если 3 разных машины иначе это не Replica Set.

Написано более трёх лет назад
Stdit @Stdit

Join нужны, например, когда надо запросить все документы, у которых во вложенном документе (через DBRef) значение поля удовлетворяет какому-то условию. В Mongo это можно сделать только запросив сначала все вложенные через DBRef документы по условию, а потом запросив $in-ом родителей по получившимся DBRef-ам. Это может быть весьма затратно при большом количестве связей.

Написано более трёх лет назад
Zelgadis @Zelgadis

Все же большая часть проблем решает встраиванием и индексом на DBRef. Если все же нужен Join — а тут ли инструмент вы используете? или а правильно ли вы сделали дизаин приложения? Нельзя же реляционую модель мышление на монгу накладывать.

Написано более трёх лет назад
Stdit @Stdit

Никто не говорит о том, правильно ли сделан выбор. Невозможность джойнов — это особенность Mongo, которую нужно иметь в виду при выборе субд, вот и всё.

Написано более трёх лет назад

2 комментария

Maxim Avanov @Ghostwriter

VoltDB (Wiki) Полноценный ACID, но тем не менее, в ней тоже рекомендуется иметь несколько физических машин. Из простого соображения, что без избыточности (версионности) данные не могут считаться надёжно сохраненными, поэтому их нужно физически размещать на нескольких нодах.

Написано более трёх лет назад
dborovikov @dborovikov

А вам высокая доступность не нужна? Если нет, то постгр лучше всего подходит под ваши требования. Но лучше уточнить: какие именно вам нужны запросы? Вам тут правильно написали уже, redis имеет всякие интересные структуры данных, это может сыграть свою роль. Что касается постгра, то он данные кэширует в памяти, нужно только правильно настроить. Да, тогда у меня тоже вопрос :) Мне так и не удалось заставить постгр писать апдейты в wal, а обнволять данные в кэше. Лезет на диск сразу, гад, и апдейтов штук 50 в секунду выполняется.

Написано более трёх лет назад

1 комментарий

HiltoN @HiltoN Автор вопроса

Тесты простейшие, без параллельных запросов, такого плана:

#!/usr/bin/python
import sqlite3
import random
from datetime import datetime

conn = sqlite3.connect('sqlite.db')
cur = conn.cursor()
startTime = datetime.now()
for i in range(1,1000):
	x = random.randint(1,10000000)
	cur.execute('SELECT * FROM t WHERE id=?', (x,))
	cur.fetchall()

print(datetime.now()-startTime)

#!/usr/bin/python
import redis
import random
from datetime import datetime

r = redis.StrictRedis(host='127.0.0.1', port=6379, db=0)
startTime = datetime.now()

for i in range(1,1000):
	x = random.randint(1,10000000)
	r.zscore('queue',x)

print(datetime.now()-startTime)

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

NoSQL

+1 ещё

Простой
Как в ScyllaDB создавать функцию и установить её по умолчанию?
- 1 подписчик
- вчера
- 22 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- вчера
- 87 просмотров
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 155 просмотров
3

ответа
C#

+1 ещё

Простой
Как решить проблему database is locked?
- 1 подписчик
- 17 апр.
- 77 просмотров
1

ответ
PostgreSQL

+2 ещё

Простой
Где искать рекомендуемые настройки SSL-аутентификации для Docker-образа Posgres?
- 1 подписчик
- 17 апр.
- 59 просмотров
3

ответа
Windows

+2 ещё

Простой
Как обеспечить относительный путь к БД SQLite?
- 1 подписчик
- 14 апр.
- 117 просмотров
3

ответа
PostgreSQL

+1 ещё

Простой
Как поправить язык в SQL Shell (psql)?
- 1 подписчик
- 14 апр.
- 91 просмотр
1

ответ
Python

+1 ещё

Простой
Как оптимизировать запрос?
- 1 подписчик
- 13 апр.
- 133 просмотра
2

ответа
PostgreSQL

Простой
Как взять значение из одной таблицы и прибавить к значению другой таблицы?
- 1 подписчик
- 12 апр.
- 78 просмотров
1

ответ
PostgreSQL

Простой
Psq восстановление бэкапа, что делаю не так?
- 1 подписчик
- 11 апр.
- 81 просмотр
2

ответа
Показать ещё Загружается…

Тестировщик SQL

Bell Integrator • Санкт-Петербург

До 200 000 ₽

Программист SQL

САМО-Софт • Москва

До 220 000 ₽

Разработчик БД SQL

FS Travel • Москва

от 170 000 ₽

Изменить тему Shopify, добавить несколько категорий товаров

19 апр. 2024, в 18:11

10000 руб./за проект

Протестировать веб-сервис на Django и подготовить отчеты

19 апр. 2024, в 18:05

1000 руб./в час

Доработать проект на Django

19 апр. 2024, в 18:02

80000 руб./за проект

Answer 1 · 2012-05-03 21:33:09

1. В Redis лучше представлена работа с коллекциями. Простой пример — инкрементальный счётчик. Вы делаете incrby/hincrby для любого ключа, не заботясь о его наличие в хранилище. В Postgres аналогичная функциональность на основе последовательностей (nextval('foo')) подразумевает, что вы уже создали последовательность 'foo' ранее. Это подталкивает вас на написание процедур, которые перед попыткой изменить счётчик, сначала проверяют его наличие, при необходимости создают его и только потом изменяют. Больше ручной работы.

2. Структуры данных в Redis оптимизированы либо под быстрый поик О(1), либо под компактность и приемлемую произволительность O(N), O(log(N)). Практически всегда получается обходиться простыми или вложенными хеш-таблицами с О(1) или О(n). В Postgres вы практически всегда пользуетесь той или иной разновидностью B/R-tree, GiST/GIN индексов со сложностью O(log(N)(+N)). До версии 8.4, индексы типа HASH в Postgres имели практически схожую с B-tree скорость поиска, поэтому их применение не имело никакого смысла. Сейчас, в версии 9.1, смысла стало больше, но не намного — HASH индексы не поддерживают Write-Ahead Log и при сбоях требуют ручной переиндексации:
"Hash index operations are not presently WAL-logged, so hash indexes might need to be rebuilt with REINDEX after a database crash. They are also not replicated over streaming or file-based replication. For these reasons, hash index use is presently discouraged." http://www.postgresql.org/docs/9.1/static/indexes-types.html

У себя в проектах, я использую и Redis, и Postgres. Первый — как эффективную систему для сбора онлайн-статистики (счетчики-лайки, различные метрики), а второй — как хранилище для пользовательских аккаунтов и контента с его мета-информацией. При этом, наметилась тенденция переносить контент на HBase, оставляя для Postgres только задачи по ACID-обслуживанию операций с пользовательскими аккаунтами.

Answer 2 · 2012-05-04 15:37:11

Молоток vs Кувалда vs Отвёртка

Я решил выяснить, какой из инструментов лучше. Представил одинаковую задачу — ударять себя по большому пальцу ноги. Отвёртку решил держать за ручку и ударять наконечником, так как неудобно держать за наконечник и ударять ручкой. Для молотка и кувалды это одинаковые схемы. Запросы: ударить по большому пальцу и измерить время, сколько болит.

Результат: если ударить больно, то палец болит. В чём же тогда прелесть отвёртки? Понимаю, что она подходит для узконаправленных задач, например, только откручивание или закручивание, т.е. для ограниченных задач. В остальном одни минусы: и держать неудобно, и площадь поражения невелика, и по пальцу я попал только с третьего раза.

PS: Что вы используете для надёжного перманентного отбивания пальцев? Холивар классический русский молоток vs молоток из икеи можно опустить, разницы между ними практически не будет.

Answer 3 · 2012-05-03 20:40:47

Помимо РСУБД, мы используем MongoDB. Замечательная и быстрая штука, которая позволяет хранить коллекции из деревьев любой формы, строить индексы по любым их узлам, легко масштабируется горизонтально, имеет довольно мощную систему запросов на чтение и обновление. Недостаток — отсутствие джойнов, проблемы с агрегацией, они решаются путём предварительной агрегации при изменении данных или переучётом по крону.

Answer 4 · 2012-05-03 21:18:43

>для надёжного перманентного хранения данных

Вот здесь берегитесь, на сколько я знаю практически все NoSQL полуперсистентные, то есть не дают 100% гарантий на сохранность. Postgres легко превращяется в некое подобие NoSQL если отключить синхронный коммит — снижаются гарантии сохранности, скорость вырастает где-то на два порядка.

UPDATE — дорогая операция для того же постгра. Видимо in memory базы умеют эту операцию выполнять быстро. Так что для всякого рода счетчиков redis — отличная штука.

Answer 5 · 2012-05-04 00:09:22

>В чём же тогда прелесть Redis-а?
Данные всегда в ОЗУ, когда как в РСУБД индекс может быть вытесняться на диск, данные при этом на больших объемах почти всегда на диске. Поэтому и получаем просадку производительности из-за I/O на диске. В Redis это в принципе нет, они сейчас на сколько я помню от виртуальной памяти отказались. Про О(1) Ghostwriter уже сказал. ACID таки вносит свой оверхед.

Ну и из подобной группы ПО его выделяет условная персистентность.

Answer 6 · 2012-05-04 14:33:35

Если можно перефразирую вопрос: подскажите быструю персистентную базу, которая, желательно, целиком может мапиться в память, обеспечивать высокую надёжность в случае краха системы, работать на одной машине, поддерживать мультипоточность, желательна поддержка транзакционности. Остальные фишки не важны.

На мой взгляд все три описанные в сабже системы подходят под определение (если нет — исправляйте). Что ещё можете посоветовать?

Answer 7 · 2012-05-04 14:36:23

gro @gro

где тесты?
параллельные запросы тестировали?

Ответ написан более трёх лет назад

1 комментарий

Answer 8 · 2012-05-08 13:55:00

1. О каких 3000 запросах в секунду идет речь? На тестовом Intel Atom 1,6 ГГц в скрипте на PHP я получил 12000 запросов в секунду GET/SET

2. Непонятно почему вы не использовали списки (Lists), которые по сути есть готовая реализация очереди?

Redis vs SQLite vs PostgreSQL

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт