Как работать с большими БД для web-проектов?

Question

Goodver @Goodver

Как работать с большими БД для web-проектов?

Вебсайт, имеются несколько больших БД по 10~20 миллионов записей. Использую связку php-mysql
В таком случае если нужно сделать выборку SELECT хотябы из одной базы то это занимает до нескольких минут.

Поставил Sphinx, с поиском все замечательно, вот только нет live update, а мне нужно чтобы когда вноситься новая информация или изменяется старая то это сразу было в работе. То есть как на хабре к прмеру, когда я создаю новый вопрос или топик я сразу могу перейти на его страницу, а у сфинса нужно обновлять индексы для этого.

Как имея миллионы записей скажем на хабре все так быстро индексируется?

Подскажите пожалуйста инструменты, способы работы с большими БД. То есть мне нужно сдлеать максимальную скорость выборки SELECT (INSERT, UPDATE тоже нужно, но второстепенно), причем чтобы ДБ был live, то есть если вноситься информация то она сразу может быть использована. Может быть другие БД использовать не mysql…

И еще, можно ли хотябы примерно сказать зависимость обработки подобных запросов от наличия ОЗУ. То есть грубо говоря 2ГБ RAM — 2 минуты, 4ГБ RAM — 1 минута. Интересует хотябы примерная зависимость.

Вопрос задан более трёх лет назад
14585 просмотров

2 комментария

Подписаться 11 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 10

1 комментарий

Комментировать

3 комментария

Goodver @Goodver Автор вопроса

Я про это знаю, но это все «как бы» лайв индекс, то есть во первых делается просто вручную грубо говоря, всмысле обновляется через какой-то промежуток времени. А мне нужно чтобы как только внесено изменение оно сразу становилось рабочим.

Написано более трёх лет назад
Aleks @aleks_raiden

реал тайм индекс как раз то что вам нужно без этих там всяких намеков на «как-бы» и тру

Написано более трёх лет назад
Goodver @Goodver Автор вопроса

Реал тайм индексы, INSERT и REPLACE, в базу и основной идекс ничего не вносят, а вносят в свою таблицу. Тоесть если мне например нужно удалить чтото из sql, то в индексе сфинкса это останется. Кроме того UPDATE сфинкса не может обновлять строковые поля. Единственный способ использования реал тайм индексов я вижу как: создать 3 рейл там индекса: INSERT, DELETE, UPDATE. При создании внесении новой информации, делается инсерт в sql, а так же RT индекс INSERT, при удалении информации делается delete в sql, а так же вноситься запись об этом в RT индекс DELETE, c UPDATE соответсвенно. Так вот при SELECT у сфинса, нужно будет брать информацию у основного индекса и корректировать ее используя RT индексы. Я правильно понимаю или можно как то проще?

Написано более трёх лет назад

1 комментарий

3 комментария

Комментировать

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Простой
Заполнить не существующими датами из бд в графике apexcharts?
- 1 подписчик
- 26 минут назад
- 15 просмотров
1

ответ
PHP

+1 ещё

Средний
Почему одинаково-написанный curl запрос отдает разные ответы?
- 1 подписчик
- 10 часов назад
- 90 просмотров
0

ответов
PHP

+1 ещё

Простой
Как импортировать xlsx и csv в базу данных битрикса?
- 1 подписчик
- 10 часов назад
- 13 просмотров
1

ответ
PHP

Простой
Как работать с округлением?
- 1 подписчик
- 14 часов назад
- 80 просмотров
1

ответ
PHP

Простой
Вывожу куки в корзине, куда записал товар, не выводит, в чем ошибка?
- 1 подписчик
- 16 часов назад
- 69 просмотров
0

ответов
PHP

Простой
Функция str_replace() не работает?
- 1 подписчик
- 20 часов назад
- 123 просмотра
3

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- 23 часа назад
- 30 просмотров
1

ответ
PHP

+2 ещё

Сложный
Интеграция Telegram с CRM системой. Что посоветуете?
- 1 подписчик
- вчера
- 128 просмотров
1

ответ
JavaScript

+3 ещё

Простой
Как принять данные от JQuery.ajax на сервере php?
- 1 подписчик
- вчера
- 91 просмотр
1

ответ
MySQL

+1 ещё

Средний
MySQL ошибка InnoDB: Attempted to open a previously opened tablespace. Куда копать?
- 1 подписчик
- 15 апр.
- 57 просмотров
1

ответ
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP-разработчик

FunPay

от 300 000 до 500 000 ₽

Графический дизайнер

18 апр. 2024, в 07:58

500 руб./в час

Разработать мини-приложение Windows 7-11, Linux,Macos

18 апр. 2024, в 07:22

45000 руб./за проект

Каталог AI tools

18 апр. 2024, в 01:12

150000 руб./за проект

каким это боком я могу уточнять этот чужой вопрос?? © e_jin

Answer 1 · 2012-06-25 17:41:15

Стоят ли у вас индексы на таблицах?
Sphinx это поисковой движок, при коротком времени обновления индекса у вас будет свежая инфа в индексе.

Но мне кажется вы что-то делаете не так:
Зачем собственно выводить данные из индекс sphinx, а не напрямую из бд? Если проблема только в скорости значит у вас проблемы с запросами. Необходимо проанализировать запросы через EXPALIN и проверить наличие и использование индексов.

Answer 2 · 2012-06-25 20:56:27

edogs @edogs

индексов нет

Поставьте индексы.
Ваш К.О.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2012-06-25 18:10:45

В Sphinx есть real-time indexes
sphinxsearch.com/docs/2.0.4/rt-indexes.html

Так же в нём есть delta индекс
sphinxsearch.com/docs/2.0.4/delta-updates.html
это когда у вас есть основной(main) индекс + небольшой индекс delta, в котором хранится индекс по признаку, например id>99999. При изменении в бд вы обновляете только delta индекс а поиск осуществляется по индексу main+delta

Answer 4 · 2012-06-25 18:08:30

Оптимизируйте запросы и БД.
Просто написать запрос — недостаточно, важно написать его так, чтобы операции выподнились в оптимальном порядке.
dev.mysql.com/doc/refman/5.5/en/execution-plan-information.html
Т.е. к примеру делать объединение данных а потом фильтрацию заведомо дольще чем сначала отфтльтровать, а потом объединить, исключить использование оператора IN, итд итп.

Партиции! Посмотрите в сторону секционирования.

Потом надо смотреть производительность сервера, узким местом может быть диск, посмотрите что показывает iostat в время выполнения запроса.

Нет, нельзя привязаться к объему ОЗУ. Зависит от индексов, типов операций, нагрузки на диск, а если движек InnoDB, то есть смысл тюнить параметры.

Короче. Несколько были такие таблицы в MySQL 4.xx — все работало нормально если аккуратно. В 5.x должно работать гораздо лучше, т.к. средств новых появилось больше. Указанные Вами объемы (10-20 млн строк) нормально обрабатывал на ноутбуке.

Answer 5 · 2012-06-25 17:46:40

В принципе, работая с PHP + MySQL делал выборку не самую тривиальную из таблиц с количеством записей выше миллиона и это не занимало больше двух секунд, так что, думаю, что disc прав.

Конечно, можно посмотреть в сторону Oracle DB, а, смотря на Twitter, в сторону RoR. Но, для начала, нужно оптимизировать запросы, проверить индексы и т.д.

Answer 6 · 2012-06-25 20:24:35

1. Утилита mysqltuner поможет настроить сам mysql
2. С помощью explain посмотрите используются ли индексы при выполнении запросов
3. Ваша проблема наверняка связана с тем, что не созданы нужные для ускорения конкретно ваших запросов индексы.

Подсказать что-то большее можно уже только увидев структуру БД и сам запрос.

Также рекомендую книгу Мартин Грабер «Понимание SQL». Там очень много ценного про оптимизацию запросов есть.

Answer 7 · 2012-06-25 18:04:05

hOtRush @hOtRush

помоему mysql для таких обьемов данных не лучший выбор.
сколько весит ваша база, для интереса)

Ответ написан более трёх лет назад

2 комментария

Answer 8 · 2012-06-25 18:54:26

Запрос простой, без джоинов? Как он выглядит? Индексы по тем полям, которые упоминаются в условиях запроса, есть?

Answer 9 · 2012-06-25 21:05:40

>То есть грубо говоря 2ГБ RAM — 2 минуты, 4ГБ RAM — 1 минута

меньше 200 мс обычно такие запросы выполняются

Answer 10 · 2012-06-26 00:01:27

Написать триггер на вставку, который будет добавлять данные сразу в оффлайн индекс (в данном случае Sphinx).

Пример вызова PHP кода из триггера: stackoverflow.com/questions/1467369/invoking-a-php-script-from-a-mysql-trigger

Как работать с большими БД для web-проектов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт