Как реализовать пересечение двух множеств (много данных)?

Question

Алексей Солодкий @DoctorX

Веб разработчик

Как реализовать пересечение двух множеств (много данных)?

i.imgur.com/fTwGNcc.png
есть список сайтов (10млн)
и список ключей (40млн)
у каждого сайта есть ключи. У сайта на скрине их 500к
таблица конкурентов конкретного сайта это все сайты которые пересекаются ключами с данным. Отсортированные примерно по количеству этих самых пересечений/общее количество ключей сайта.

Необходимо иметь возможность быстро получать такие таблицы. (постранично)

Основная проблема объём данных.
Таблица большая (736к) имеет пагинацию и сортировку по любому параметру.

Интересует скорее подход чем конкретное решение. Я думаю что mysql на этой задаче сляжет. Что может подойти?
Как можно делать такие выборки за приемлемое время (10 сек)?
Возможно графовые бд? Или может хватит обычной реляционной базы?

Вопрос задан более трёх лет назад
963 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

7 комментариев

Алексей Солодкий @DoctorX Автор вопроса

Максимально до 500к (хотелось бы чтобы максимальный вариант хорошо отрабатывал а не средний.)
Пересечений там много. И сайтов самих тоже много.
>Либо попробовать сделать обратный индекс с сортировпнными сайтами, за один проход вычислять пересечение по сайту, все сайты раскидать по нодам, результат скидывать в БД для сортировки.
Поясните этот вариант.

Я думал о том чтобы вычислить один раз процент конкурентности для каждой пары сайтов. Но это таблица 60м х 60м записей

Написано более трёх лет назад
lega @lega

> Максимально до 500к (хотелось бы чтобы максимальный вариант хорошо отрабатывал а не средний.)

Если максимальных не много, то их можно заранее обсчитать и сохранить, а средние например с 5к ключей будут быстро отрабатывать.

> Поясните этот вариант.

Возможно без обратного индекса будет лучше, если пересечений очень много, я бы попробовал так: сделать базу где все имена перевести в числа (keyvalue хранилище), далее сделать либу на C/C++ в которой реализовать загрузку и поиск, храним массив data[site_id] = [key3, key5] где ключи отсортированы, таким образом вес сайта можно вычислить за один проход, собираем результат сортируя. Возвращаем результат.

Если медленно - 2 улучшения:
1) Разбить все сайты на 10 (или более) кусков и раскидать на 10 ядер (машин), в теории ускориться в ~10 раз, делать запрос параллельно, собирать результаты и мержить.

2) Если пересечения не сильно большие, то можно использовать обратный индекс, это позволит не перебирать все сайты, а только те в которых есть ключи.

> Таблица большая (736к)
Я правильно понял что это результат по одному сайту?

Написано более трёх лет назад
Алексей Солодкий @DoctorX Автор вопроса

Увы в данный момент реальных данных у меня нету так что я не могу сказать по поводу рапределения колличества ключей. Да конечно оптимайз хороший но для начала интересно реально ли решить в общем случае.

Получается струткра размером ~ 10 млн на 250к. А это слишком много даже для одного прохода.
+Ловим проблему с тем что после получения результатов (700к сайтов) с ними нужно строить таблицы.
В прочем я думаю это можно решить записав результат во временную mysql таблицу-кеш. И делать сортировки уже по ней. Потом её удалять.
Но это проход по 2.5 миллиардов элементов + выгрузка 700к в базу. Мне кажется что даже деля на 10 серверов мы не успеем это обработать за минуту.
(когдя я писал олимпиады на паскале цикл из 1-5млн элементов обрабатывался за секунду. Не думаю что с тех пор производительность систем изменилась на несколько порядков)

Написано более трёх лет назад
Алексей Солодкий @DoctorX Автор вопроса

>> Таблица большая (736к)
>Я правильно понял что это результат по одному сайту?
Да конечно

Написано более трёх лет назад
lega @lega

> Получается струткра размером ~ 10 млн на 250к. А это слишком много даже для одного прохода.
10млн х 250к х 4b = 2300Gb, да и памяти не хило занимает.

На счет прохода, сейчас попробовал перебор, у меня ноутбук на одном ядре перебирает более 2000млн/сек, т.е. 8 ядерный сервер можно прикинуть ~32Gi/sec, 2500/32 = 78 сек полный перебор на одном сервере, хотя реальный код может быть сложнее.

Тут ещё вопрос, где вы столько рам возмете? это не дешево, а на диске хранить не вариант.

Тогда можно поискать какой-нибудь не точный поиск, где требуется меньше памяти, может какая-нибудь разбивка ключей по группам и оперировать уже небольшим кол-ом групп или т.п.

Написано более трёх лет назад
Алексей Солодкий @DoctorX Автор вопроса

Вы с графовыми бд не работали? Мне почему-то кажется что эта задача на них должна лечь.

Написано более трёх лет назад
lega @lega

Алексей Солодкий: нет, но я не думаю что они помогут, а если запихать эти данные в граф, то памяти потребуется ещё больше.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

NoSQL

+1 ещё

Простой
Как в ScyllaDB создавать функцию и установить её по умолчанию?
- 1 подписчик
- вчера
- 23 просмотра
0

ответов
PHP

+1 ещё

Простой
Как правильно сформировать запрос и вывести данные в цикле?
- 1 подписчик
- 10 апр.
- 124 просмотра
3

ответа
SQL

Простой
Как вывести колонку с определенной информацией sql?
- 1 подписчик
- 09 апр.
- 100 просмотров
1

ответ
SQL

Простой
Как вывести полученные данные из таблицы sql?
- 1 подписчик
- 09 апр.
- 75 просмотров
2

ответа
Python

+1 ещё

Простой
Как выполнять запросы в БД одновременно?
- 1 подписчик
- 04 апр.
- 186 просмотров
2

ответа
Node.js

+1 ещё

Простой
Как сформировать запрос для фильтра на sql?
- 1 подписчик
- 02 апр.
- 137 просмотров
0

ответов
Веб-разработка

+1 ещё

Средний
Как реализовать синхронную регистрацию на сайте и форуме(XenFORO) мб(связать их бд)?
- 1 подписчик
- 24 мар.
- 70 просмотров
0

ответов
SQL

+2 ещё

Простой
Как правильно сформировать Query Builder код в SQLALCHEMY?
- 1 подписчик
- 13 мар.
- 89 просмотров
1

ответ
Python

+1 ещё

Простой
Где у меня ошибка в sqlite3?
- 1 подписчик
- 12 мар.
- 146 просмотров
3

ответа
Веб-разработка

+1 ещё

Средний
Хорошая ли идея создавать БД на стороне клиентской части (фронтенда)?
- 1 подписчик
- 11 мар.
- 238 просмотров
3

ответа
Показать ещё Загружается…

Тестировщик SQL

Bell Integrator • Санкт-Петербург

До 200 000 ₽

Программист SQL

САМО-Софт • Москва

До 220 000 ₽

Разработчик БД SQL

FS Travel • Москва

от 170 000 ₽

Написать программу иммитирующую поведение человека для выбора услуг

20 апр. 2024, в 00:08

10000 руб./за проект

Разработать мобильное приложение android "справочник студента"

20 апр. 2024, в 00:01

4000 руб./за проект

[python,go] Залить ВИДЕО в тикток

19 апр. 2024, в 23:00

5000 руб./за проект

Answer 1 · 2015-05-20 16:58:19

Дмитрий Энтелис @DmitriyEntelis

Думаю за деньги

imho правильно смотреть и думать в сторону hadoop & mapreduce

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2015-05-21 09:09:48

Можно попробовать sphinxsearch (или эластик), он ищет с сортировкой по релевантности, т.е. сверху будут наибольшие пересечения ключей, но он может сильно задуматься если там много пересечений.
Либо попробовать сделать обратный индекс с сортировпнными сайтами, за один проход вычислять пересечение по сайту, все сайты раскидать по нодам, результат скидывать в БД для сортировки.

Сколько в среднем ключей у сайта?

Answer 3 · 2015-05-21 14:57:29

несовсем понимаю сути проблемы, но если у вас запросы корректные, то есть все нужные вам данные сразу выдает БД, без дополнительной логики кода и вы используете пагинацию (скажем запрашиваете для 1 страницы 100 строк) то все и так будет выполняться за приемлимое время, если нет, то проверьте используете ли вы индексы при запросах

Как реализовать пересечение двух множеств (много данных)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт