Какую технологию хранения/обработки данных использовать для реализация алгоритма схожести предметов (рекомендаций)?

Question

kunya @kunya

Какую технологию хранения/обработки данных использовать для реализация алгоритма схожести предметов (рекомендаций)?

Привет!
Столкнулся с проблемой производительности при реализации алгоритма рекомендаций.

Входные данные:
Есть порядка 60000 записей с оценками пользователей, вида {user_name, item, score} в виде CSV файла на диске, а так же в MongoDB.

Задача:
Для каждой пары предметов рассчитать их схожесть на основе оценок пользователей.

Проблема: Производительность. Пробовал работать с базой данных и вытаскивать оценки для каждой пары, но т.к. всех возможных пар n(n-1)/2, получается слишком долго; много обращений к базе данных. Потом подумал загрузить всё в память и там обсчитывать, но не понятно как маштабировать с увеличением количества оценок (что если все данные не поместятся в память?). Пишу на Node.js, если это важно.

Может, есть специальные технологии для подобной задачи? Подскажите, в каком направлении смотреть:
- более эффективные реализации алгоритма, с малым количеством обращений к базе данных?
- написать какой-то хитрый MapReduce / Aggregate?
- посмотреть базы данных на основе графов?
- что-то другое?

Спасибо!

Вопрос задан более трёх лет назад
2896 просмотров

4 комментария

Подписаться 6 Оценить 4 комментария

Андрей @OLS

Уточните сам алгоритм ? Возможно его можно просто вычислительно изменить потеряв немного на субоптимальности ...

Написано более трёх лет назад
kunya @kunya Автор вопроса

Для каждой пары предметов (item1, item2), я выбираю пользователей, которые оценивали оба эти предмета. Затем считаю разницу между оценками (это грубо и есть расстояние). Например, если item1 и item2 оценили 100 пользователей и все поставили одинаковую оценку - считаем расстояние между предметами 0 (одно и тоже). Если загнать все данные в память и отсортировать по item, затем по user_name.. то по идее можно всё рассчитать за N*(logN + Const). Вообще конечная цель, это дать рекомендации пользователю на основе его оценок. Я думал это сделать таким образом: отобрать предметы, которые пользователь оценил высоко и затем предложить ему ближайшие (на основе проведённых рассчётов).

Написано более трёх лет назад
Андрей @OLS

Непонятный немного рейтинг - получается что и плохими отзывами можно достичь одинаковости мнений и более того, потом предложить такой товар тому, кто может быть единственный его оценил хорошо.

Я то сначала думал, что Вы пытаетесь найти схожих с текущим покупателей по схожести их оценок одинаковым товарам (пусть называются "со сходными взглядами на жизнь"), а затем посмотреть, какие другие товары такие покупатели со сходными взглядами тоже оценили хорошо, а текущий покупатель еще не видел ...

Написано более трёх лет назад
kunya @kunya Автор вопроса

Про рейтинг - вы правы, возможно это изьян. Тут два момента: 1) есть определённая специфика товара (это алкоголь) 2) я думал считать похожесть только, если товар оценили 10+ человек.

Думал об этом, но почему-то решил считать именно похожесть товаров, а не пользователей. Вообще надо подумать, что лучше (непонятен пока критерий), а ещё проще попробовать оба варианта, как только смогу реализовать.

Написано более трёх лет назад

Решения вопроса 1

4 комментария

kunya @kunya Автор вопроса

@OLS Спасибо, попробую так сделать.

Написано более трёх лет назад
kunya @kunya Автор вопроса

@OLS Нашёл статью на хабре по ключевому слову "k-Nearest Neighbours", теперь всё стало яснее и понятно как реализовать.

Написано более трёх лет назад
Андрей @OLS

@kunya В этой статье и комментариях алгоритм kNN обсуждается как исключительно "классификатор". В то же время ничто не мешает не разбивая пользователей на четкие группы, пользоваться весами kNN для взвешивания влияния "j-ого по схожести" соседа на изучаемого пользователя.
В этом плане я даже больше бы Вам посоветовал видеолекции Яндекса по Machine Learning, анонсированные зимой на Хабре. Там в одной из лекций это было довольно подробно рассказано (номер не помню, извините).

Написано более трёх лет назад
kunya @kunya Автор вопроса

@OLS Да, оттуда я уже перешёл на "Коллаборативная фильтрация" :) Спасибо за ссылку, сейчас поищу!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

3 комментария

kunya @kunya Автор вопроса

@AMar4enko Скорее разница по модолю между двумя оценками предметов (потом ещё и делённая на количество оценок). Т.е. непонятно как это вычислить, если в MapReduce, values я могу считать только от одной записи в базе данных, когда мне нужно брать разницу между парами.
{Вася, Балтика 7, 4}
{Вася, Балтика 3, 3}
{Петя, Балтика 7, 5}
{Петя, Балтика 3, 4}

Тут расстояние между Балтика 7 и Балтика 3 (обратное от похожести) будет ((4-3) + (5-4))/2 = 1.

Написано более трёх лет назад
_ _ @AMar4enko

Вы просто формулу замороченную написали и она вас в заблуждение ввела.
Вам всего лишь надо сделать (5 + 4)/2 - (4 + 3)/2, смысл тот же. Получается, что первое это усредненная оценка для первого продукта, второе - для второго.
Т.е. вам для решения вашей задачи надо написать MapReduce, который запишет в каждый продукт усредненную оценку и все, потом делайте по этим оценкам любые выборки.

Написано более трёх лет назад
kunya @kunya Автор вопроса

Спасибо, хорошее замечание!

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 2 часа назад
- 32 просмотра
0

ответов
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 6 часов назад
- 226 просмотров
0

ответов
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- вчера
- 66 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Проблемы с telegram bot, а именно с сообщениями, как исправить?
- 1 подписчик
- вчера
- 67 просмотров
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 101 просмотр
3

ответа
Node.js

+1 ещё

Простой
Error during build: RollupError: Could not resolve. Как исправить ошибку?
- 1 подписчик
- 15 апр.
- 35 просмотров
2

ответа
JavaScript

+4 ещё

Простой
Что делать, если после залива приложения на VPS страница остается недоступной?
- 1 подписчик
- 15 апр.
- 84 просмотра
2

ответа
JavaScript

+2 ещё

Простой
Как на стороне сервера узнать что клиент закрыл браузер?
- 1 подписчик
- 13 апр.
- 168 просмотров
2

ответа
Node.js

Простой
Почему coverage в vitest не видит нужную версию node и падает?
- 1 подписчик
- 13 апр.
- 44 просмотра
1

ответ
MongoDB

Простой
Как упростить запрос к БД?
- 1 подписчик
- 12 апр.
- 79 просмотров
1

ответ
Показать ещё Загружается…

Node.js разработчик

ДАЛЕЕ • Москва

от 200 000 ₽

Senior Backend Developer Node.js

Radium Finance • Москва

от 300 000 до 400 000 ₽

Node.js Developer (middle)

ROBOTMIA • Новосибирск

от 130 000 ₽

Настройка сервера

18 апр. 2024, в 21:56

2000 руб./за проект

Помощь с водпресс

18 апр. 2024, в 21:00

150 руб./за проект

Спарсить ссылки на все товары конкретного продавца в озон

18 апр. 2024, в 20:13

2000 руб./за проект

Уточните сам алгоритм ? Возможно его можно просто вычислительно изменить потеряв немного на субоптимальности ...
Для каждой пары предметов (item1, item2), я выбираю пользователей, которые оценивали оба эти предмета. Затем считаю разницу между оценками (это грубо и есть расстояние). Например, если item1 и item2 оценили 100 пользователей и все поставили одинаковую оценку - считаем расстояние между предметами 0 (одно и тоже). Если загнать все данные в память и отсортировать по item, затем по user_name.. то по идее можно всё рассчитать за N*(logN + Const). Вообще конечная цель, это дать рекомендации пользователю на основе его оценок. Я думал это сделать таким образом: отобрать предметы, которые пользователь оценил высоко и затем предложить ему ближайшие (на основе проведённых рассчётов).
Непонятный немного рейтинг - получается что и плохими отзывами можно достичь одинаковости мнений и более того, потом предложить такой товар тому, кто может быть единственный его оценил хорошо.

Я то сначала думал, что Вы пытаетесь найти схожих с текущим покупателей по схожести их оценок одинаковым товарам (пусть называются "со сходными взглядами на жизнь"), а затем посмотреть, какие другие товары такие покупатели со сходными взглядами тоже оценили хорошо, а текущий покупатель еще не видел ...
Про рейтинг - вы правы, возможно это изьян. Тут два момента: 1) есть определённая специфика товара (это алкоголь) 2) я думал считать похожесть только, если товар оценили 10+ человек.

Думал об этом, но почему-то решил считать именно похожесть товаров, а не пользователей. Вообще надо подумать, что лучше (непонятен пока критерий), а ещё проще попробовать оба варианта, как только смогу реализовать.

Answer 1 · 2014-04-23 13:36:40

В плане теории я бы предложил метод "k-Nearest Neighbours" между покупателями. При этом величину k держать где-то в диапазоне 20-50, и предлагать взвешенно пропорционально степени близости те продукты, которые тоже были положительно оценены k соседями.

В плане практики я создал бы вспомогательную таблицу, где для каждого покупателя хранятся его k соседей (поэтому и предлагаю ограничить k около 30) и нормированное расстояние до них. Этой таблицы будет достаточно для того чтобы с высоким быстродействием предлагать рекомендации.

А саму таблицу пересчитывать отдельным потоком в малонагруженное время раз в неделю или раз в месяц (в зависимости от Вашего товарооборота). Пусть это будет занимать час-два. По факту готовности - переливать в боевую таблицу соседей.

Если интересует мое мнение о формуле расстояния между покупателями или алгоритме средневзвешенного предложения - спрашивайте ...

Answer 2 · 2014-04-22 22:37:13

А что такое схожесть? Линейное соотношение одного score к другому?
Вы можете сделать MapReduce для начального расчета и обновления оценок, запихать оценку в item и искать по вхождению в некий диапазон.
Главное - полный пересчет каждый раз не делать.

Answer 3 · 2014-05-22 16:46:45

mir0shnik @mir0shnik

PredictionIO

Ответ написан более трёх лет назад

Комментировать

Какую технологию хранения/обработки данных использовать для реализация алгоритма схожести предметов (рекомендаций)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт