Обучаемый поиск, как лучше реализовать?

Question

E N @nefedovgeka

Обучаемый поиск, как лучше реализовать?

Есть проект, в котором 1,5 млн товаров, у каждого товара список свойств, товарных предложений нескольких поставщиков, в общем один товар содержит довольно много семантики для нормального поиска.
Поиск сделали на основе сфинкса (стандартный полнотекст посгресса не подошёл из-за ограничения количества полей которым можно задавать разный вес), запилили кучу отраслевой логики, чтобы поиск понимал основные понятия отрасли, в общем все работает круто, во всяком случае ничего лучше по отрасли не видел.
НО он не учится! А хочется чтобы учился.
Поиск в основном служит для обработки сметных просчетов, в систему загружаются списки до 400 позиций и система по ним подбирает нужный товар, потом человек проходится по подобранным и корректирует, если система подобрала не то что нужно, вроде все хорошо, но нужно чтобы система запоминала при корректировке запрос, чтобы потом выдавать то что нужно.
Как я это вижу: сделать отдельный индекс, куда будут падать все слова из запросов и назначить в нем максимальный балл например 50, когда будет падать первый запрос, то каждому из слов будет назначаться по 1 баллу и после того как упадет 50 запросов то часть слов будет иметь 50 баллов а часть меньше, а ошибочные запросы вообще по 1 баллу, но как быть с накоплением ошибочных запросов? ведь из 1000 запросов будет уже возможно по 20 баллов у ошибочных слов.
В общем подскажите не программисту и не математику как тут быть, как лучше сделать "умный" индекс.

Вопрос задан более трёх лет назад
453 просмотра

5 комментариев

Подписаться 6 Сложный 5 комментариев

sim3x @sim3x

А на основе чего поиск будет учиться?

Кейс
Юзер ввел список из 100 позиций
Сфинкс отдал ему Х(сколько) позиций из вашей БД
Что дальше происходит?

Написано более трёх лет назад
Дмитрий Сергеев @JetMaster

> В общем подскажите не программисту и не математику как тут быть

не жалеть дублоны, поскольку каждый должен заниматься своим делом.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

sim3x, на 100 введенных позиций сфинкс отдаст 100 ответов и человек проверит все ли верно и добавит все в корзину, на основе данных корзины и нужно учить.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

Дмитрий Сергеев, Дублоны и не жалеются, каждый занимается своим делом, я пишу из, программист пишет код.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

ТЗ

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

IT-образование

+3 ещё

Простой
Какая есть литература полезная и понятная по Data Science на русском?
- 3 подписчика
- 17 апр.
- 960 просмотров
1

ответ
MySQL

+1 ещё

Средний
Как скрестить ElasticSearch и MySQL?
- 3 подписчика
- 15 апр.
- 682 просмотра
2

ответа
Поисковые системы

Простой
Как искать за переделённый период?
- 1 подписчик
- 11 апр.
- 44 просмотра
1

ответ
Машинное обучение

+2 ещё

Простой
Создание нейронной сети для определения сортов яблок. Как осуществить?
- 1 подписчик
- 11 апр.
- 84 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Как работает адаптивный бустинг для регрессии?
- 1 подписчик
- 05 апр.
- 24 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Чем отличается стекинг от блендинга?
- 1 подписчик
- 02 апр.
- 48 просмотров
1

ответ
Поисковые системы

+1 ещё

Простой
Какие есть годные сайты/программы для процедур OSINT?
- 1 подписчик
- 31 мар.
- 70 просмотров
2

ответа
Elasticsearch

Простой
Как решить «overhead spent ...» и другие проблемы на Еластике?
- 1 подписчик
- 22 мар.
- 21 просмотр
0

ответов
Машинное обучение

+2 ещё

Простой
Что технически(какие it решения, технологический стек) нужны для создания ии ,который сможет на основе жалоб ставить диагноз?
- 1 подписчик
- 21 мар.
- 112 просмотров
3

ответа
Elasticsearch

Простой
Как запретить роли видеть все индексы кроме тех, к которым есть доступ?
- 1 подписчик
- 20 мар.
- 24 просмотра
0

ответов
Показать ещё Загружается…

Data Scientist (Финтех)

Intelinvest

от 60 000 ₽

Senior ML Engineer (Computer Vision)

Gradient

от 450 000 ₽

Python/Django-разработчик (mobile+AI)

4Taps AI • Тольятти

от 150 000 до 250 000 ₽

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

Разработать несистемный алерт

19 апр. 2024, в 20:11

500 руб./за проект

А на основе чего поиск будет учиться?

Кейс
Юзер ввел список из 100 позиций
Сфинкс отдал ему Х(сколько) позиций из вашей БД
Что дальше происходит?
> В общем подскажите не программисту и не математику как тут быть

не жалеть дублоны, поскольку каждый должен заниматься своим делом.
sim3x, на 100 введенных позиций сфинкс отдаст 100 ответов и человек проверит все ли верно и добавит все в корзину, на основе данных корзины и нужно учить.
Дмитрий Сергеев, Дублоны и не жалеются, каждый занимается своим делом, я пишу из, программист пишет код.

Answer 1 · 2019-09-10 21:44:19

Dimonchik @dimonchik2013

non progredi est regredi

Машинлернера с задачей о рюкзаке и опытом оптимизационных задач

поиск тут вообще до

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2019-09-19 11:18:51

Я бы так и делал:

Создать доп. индекс или индексы где лежат помеченные документы (запросы/продукты) но без весов на конкретые термы(слова), а скорее на фичи.
Плюс индексы где лежат помеченные документы, которые совсем не подходят.

Тоесть два класса спомогательных документов, к которым так же идет запрос, если ответ однозначный, то поиск из основного индекса не происходит.

Много не известных деталей: каков поиск сам по себе: с учётом ошибок или без, транслитерация и т.д.
Какой именно движок будет выбран, синхронизация, спомогательных индексов с основным. Но это детали.

Обучаемый поиск, как лучше реализовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт