Как пресечение дублирование результатов запросов?

Question

Flanker381 @Flanker381

Как пресечение дублирование результатов запросов?

Задачка больше алгоритмическая чем прикладная.
Есть таблица с полнотекстовым релевантным поиском. Результат каждого уникального запроса записывается в отдельную таблицу (10 позиций, запрос - результат).Проблема в том, что некоторые запросы могут различаться весьма незначительно, склонением, 1 коротким словом и др. При этом по 5, 10, 20 и более схожих запросов - результат один. Собственно суть - пресечь сохранение в таблицу результатов дублей (уникальный индекс не предлагать, контент в запросах меняется) похожих запросов.

По моему - оптимально определять степень релевантности пред идущих запросов и просто не сохранять если результат по проверке имеет высокую релевантность. Поиск реализуется запросом:

SELECT *, MATCH `field` AGAINST ('$search') as relev FROM `table` ORDER BY relev DESC

Как вытянуть показатель relev в переменную php или задать ей значение релевантности около 80% не в курсе.

Буду благодарен за любые мысли по этому поводу.

Вопрос задан более трёх лет назад
2273 просмотра

1 комментарий

Подписаться 2 Оценить 1 комментарий

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- час назад
- 39 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 20 часов назад
- 95 просмотров
3

ответа
PHP

+1 ещё

Простой
Почему клиент телеграма отсылает битый запрос?
- 1 подписчик
- 21 час назад
- 98 просмотров
0

ответов
PHP

+2 ещё

Простой
Как в Drupal 10 массово проставить noindex для >1000 страниц?
- 1 подписчик
- 22 часа назад
- 41 просмотр
1

ответ
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 23 часа назад
- 416 просмотров
1

ответ
MySQL

+1 ещё

Средний
Как восстановить базу данных mysql, если служба mysql не запускается на windows?
- 1 подписчик
- вчера
- 87 просмотров
1

ответ
WordPress

+1 ещё

Простой
Как импортировать большую базу данных в Wordpress?
- 1 подписчик
- вчера
- 57 просмотров
3

ответа
PHP

+1 ещё

Простой
Парсинг XML yandex?
- 1 подписчик
- вчера
- 92 просмотра
0

ответов
PHP

Простой
Заполнить не существующими датами из бд в графике apexcharts?
- 1 подписчик
- вчера
- 57 просмотров
2

ответа
PHP

+1 ещё

Средний
Почему одинаково-написанный curl запрос отдает разные ответы?
- 1 подписчик
- вчера
- 135 просмотров
0

ответов
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

Сделать дизайн главной страницы сайта

19 апр. 2024, в 19:17

1500 руб./за проект

DevOps задачи, работа с Yandex Cloud и Yandex Database

19 апр. 2024, в 18:38

1500 руб./в час

Верстка сайта -4-5 страниц

19 апр. 2024, в 18:36

1500 руб./за проект

Заголовок напомнил бессмертное, "Что использовать чтобы огурцы ложкой банка майонеза."

Answer 1 · 2014-10-31 13:06:50

1. mysql не умеет возвращать релевантность поиска.
2. От меня ускользает смысл в жестком кешировании результатов запроса.
3. Почему бы не использовать для поиска инструменты которые для этого предназначены, например sphinx.
И искать будет качественнее, и скорее всего быстрее, и никакой кеш не нужен будет.

Answer 2 · 2014-10-31 14:51:31

В общем это нужно для анализа запросов. Соответственно сохраняю те, где результат уникален.
В принципе додумался как это сделать со статичным контентом. Просто берём допустим заголовки первых 10 записей, суммируем, делаем хэш (primary key не по id), и сохраняем вместе с запросом. При следующих запросах проверяем есть ли уже такой хэш в базе.
Но задача усложняется тем, что контент динамичен. Полный цикл обновления контента в базе - месяц. Сегодня мы сохранили один хэш, а завтра в результате этой выдачи одна новая запись и хэш уже другой, при том под вчерашним хэшем будет точно такой же результат -> опять дубль. UPDATE хэш-записи можно сделать при каждом новом идентичном запросе, но в таком случае есть окно между новым похожим запросом-дублем и обновлением старого запроса.
(Извините за заголовок, опечатка)

Answer 3 · 2014-10-31 20:55:58

Проиндексируйте свой контент сфинксом, при составлении индекса он туда записывает слова без окончания
то есть "машина" и "машины" будут для него одинаковыми. Если вы будете искать по таким словам, то результаты будут одинаковыми. На выходе сфинкс даст вам набор идентификаторов из БД, его можете сохранить как вам удобно.

Как пресечение дублирование результатов запросов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт