Как спроектировать архитектуру поисковой системы?

Question

Sergey Grigorov @Serjio-Grig

Тот самый никто (=

Как спроектировать архитектуру поисковой системы?

Здравствуйте.
Для начала, я хотел бы кратко описать принцип работы поисковой системы.
1. Имеется некий запрос.
2. Запрос подвергается процедуре стемминга.
3. В индексе системы ищутся документы, которые содержат слова из запроса.
4. Документы упорядочиваются относительно частоты слов, их первой точки вхождения и на основании коэффициента корреляции Пирсона, цитируемости другими элементами индекса, а так же «выбираемостью» в качестве результата поиска пользователем (это происходит за счёт нейронной сети с обратным распространением).

Но хранить огромные индексы в одной СУБД — убийство таковой по скорости. Каким образом можно сформировать возможность горизонтального масштабирования для хранения индексов, чтобы не сильно проиграть в скорости работы?
А так же, как можно реализовать механизм пагинации? Можно, конечно, запоминать последний индекс, но сеть его не принимает во внимание, используя полнотекстовый поиск по всем индексам. Да и при таком подходе места для хранения не напасёшься. Создавать отдельную группу кластеров с хранением индексов и запущенным многопоточным серверов для поиска, а после объединения результатов? Но ранжируется в процессе поиска.

В общем, хотелось бы услышать совет профессионалов.

Вопрос задан более трёх лет назад
93 просмотра

3 комментария

Подписаться 3 Простой 3 комментария

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Проектирование программного обеспечения

Простой
Накидайте советов: на чем сейчас писать клиентское приложение с GUI?
- 3 подписчика
- 4 часа назад
- 410 просмотров
3

ответа
Проектирование программного обеспечения

Простой
Как сделать проект-конструктор с зависимостями на Django с переделкой существующей админки?
- 1 подписчик
- 13 апр.
- 84 просмотра
0

ответов
Поисковые системы

Простой
Как искать за переделённый период?
- 1 подписчик
- 11 апр.
- 44 просмотра
1

ответ
Проектирование программного обеспечения

Простой
Как разделять относительно одинаковые скрипты между клиентами?
- 2 подписчика
- 03 апр.
- 191 просмотр
3

ответа
Поисковые системы

+1 ещё

Простой
Какие есть годные сайты/программы для процедур OSINT?
- 1 подписчик
- 31 мар.
- 70 просмотров
2

ответа
Программирование

+2 ещё

Простой
Альтернативы SourceTrail?
- 3 подписчика
- 28 мар.
- 222 просмотра
0

ответов
Мобильная разработка

+1 ещё

Средний
Дальнейшие этапы в создании Приложения после создания прототипа?
- 3 подписчика
- 25 мар.
- 1286 просмотров
8

ответов
Django

+2 ещё

Простой
Веб-приложение на Django и фоновый процесс обработки данных, как сделать?
- 1 подписчик
- 23 мар.
- 141 просмотр
2

ответа
Arduino

+1 ещё

Средний
ARDUINO принципиальная схема подкл. модулей при удаленном доступе посредством Wi-Fi (регулировка яркости светодиода) как сделать?
- 1 подписчик
- 15 мар.
- 70 просмотров
1

ответ
Браузеры

+1 ещё

Средний
Как составить букмарклет для поиска в Yandex из Google?
- 1 подписчик
- 14 мар.
- 62 просмотра
1

ответ
Показать ещё Загружается…

Разработчик программного обеспечения авионики

Котлин-Новатор • Санкт-Петербург

от 50 000 до 150 000 ₽

Ведущий разработчик программного обеспечения авионики

Котлин-Новатор

от 150 000 до 250 000 ₽

Программист SQL

САМО-Софт • Москва

До 220 000 ₽

Дизайн сайта для web3 проекта

18 апр. 2024, в 16:43

50000 руб./за проект

Составление технических заданий для разработчиков

18 апр. 2024, в 16:41

10000 руб./за проект

Разработать дизайн баннера на сайт и плаката для печати

18 апр. 2024, в 16:28

5000 руб./за проект

А чем не устраивают готовые решения поисковых систем (FTS)?
https://en.wikipedia.org/wiki/Full-text_search#Software
ну, у него ж, наверно, такая и есть - Эластик какой нибудь, всепожирающий
dimonchik2013, нет, поисковый движок писался с нуля.
Является хорошей практикой при изучении нейронных сетей.

Answer 1 · 2018-07-22 04:56:04

Sergey Grigorov @Serjio-Grig Автор вопроса

Тот самый никто (=

Решение проблемы найдено — репликация с ежесуточным обновлением индекса.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2018-07-21 22:55:28

Dimonchik @dimonchik2013

non progredi est regredi

Sphinxsearch + MVA

с пагинацией чудес нет - только постобработка после извлечения из движка

Ответ написан более трёх лет назад

1 комментарий

Как спроектировать архитектуру поисковой системы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт