Что выбрать для полнотекстового поиска по большому объёму данных?

Question

datahub4 @datahub4

Что выбрать для полнотекстового поиска по большому объёму данных?

Доброго дня
Стоит такая амбициозная (для меня по крайней мере) задача

Есть ~50M PDF документов, средний размер каждого ~1MB, минимальный 10KB, максимальный 50MB.
Суммарный объём выходит под 50TB.
95% данных в документе это текст.
Нужно обеспечить полнотекстовый поиск по всему объёму данных, тоесть есть фраза - надо показать документы где она встречается и (опционально) показать снипеты, тоесть текстовое окружение где в документе нашлась фраза.

Добавление даных в базу происходит редко и оно некритично, тоесть его можно выполнять долго и с низким приоритетом. Удаление/изменение данных не случается вообще.

Требования к системе в порядке приоритета.
1 Возможность запустить это всё на как можно более дешёвом и доступном железе - это критично т.к. бюджет на инфраструктуру ограничен
2 Скорость поиска
3 Надёжность и отказоустойчивость
4 Лёгкость масштабирования

Самостоятельно почитал про Эластик, Монго, Постгр, Касандру и от этого ещё больше запутался.

Если у кого-то есть опыт в схожих задачах поделитесь идеей при помощи каких технологий это можно было бы реализовать.
Спасибо заранее всем откликнувшимся

Вопрос задан более трёх лет назад
2069 просмотров

1 комментарий

Подписаться 16 Простой 1 комментарий

Решения вопроса 5

1 комментарий

Комментировать

1 комментарий

Пригласить эксперта

Ответы на вопрос 6

3 комментария

Александр Аксентьев @Sanasol

Потому что он скорее мёртв чем жив к сожалению.

Статей, мануалов толковых мало, апдейтов нет и т.д.

Написано более трёх лет назад
Алексей Карташов @antixrist

Ну Аксёнов каждый год выступает на HighLoad'е с докладами по Sphinx'у, митапы вон какие-то проводят (судя по официальному сайту). С толковыми мануалами на русском - да, есть такая проблема. Но документация (пусть и на английском) - в наличии, релизы с фиксами и улучшениями (после выхода третьей версии) выходят стабильно.
Да и в полнотекстовом поиске уже давно всё изобретено - выдумывать что-то новое здесь сложно)
А sphinx вполне себе шустрый движок, старается выдавать максимальную производительность, по потребляемым ресурсам - эластику точно фору даёт.
Вот за горизонтальное масштабирование судить не берусь, может быть эластик в этом плане будет выигрышнее.

Написано более трёх лет назад
Dimonchik @dimonchik2013

ну, Аксенов - надо признать честно - перешел в Авито на фуллтайм

но

Сфинкс подхватили manticoresearch , с бОльшим числом мануалов, но, увы, тоже для тех кто в теме
хотя(!) их штука работает из коробки, на надо конфиг писать, индексер запускать и все такое

а не упомянули, потому что у "никто" массивы данных по 50к )), там не то что Эластик на VPS справится, там Эксель справится

проекты, где айтемы считаются миллионами и владельцы считают деньги, которые жрет железо, не для всех, тем более, что логи вполне пихают в Кликхаус

плюс, конечно, у Эластика много создано для удобства програмера

где Сфинкс, там и Reindexer, при прочих равных - сопоставимо по затратам на поддержку, Го-прогеров потихоньку становится больше

Написано более трёх лет назад

1 комментарий

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Поисковые системы

Простой
Как искать за переделённый период?
- 1 подписчик
- 11 апр.
- 44 просмотра
1

ответ
Поисковые системы

+1 ещё

Простой
Какие есть годные сайты/программы для процедур OSINT?
- 1 подписчик
- 31 мар.
- 70 просмотров
2

ответа
Веб-разработка

+1 ещё

Средний
Как реализовать синхронную регистрацию на сайте и форуме(XenFORO) мб(связать их бд)?
- 1 подписчик
- 24 мар.
- 70 просмотров
0

ответов
Браузеры

+1 ещё

Средний
Как составить букмарклет для поиска в Yandex из Google?
- 1 подписчик
- 14 мар.
- 62 просмотра
1

ответ
Веб-разработка

+1 ещё

Средний
Хорошая ли идея создавать БД на стороне клиентской части (фронтенда)?
- 1 подписчик
- 11 мар.
- 238 просмотров
3

ответа
SQL

+2 ещё

Простой
Почему нельзя создать поля типов Boolean или Date в Sqlite через DBeaver или SqliteStudio?
- 1 подписчик
- 29 февр.
- 165 просмотров
2

ответа
Python

+2 ещё

Простой
Как вписать в дискорд бота команду по выдаче роли с удалением предыдущих ролей?
- 1 подписчик
- 29 февр.
- 85 просмотров
1

ответ
Базы данных

Простой
Как максимально быстро найти в диапазоне IP-адресов или подсетях нужный IP-адрес?
- 3 подписчика
- 22 февр.
- 184 просмотра
4

ответа
Node.js

+3 ещё

Средний
Почему при установке Sequelize, не устанавливается pgAdmin?
- 1 подписчик
- 18 февр.
- 62 просмотра
3

ответа
Open Source

+1 ещё

Простой
Персональный гугл, если ли?
- 2 подписчика
- 09 февр.
- 398 просмотров
8

ответов
Показать ещё Загружается…

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Программист C++ Builder / базы данных MySQL

RU Electronics • Москва

от 180 000 до 200 000 ₽

Настройка сервера

18 апр. 2024, в 21:56

2000 руб./за проект

Помощь с водпресс

18 апр. 2024, в 21:00

150 руб./за проект

Устранить проблемы с парсерами и отображением новостей

18 апр. 2024, в 20:08

7000 руб./за проект

Кстати в порядке эксперимента попробуйте SharePoint, для его поисковика нагрузка вполне по силам.

https://cann0nf0dder.wordpress.com/2016/09/07/buil...

Answer 1 · 2019-12-05 01:33:48

Sphinx/Manticore Search могут подойти и по экономичности и по объему данных.
Эластик скушает всю память и не подавится.

Добавлено
Есть и другие игроки.

Solr has been more oriented towards text search. Elasticsearch quickly carved out its niche, aiming for log analytics by creating the Elastic Stack

Apache Solr. SolrCloud - шардинг и репликация. Solr умеет анализировать (искать) различные документы.
Elasticsearch vs. Solr vs. Sphinx: Best Open Sourc...
Для извлечения текста и метаданных самостоятельно можно использовать фреймворк Apache Tika.
Apache Hadoop - для хранения PDF.
Такой объем данных будет нелегко обработать. Будет много мороки с инфраструктурой и эксплуатацией ПО.

Answer 2 · 2019-12-04 20:42:10

За таким поиском вам в elasticSearch, там и полнотекстовый и Highlighting есть. Масштабируется относительно легко.

Сами документы можно положить в монгу - она тоже масштабируется неплохо. Т.е. эластик ищет, возвращает вам idшники документов, вы по ним достаёте сами документы из монги.

Но правда жрать ресурсы всё это добро будет нормально так :(

Answer 3 · 2019-12-05 10:09:16

На опыте нашей фирмы, подобная задача решается в Solr или Эластике. Постгри не насилуйте ни удовольствия от процесса ни результата не будет.

Answer 4 · 2019-12-04 20:35:05

Cheypnow @Cheypnow

Elastic search / Solr

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2019-12-05 14:44:46

Apache Tika

The Apache Tika™ toolkit detects and extracts metadata and text from over a thousand different file types (such as PPT, XLS, and PDF). All of these file types can be parsed through a single interface, making Tika useful for search engine indexing, content analysis, translation, and much more.

Apache Solr

Here are the three most common ways of loading data into a Solr index:

Using the Solr Cell framework built on Apache Tika for ingesting binary files or structured files such as Office, Word, PDF, and other proprietary formats.

Answer 6 · 2019-12-05 00:50:41

Алексей Карташов @antixrist

А почему никто не упомянул Sphinx?

Ответ написан более трёх лет назад

3 комментария

Answer 7 · 2019-12-04 20:31:41

Рекомендую элластик, впрочем мы использовали Lucene.Net это его основа. Впрочем родные движки FTS в постгре, оракле и mssql то же неплохие.

Основной затык это морфология, а точнее словари, во всяком случае в случае кирилицы и немецкого.

https://habr.com/ru/post/280488/

Answer 8 · 2019-12-04 21:27:51

Рекомендую сделать это руками без применения олдскульных инструментов (Эластик, Монго, Постгр, Касандру). Определитесь с тем, какие у вас данные, затем - как их связать.

Обычно, одна нода ("узел") - это один слог (любого слова).
Дальше - стройте граф, проходя по тексту: занося слоги и ставя связи (слева-справа: id-шники соседних "узлов"), и отдельно - локации: id-узла, id-локации (линк, файл, документ, URL и т.п.).

Поиск - путь по нодам даст сразу все локации. (это мнгновенно, т.к. всё по ID происходит)

Требования к системе в порядке приоритета.
1 Возможность запустить это всё на как можно более дешёвом и досутпном железе - это критично т.к. бюджет на инфраструктуту ограничен
2 Скорость поиска
3 Надёжность и отказоустойчивость
4 Лёгкость масштабирования

Все требования исполняются на 100%.

Answer 9 · 2019-12-05 12:27:02

Не знаю, я бы существующие проиндексировал, а новые или изменённые индексировал в процессе добавления (изменения). Т.е. выдёргивал текст и уже по тексту по базе гонял Снипиксом. Как в поисковых системах. Быстрее в любом случае искать по тексту файла и получать список ссылок, чем поиском по файлам. Да данные будут избыточны, но скорость будет ощутимо выше. Потому как там дальше и индексы, и прочее.

Answer 10 · 2019-12-05 19:48:07

akimdi @akimdi

его уже пробовали?

Ответ написан более трёх лет назад

Комментировать

Answer 11 · 2019-12-05 22:52:02

Gnusi @Gnusi

ArangoSearch в ArangoDB пробовали?

Ответ написан более трёх лет назад

Комментировать

Что выбрать для полнотекстового поиска по большому объёму данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт